什麼是向量資料庫?
資訊有多種形式。有些資訊為非結構化資訊 (例如文字文件、多媒體和音訊),有些則則是結構化資訊,例如應用程式日誌、資料表和圖形。得益於人工智慧和機器學習 (AI/ML) 的創新,我們能夠建立一種機器學習模型 – 嵌入模型。內嵌可將所有類型的資料編碼為向量,以擷取資產含義和內容。這讓我們能夠搜尋相鄰的資料點,藉此來尋找類似的資產。向量搜尋方法可帶來獨特的體驗,例如使用智慧型手機拍照和搜尋類似影像。
向量資料庫提供以高維度點存放和擷取向量的功能。向量資料庫還具有額外的功能,可供高效快速地查詢 N 維空間中的最近鄰。通常採用 k-最近鄰 (k-NN) 索引技術,並使用 Hierarchical Navigable Small World (HNSW) 和 Inverted File Index (IVF) 之類的演算法進行建置。向量資料庫還提供額外功能,例如資料管理、容錯、身分驗證和存取控制,以及查詢引擎。
為什麼向量資料庫很重要?
您的開發人員可以將內嵌項目產生的向量,編製索引至向量資料庫。這可讓他們透過查詢相鄰向量來尋找類似的資產。
向量資料庫提供了一種操作內嵌模型的方法。利用資源管理、安全控制、可擴展性、容錯能力,以及透過複雜查詢語言進行高效資訊擷取等資料庫功能,應用程式開發更具生產力。
向量資料庫最終可讓開發人員建立獨特的應用程式體驗。例如,您的使用者可以在智慧型手機上拍攝照片以搜索類似的影像。
開發人員可以使用其他類型的機器學習模型,自動從影像和掃描文件之類的內容擷取中繼資料。他們可以將中繼資料與向量一起編製索引,以便在鍵字和向量上進行混合搜尋。他們也可以將語意理解融合到相關性排名,以改善搜索結果。
生成人工智能(AI)的創新引入了新類型的模型,例如 ChatGPT,可以生成文本並管理與人類的複雜對話。某些模型可以在多種模式下操作;例如,某些模型可讓使用者描述風景並產生符合描述的影像。
然而,生成模型容易出現幻覺,例如,這可能會導致聊天機器人誤導用戶。 向量資料庫可以補充生成式 AI 模型。其可以為生成式 AI 聊天機器人提供外部知識庫,並協助確保提供可信任的資訊。
如何使用向量資料庫?
向量資料庫通常用於支援視覺化、語意和多模態搜尋等向量搜尋使用案例。最近,向量資料庫與生成式人工智慧 (AI) 文字模型搭配使用,建立可提供對話式搜尋體驗的智慧型代理程式。
開發程序從建置一個內嵌模型開始,該模型旨在將像產品影像之類的語料庫編碼為向量。資料匯入程序也稱為資料水合。應用程式開發人員現在可以使用資料庫來搜尋類似的產品,方法是編碼產品影像並使用向量來查詢類似的影像。
在模型中,k-nearest neighbor (k-NN) 索引可提供有效的向量擷取,並套用像餘弦之類的距離函數,依相似性對結果進行排序。
誰使用向量資料庫?
向量資料庫適用於想要建立向量搜尋支援體驗的開發人員。應用程式開發人員可以使用開放原始碼模型、自動化機器學習 (ML) 工具和基礎模型服務,產生內嵌項目並充實向量資料庫。這需要最低限度的 ML 專業知識。
由資料科學家和工程師組成的團隊可以建置經過專業調整的內嵌項目,並透過向量資料庫對其進行操作。這有助於他們更快地提供人工智慧 (AI) 解決方案。
操作團隊將受益於可如同熟悉的資料庫工作負載一般管理解決方案。他們可以使用現有的工具和手冊。
向量資料庫有哪些優勢?
向量資料庫可讓開發人員創新並且建立由向量搜尋提供的獨特體驗。其可以加速人工智慧 (AI) 應用程式開發,並簡化採用 AI 技術的應用程式工作負載的操作。
向量資料庫提供了一種替代方法,可以在空白的 k-nearest neighbor (k-NN) 索引之上建置。這種索引需要大量額外的專業知識和工程才能使用、調整和操作。
良好的向量資料庫透過資料管理、容錯能力、重要安全功能和查詢引擎等功能,為應用程式提供基礎。這些功能可讓使用者操作其工作負載,以簡化擴展、維持高度可擴展性並支援安全要求。
查詢引擎和 SDK 等功能可簡化應用程式開發。這些功能也可讓開發人員在 k-NN 搜尋過程中,對中繼資料執行更進階的查詢 (例如搜索和篩選)。其還可以選擇使用混合相關性評分模型,將 BM25 等傳統術語頻率模型與向量分數相結合,以增強資訊擷取。
AWS 如何支援您的其他向量資料庫要求?
Amazon Web Services (AWS) 為您的向量資料庫要求提供許多其他服務,特別是當您需要向量搜尋其他地方 (Amazon Aurora、Amazon S3、Amazon MemoryDB) 的現有資料時:
- Amazon Aurora PostgreSQL-Compatible Edition 和 Amazon Relational Database Service (Amazon RDS) for PostgreSQL 支援 pgvector 擴充功能,將來自機器學習 (ML) 模型的內嵌項目存放在您的資料庫中,並且執行有效率的相似性搜尋。
- Amazon Neptune ML 是 Neptune 的新功能,它使用圖形神經網絡 (GNNs),這是一種專為圖形打造的 ML 技術,使用圖形資料進行簡單、快速和更準確的預測。
- Amazon MemoryDB 的向量搜尋支援儲存數百萬向量,具有單位數毫秒查詢和更新回應時間,以及每秒數千萬次查詢 (QPS),記憶速度超過 99%。
- Amazon DocumentDB (具有 MongoDB 相容性) 支援向量搜尋,這是一項全新功能,可讓您以毫秒回應時間儲存、索引和搜尋數百萬向量。透過 Amazon DocumentDB 的向量搜尋功能,您可以簡單地為 ML 應用程式設定、操作和擴展資料庫。
立即建立帳戶,開始使用 AWS 上的向量資料庫。