博士。 Ram Sriharsha 是 Pinecone 的工程和研發副總裁。
在加入 Pinecone 之前,Ram 曾在 Yahoo、Databricks 和 Splunk 擔任副總裁。在雅虎,他既是首席軟件工程師,又是研究科學家。在 Databricks,他是基因組學統一分析平台的產品和工程主管;在 Splunk 的三年裡,他擔任過多個角色,包括高級首席科學家、工程副總裁和傑出工程師。
Pinecone 是一個完全託管的矢量數據庫,可以輕鬆地將矢量搜索添加到生產應用程序中。它結合了矢量搜索庫、過濾等功能和分佈式基礎架構,可在任何規模下提供高性能和可靠性。
機器學習最初吸引您的是什麼?
吸引您的是高維統計、學習理論和類似主題我機器學習。它們在數學上有明確的定義,可以進行推理,並且對學習的意義以及如何設計可以高效學習的算法提供一些基本見解。
之前您是 Splunk 的工程副總裁,一個數據平台,可幫助將數據轉化為可觀察性、IT、安全性等方面的行動。您從這次經歷中得到的一些重要收穫是什麼?
直到我接觸到 Splunk,我才意識到企業搜索中的用例有多麼多樣化:人們使用 Splunk 進行日誌分析、可觀察性和無數其他用例中的安全分析。許多這些用例的共同點是檢測非結構化數據中的相似事件或高度不同(或異常)的事件。事實證明,這是一個難題,搜索此類數據的傳統方法的可擴展性不強。在 Splunk 期間,我圍繞這些領域發起了研究,研究如何將機器學習(和深度學習)用於日誌挖掘、安全分析等。通過這項工作,我開始意識到向量嵌入和向量搜索最終將成為這些領域的新方法的基本原語。
您能為我們描述一下什麼是向量搜索嗎?
在傳統搜索(也稱為關鍵字搜索)中),您正在尋找查詢和文檔之間的關鍵字匹配(這可能是推文、網絡文檔、法律文檔,等等)。為此,您將查詢拆分為其標記,檢索包含給定標記的文檔,然後合併和排序以確定與給定查詢最相關的文檔。
當然,主要問題是要獲得相關結果,您的查詢必須在文檔中有關鍵字匹配。傳統搜索的一個經典問題是:如果你搜索“pop”,你會匹配到“pop music”,但不會匹配到“soda”等,因為“pop”和包含“soda”的文檔之間沒有關鍵字重疊,儘管我們知道在美國的許多地區通俗地講,“pop”與“soda”的意思相同。
在向量搜索中,您首先將查詢和文檔轉換為某個高維向量空間。這通常是通過將文本傳遞給深度學習模型(如 OpenAI 的 LLM 或其他語言模型)來完成的。結果得到的是一個浮點數數組,可以將其視為某個高維空間中的向量。
核心思想是這個高維空間中的鄰近向量在語義上也相似.回到我們的“soda”和“pop”的例子,如果模型是在正確的語料庫上訓練的,它可能會認為“pop”和“soda”在語義上相似,因此相應的嵌入將在嵌入空間。如果是這樣的話,那麼為給定查詢檢索附近的文檔就變成了在這個高維空間中搜索相應查詢向量的最近鄰居的問題。
你能描述一下向量是什麼嗎數據庫是什麼以及它如何支持構建高性能矢量搜索應用程序?
矢量數據庫存儲、索引和管理這些嵌入(或矢量)。矢量數據庫解決的主要挑戰是:
在矢量上構建高效的搜索索引以回答最近鄰查詢構建高效的輔助索引和數據結構以支持查詢過濾。例如,假設您只想搜索語料庫的一個子集,您應該能夠利用現有的搜索索引而無需重建它
支持高效更新並保持數據和搜索索引新鮮、一致, durable 等。
Pinecone 使用哪些不同類型的機器學習算法?
我們通常研究近似最近鄰搜索算法和開發新算法,以盡可能經濟高效的方式高效更新、查詢和處理大量數據。
我們還致力於將密集和稀疏檢索相結合的算法,以提高搜索相關性。
p>
構建可擴展搜索背後的一些挑戰是什麼?
雖然近似最近鄰搜索已經研究了幾十年,但我們相信還有很多工作要做
特別是在設計大規模最近鄰時具有成本效益的搜索、大規模執行高效過濾或設計支持大量更新和通常為新索引的算法都是當今具有挑戰性的問題。
有哪些不同類型該技術可用於哪些用例?
矢量數據庫的用例範圍與日俱增。除了在語義搜索中的應用外,我們還看到它被用於圖像搜索、圖像檢索、生成式 AI、安全分析等。
您對搜索的未來有何看法?
我認為搜索的未來將由 AI 驅動,而且我認為這並不遙遠。在那個未來,我希望矢量數據庫成為核心原語。我們喜歡將矢量數據庫視為 AI 的長期記憶(或外部知識庫)。
感謝您的精彩採訪,希望了解更多信息的讀者可以訪問 松果。