加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 向量數(shù)據(jù)庫(kù)剛剛開(kāi)始
    • 兩股新勢(shì)力云是方向
    • 接下來(lái)向量數(shù)據(jù)庫(kù)卷什么?
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

騰訊云把向量數(shù)據(jù)庫(kù)“卷”到哪一步了?

01/15 13:20
2628
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

“不是我不明白,這世界變化快”,崔健在20世紀(jì)寫(xiě)下的這句歌詞,放在剛剛過(guò)去的2023年,也同樣適用。技術(shù)風(fēng)向的變化之快,讓不少人感到驚訝,向量數(shù)據(jù)庫(kù)這一年的潮起潮落,就是一個(gè)典型的例子。

2023年初大模型、生成式 AI的起飛,也帶來(lái)了向量數(shù)據(jù)庫(kù)的火爆,投融資項(xiàng)目爆發(fā)式增長(zhǎng),傳統(tǒng)數(shù)據(jù)庫(kù)廠商和公有云廠商都推出了相關(guān)產(chǎn)品。然而一年狂飆之后,市場(chǎng)又開(kāi)始退潮,前不久全球最著名的 AI 項(xiàng)目之一AutoGPT 宣布,不再使用向量數(shù)據(jù)庫(kù)。

向量數(shù)據(jù)庫(kù)真的是AI革命中的組成部分嗎?這一市場(chǎng)有哪些參與者?騰訊云為代表的公有云廠商,又在這場(chǎng)技術(shù)創(chuàng)新中發(fā)揮了什么作用?

向量數(shù)據(jù)庫(kù)剛剛開(kāi)始

新技術(shù)的火爆,必然會(huì)伴隨炒作和泡沫,但向量作為大模型理解世界的數(shù)據(jù)形式,向量數(shù)據(jù)庫(kù)作為AI革命重要基建的位置,長(zhǎng)期來(lái)看,是不會(huì)動(dòng)搖的。

為什么這么說(shuō)?

向量數(shù)據(jù)庫(kù)并不是一種特別新的數(shù)據(jù)庫(kù)技術(shù),在AI領(lǐng)域已經(jīng)應(yīng)用了七八年,谷歌在2015年就宣布使用RankBrain語(yǔ)義檢索來(lái)處理搜索任務(wù)。如果說(shuō)數(shù)據(jù)庫(kù)是數(shù)據(jù)的“硬盤(pán)”,那么,向量數(shù)據(jù)庫(kù)就是更適合AI體質(zhì)的“硬盤(pán)”。

其“AI原生”的體質(zhì),具體表現(xiàn)在幾個(gè)方面:

1.更高的效率。AI算法,要從圖像、音頻和文本等海量的非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí),提取出以向量為表示形式的“特征”,以便模型能夠理解和處理。因此,向量數(shù)據(jù)庫(kù)比傳統(tǒng)基于索引的數(shù)據(jù)庫(kù)有明顯優(yōu)勢(shì)。

2.更低的成本。大模型要從一種新技術(shù)轉(zhuǎn)化為產(chǎn)業(yè)價(jià)值,必須達(dá)到合理的投入產(chǎn)出比,而向量數(shù)據(jù)庫(kù)可以有效減少存儲(chǔ)和計(jì)算成本。一個(gè)公開(kāi)數(shù)據(jù)是,通過(guò)騰訊云向量數(shù)據(jù)庫(kù),QQ音樂(lè)人均聽(tīng)歌時(shí)長(zhǎng)提升3.2%、騰訊視頻有效曝光人均時(shí)長(zhǎng)提升1.74%、QQ瀏覽器成本降低37.9%,就在于檢索效率、運(yùn)行穩(wěn)定性、運(yùn)營(yíng)效率、推薦算法等,有了較大的提升。

(騰訊云數(shù)據(jù)庫(kù)產(chǎn)品架構(gòu))

3.更強(qiáng)的數(shù)據(jù)安全。有個(gè)企業(yè)直言:我沉淀了幾十年的內(nèi)部數(shù)據(jù),是我的的核心競(jìng)爭(zhēng)力,讓我無(wú)償去公開(kāi)給大模型做訓(xùn)練,我肯定不愿意。想做大模型,還要確保數(shù)據(jù)的隱私安全,就必須與數(shù)據(jù)庫(kù)產(chǎn)品做好配合,這給向量數(shù)據(jù)庫(kù)的本地部署帶來(lái)了廣闊的需求。

4.更大的擴(kuò)展性。隨著大模型走向行業(yè)應(yīng)用,垂直領(lǐng)域的AI用例不斷增多,洶涌的數(shù)據(jù)洪潮和存算任務(wù),會(huì)帶來(lái)大量向量搜索的需求。而向量數(shù)據(jù)庫(kù)嵌入向量的長(zhǎng)度不受限制,具有良好的擴(kuò)展性,可以根據(jù)AI用例和模型而變化,更好地處理大規(guī)模數(shù)據(jù)集。

所以說(shuō),除非大模型技術(shù),在短期內(nèi)發(fā)生顛覆性改變,否則落地應(yīng)用還是需要向量檢索和向量數(shù)據(jù)庫(kù)。而作為大模型技術(shù)標(biāo)桿的OpenAI最近也透露:我們可能已經(jīng)非常接近實(shí)現(xiàn)通用人工智能(AGI),應(yīng)該以通用人工智能的實(shí)現(xiàn)為前提進(jìn)行創(chuàng)業(yè)和技術(shù)開(kāi)發(fā)。

由此可以肯定,向量數(shù)據(jù)庫(kù)市場(chǎng)必然還會(huì)迎來(lái)一輪增長(zhǎng)。年底趨于冷靜,只是2023年熱情過(guò)度高漲的適當(dāng)回調(diào)。

兩股新勢(shì)力云是方向

從引爆到飽和,向量數(shù)據(jù)庫(kù)市場(chǎng)的發(fā)展速度迅猛,也吸引了“群雄逐鹿”。

傳統(tǒng)數(shù)據(jù)庫(kù)廠商不必多說(shuō),既有相應(yīng)的能力建設(shè),也有一定的客戶基礎(chǔ),推出相關(guān)產(chǎn)品是必然。一些在AI領(lǐng)域積淀已久的科技大廠,如谷歌、微軟、Meta、百度等大廠,都有向量數(shù)據(jù)庫(kù)的技術(shù)積累,也都可以向外輸出相關(guān)能力和產(chǎn)品。這些我們都比較熟悉了。

而上一年狂飆突進(jìn)的兩股新勢(shì)力,成為市場(chǎng)上的黑馬,分別是創(chuàng)業(yè)公司和公有云。

以上半年爆火的AI創(chuàng)業(yè)新秀Pinecone為代表。Pinecone是閉源的領(lǐng)跑者,憑借良好的開(kāi)箱即用的產(chǎn)品體驗(yàn),獲得了非常大的增長(zhǎng),B輪估值達(dá)到7.5億美元。其他競(jìng)爭(zhēng)者大多建立在開(kāi)源項(xiàng)目的基礎(chǔ)上。

總體來(lái)說(shuō),這些創(chuàng)業(yè)“獨(dú)角獸”的向量數(shù)據(jù)庫(kù)公司,固然新銳,但長(zhǎng)期盈利能力還有待驗(yàn)證。原因是,其客戶大多是嘗鮮、實(shí)驗(yàn)性質(zhì)。

一般來(lái)說(shuō),企業(yè)需要先將非結(jié)構(gòu)化的私密數(shù)據(jù),進(jìn)行一個(gè)小的模型,進(jìn)行向量化,產(chǎn)生一個(gè)向量的矩陣,再存儲(chǔ)到向量數(shù)據(jù)庫(kù)里,來(lái)供大模型學(xué)習(xí)和檢索。這個(gè)過(guò)程涉及大量的工程化,會(huì)耗費(fèi)企業(yè)許多開(kāi)發(fā)人員、時(shí)間成本,一開(kāi)始可能會(huì)因?yàn)?a class="article-link" target="_blank" href="/tag/AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/">AI大模型很火而對(duì)向量數(shù)據(jù)庫(kù)產(chǎn)生興趣,但能否真正在業(yè)務(wù)中落地還是個(gè)未知數(shù),因此,長(zhǎng)期付費(fèi)意愿還有較大的不確定性。

另一股“新勢(shì)力”:公有云廠商,也是向量數(shù)據(jù)庫(kù)的積極參與者。

不是所有企業(yè)都有能力自建大模型所需要的基礎(chǔ)設(shè)施,通過(guò)MaaS(模型即服務(wù))業(yè)務(wù)來(lái)訓(xùn)練應(yīng)用大模型,是更靈活的選擇。

此外,上云用數(shù)賦智是大勢(shì)所趨,很多政企客戶往往會(huì)選擇公有云或行業(yè)云來(lái)滿足其業(yè)務(wù)需求,將數(shù)據(jù)遷移到云上,對(duì)云數(shù)據(jù)庫(kù)的關(guān)注度和接受度上升,而這些用戶在探索大模型時(shí),會(huì)傾向于以整體解決方案的形式來(lái)交付,這就給了云廠商參與游戲的機(jī)會(huì),同時(shí)也要求云廠商提供向量數(shù)據(jù)庫(kù)的全棧支持。

以騰訊云為代表,騰訊云的AI 原生(AI Native)向量數(shù)據(jù)庫(kù)Tencent Cloud VectorDB是國(guó)內(nèi)首個(gè)從接入層、計(jì)算層、到存儲(chǔ)層提供全生命周期AI化的向量數(shù)據(jù)庫(kù)。

除了產(chǎn)品之外,騰訊云提供了全面AI化解決方案,覆蓋接入層、計(jì)算層、存儲(chǔ)層,使用戶在使用向量數(shù)據(jù)庫(kù)的全生命周期,都能應(yīng)用到AI能力。有數(shù)據(jù)顯示,企業(yè)原先接入一個(gè)大模型需要花1個(gè)月左右時(shí)間,使用騰訊云向量數(shù)據(jù)庫(kù)后,3天時(shí)間即可完成,極大降低了企業(yè)的接入成本。

此外,騰訊龐大的業(yè)務(wù)集群及智能化應(yīng)用,為騰訊云向量數(shù)據(jù)庫(kù)提供了絕佳的練兵場(chǎng)。騰訊集團(tuán)每日處理千億次檢索的向量引擎(OLAMA),讓騰訊云向量數(shù)據(jù)庫(kù)的基本功能和性能得到了更加充分地檢驗(yàn)與優(yōu)化,從而淬煉出了很多讓人眼前一亮的新能力。

以騰訊視頻的應(yīng)用為例,視頻庫(kù)中的圖片、音頻、標(biāo)題文本等內(nèi)容使用騰訊云向量數(shù)據(jù)庫(kù),月均完成的檢索和計(jì)算量高達(dá)200億次,有效滿足了版權(quán)保護(hù)、原創(chuàng)識(shí)別、相似性檢索等場(chǎng)景需求。

風(fēng)物長(zhǎng)宜放眼量,AI技術(shù)還在快速變化之中,AI Native的騰訊云在這一市場(chǎng)領(lǐng)域的競(jìng)爭(zhēng)力還會(huì)進(jìn)一步擴(kuò)大。

接下來(lái)向量數(shù)據(jù)庫(kù)卷什么?

不難看到,市面上并不缺少向量數(shù)據(jù)庫(kù)產(chǎn)品,缺少的是商業(yè)模式。

據(jù)東北證券預(yù)測(cè),到 2030 年,全球向量數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模有望達(dá)到 500 億美元,國(guó)內(nèi)向量數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模有望超過(guò)600億人民幣。想要吃到這塊巨大的蛋糕,僅僅形成技術(shù)趨勢(shì)是遠(yuǎn)遠(yuǎn)不夠的,成熟的產(chǎn)品化才能說(shuō)服用戶、兌現(xiàn)商業(yè)價(jià)值。

目前來(lái)看,以騰訊云為代表的云廠商有幾重特殊優(yōu)勢(shì),或許會(huì)讓向量數(shù)據(jù)庫(kù)加速走向商業(yè)成功:

1.多元化部署。垂直行業(yè)大模型,數(shù)據(jù)都是私有機(jī)密的,客戶一般不愿意放到公有云上,騰訊云提供私有部署、分布式、混合云等多種方案,打消疑慮。背后需要混合多云的云基礎(chǔ)設(shè)施。

2.一體化AI方案。向量數(shù)據(jù)庫(kù)的火爆,本質(zhì)是AI需求,而AI Native時(shí)代的數(shù)據(jù)工程,還有許多復(fù)雜問(wèn)題尚待解決,騰訊云提供一體化的AI解決方案,從底層算力集群、Maas模型平臺(tái)到全棧工具鏈,通過(guò)軟硬件協(xié)同優(yōu)化AI開(kāi)發(fā)成本,是企業(yè)和開(kāi)發(fā)者所期待的。

3.產(chǎn)業(yè)服務(wù)能力。AI技術(shù)革命方興未艾,行業(yè)熱情高漲,但大多處于嘗試探索期,需要結(jié)合自身業(yè)務(wù)、AI應(yīng)用、IT設(shè)施等多種因素試錯(cuò)并迭代,這個(gè)過(guò)程中,隨叫隨到、幫助客戶及時(shí)解決問(wèn)題的ToB服務(wù)能力,也是非??粗氐?。深耕產(chǎn)業(yè)互聯(lián)網(wǎng)的騰訊云,確實(shí)是企業(yè)在這場(chǎng)AI技術(shù)革命中可靠的伙伴。

開(kāi)放、全面、貼心,才能支持企業(yè)用好向量數(shù)據(jù)庫(kù)、大模型等基礎(chǔ)設(shè)施,弄潮AI。

被大模型“帶飛”的向量數(shù)據(jù)庫(kù),才剛剛開(kāi)始,將在騰訊云上長(zhǎng)出商業(yè)成功的羽翼,飛向更廣闊的天地。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
KSZ8863MLLI-TR 1 Microchip Technology Inc DATACOM, LAN SWITCHING CIRCUIT
$5.95 查看
KSZ9031MNXIA-TR 1 Microchip Technology Inc DATACOM, ETHERNET TRANSCEIVER, QCC64
$41.55 查看
TJA1040T/CM,118 1 NXP Semiconductors TJA1040 - High-speed CAN transceiver with standby mode SOIC 8-Pin

ECAD模型

下載ECAD模型
$2.24 查看
騰訊

騰訊

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過(guò)技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級(jí)。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過(guò)技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級(jí)。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

你的困惑,來(lái)自于無(wú)路貼近未知。我們?cè)诩夹g(shù)、思想、傳播的異界,販來(lái)極限腦量下的TMT。