12月17日,一家名叫Databricks的美國(guó)科技公司,宣布成功融資100億美元,公司的估值也因此達(dá)到620億美元。
新聞一出,引起了整個(gè)行業(yè)的關(guān)注。要知道,不久前的10月份,業(yè)界最受追捧的OpenAI公司,也只不過(guò)融了66億美元。這個(gè)Databricks的融資金額比OpenAI還高,是有史以來(lái)最大的風(fēng)險(xiǎn)投資之一,憑什么?
答案很簡(jiǎn)單,就憑——“數(shù)據(jù)和AI”。Databricks是全球數(shù)據(jù)分析和云數(shù)據(jù)平臺(tái)巨頭。近年來(lái),他們的數(shù)據(jù)平臺(tái)產(chǎn)品吸引了大量的企業(yè)用戶,用于數(shù)據(jù)價(jià)值挖掘和輔助決策,增長(zhǎng)勢(shì)頭強(qiáng)勁。
那么,到底什么是數(shù)據(jù)平臺(tái)呢?在AI時(shí)代,數(shù)據(jù)平臺(tái)又能發(fā)揮怎樣的作用?
今天這篇文章,小棗君就和大家做一個(gè)詳細(xì)的解讀。
█?數(shù)據(jù)平臺(tái)的發(fā)展演進(jìn)
數(shù)據(jù)平臺(tái),顧名思義,就是用于存儲(chǔ)、處理和分析數(shù)據(jù)的平臺(tái)。我們常說(shuō)的數(shù)據(jù)庫(kù)(Oracle、MySQL等),還有這些年來(lái)特別火的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖,都屬于數(shù)據(jù)平臺(tái)。有了它們,我們才能更好地“玩轉(zhuǎn)”數(shù)據(jù),挖掘其中的價(jià)值。
人類(lèi)的IT技術(shù)發(fā)展史,其實(shí)說(shuō)白了,就是一部數(shù)據(jù)“折騰”史。發(fā)展CPU,是為了更好地處理數(shù)據(jù)。發(fā)展硬盤(pán),是為了更好地存儲(chǔ)數(shù)據(jù)。發(fā)展網(wǎng)絡(luò),是為了更好地搬運(yùn)數(shù)據(jù)。所有的信息通信技術(shù),都是緊密?chē)@數(shù)據(jù)開(kāi)展工作的。
數(shù)據(jù)平臺(tái),是以數(shù)據(jù)為中心的平臺(tái)。它的發(fā)展歷程,同樣也和數(shù)據(jù)的演進(jìn)密切相關(guān)。
上世紀(jì)40年代至50年代,計(jì)算機(jī)剛剛誕生的早期階段,因?yàn)?a class="article-link" target="_blank" href="/tag/%E7%A1%AC%E4%BB%B6/">硬件技術(shù)不成熟,人類(lèi)的數(shù)據(jù)體量較小。所以,并沒(méi)有發(fā)展出數(shù)據(jù)平臺(tái),僅僅依靠人工進(jìn)行數(shù)據(jù)的管理。
到了60年代至70年代,隨著軟硬件技術(shù)的不斷成熟,我們終于有了數(shù)據(jù)庫(kù)系統(tǒng),并且,很快開(kāi)始實(shí)現(xiàn)了商業(yè)化。尤其是到了80-90年代,商業(yè)數(shù)據(jù)庫(kù)蓬勃發(fā)展,用于各種交易型(OLTP)和分析型(OLAP)場(chǎng)景,為人類(lèi)社會(huì)的信息化浪潮做出了很大的貢獻(xiàn)。
那一時(shí)期,很多高精尖行業(yè)(例如航空或者國(guó)防等),因?yàn)閿?shù)據(jù)量越來(lái)越龐大,所以對(duì)數(shù)據(jù)平臺(tái)的要求也越來(lái)越高。大數(shù)據(jù)這個(gè)概念,也是在那個(gè)時(shí)候開(kāi)始誕生和萌芽的。1997年10月,美國(guó)宇航局(NASA)研究員發(fā)表論文,首次提到了“大數(shù)據(jù)問(wèn)題”。
其實(shí),當(dāng)時(shí)的數(shù)據(jù)量在現(xiàn)在看來(lái)也不是很大。全世界加在一起的數(shù)據(jù)量,可能不會(huì)超過(guò)1 PB,還停留在TB級(jí)別。所以,傳統(tǒng)的以O(shè)racle為代表的數(shù)據(jù)倉(cāng)庫(kù),勉強(qiáng)可以搞定。
進(jìn)入21世紀(jì)后,互聯(lián)網(wǎng)的全面爆發(fā),帶來(lái)了數(shù)據(jù)量的又一次躍升。大數(shù)據(jù)時(shí)代真的到來(lái)了,傳統(tǒng)的數(shù)倉(cāng)已經(jīng)hold不住了。于是,以Hadoop為代表的數(shù)據(jù)平臺(tái)應(yīng)運(yùn)而生(2006年),扛起了大梁。
再后來(lái),因?yàn)榛ヂ?lián)網(wǎng)業(yè)務(wù)的復(fù)雜多樣性,加上數(shù)據(jù)處理的負(fù)載和實(shí)時(shí)性要求越來(lái)越高,就有了各種各樣的開(kāi)源數(shù)據(jù)組件,面向不同的工作場(chǎng)景。
這時(shí)的數(shù)據(jù)平臺(tái),就以基于開(kāi)源的組裝式數(shù)據(jù)平臺(tái)為主流。各種數(shù)據(jù)湖、湖倉(cāng)一體技術(shù),進(jìn)入了蓬勃發(fā)展的階段,勉強(qiáng)能夠滿足各行各業(yè)的場(chǎng)景需求。
時(shí)至今日,情況又發(fā)生了巨大的變化。正如大家所看到的,AI浪潮來(lái)了。
█ AI時(shí)代的數(shù)據(jù)平臺(tái)挑戰(zhàn)
從2023年開(kāi)始,以ChatGPT為代表的AI大模型,掀起了一股席卷全球的AI浪潮,改變了人類(lèi)社會(huì)的方方面面。
作為AI的三大要素之一,數(shù)據(jù)的重要性進(jìn)一步提升。我們不僅需要更多、更可靠、更準(zhǔn)確的數(shù)據(jù),還需要更強(qiáng)大的數(shù)據(jù)平臺(tái),能夠?yàn)闃I(yè)務(wù)應(yīng)用(尤其是AI應(yīng)用)提供支撐。
傳統(tǒng)數(shù)據(jù)平臺(tái),一般擁有三大典型應(yīng)用場(chǎng)景。
第一個(gè)是BI看板和離線報(bào)表。BI就是Business Intelligence,商業(yè)智能。通過(guò)BI看板和離線報(bào)表,可以將各種數(shù)據(jù)指標(biāo)以可視化方式展示出來(lái),幫助企業(yè)管理層更好地了解和分析企業(yè)運(yùn)營(yíng)情況。
第二個(gè)是離線數(shù)據(jù)處理。這個(gè)主要是指業(yè)界常說(shuō)的ETL(Extract,Transform,Load,即提取、轉(zhuǎn)換、加載)。通過(guò)數(shù)倉(cāng)分層和數(shù)據(jù)預(yù)處理,對(duì)數(shù)據(jù)做“精煉”,為后面的數(shù)據(jù)分析或BI應(yīng)用做準(zhǔn)備。
第三個(gè)是實(shí)時(shí)的交互式分析。這個(gè)主要是要實(shí)現(xiàn)毫秒級(jí)的AD-Hoc(臨時(shí)性的、非計(jì)劃性的活動(dòng)或決策)實(shí)時(shí)分析。
進(jìn)入AI時(shí)代,數(shù)據(jù)平臺(tái)的各方面開(kāi)始發(fā)生變化。
先看看傳統(tǒng)數(shù)據(jù)工程領(lǐng)域的變化。
首先,場(chǎng)景開(kāi)始有點(diǎn)延伸。有了大模型所提供的自然語(yǔ)言處理能力,用戶與數(shù)據(jù)平臺(tái)之間的交互,就可以變成自然語(yǔ)言交互。例如,企業(yè)管理者直接提問(wèn),自然語(yǔ)言理解生成分析SQL,數(shù)據(jù)平臺(tái)給出數(shù)據(jù)洞察的結(jié)果。
其次,數(shù)據(jù)平臺(tái)需要實(shí)現(xiàn)一體化。以前,一家企業(yè)的某個(gè)業(yè)務(wù)處理數(shù)據(jù)的方式只有一種,離線處理或者交互式處理。未來(lái),可能同時(shí)需要多種處理方式,需要數(shù)據(jù)平臺(tái)能夠以一個(gè)平臺(tái)承載多種需求(例如離線數(shù)據(jù)處理+交互式處理),實(shí)現(xiàn)一體化。
第三,數(shù)據(jù)的規(guī)模急速擴(kuò)張,但是高效實(shí)時(shí)處理的需求是不能打折扣的。這就要求平臺(tái)實(shí)現(xiàn)批流一體、增量計(jì)算。也就是說(shuō),批處理+實(shí)時(shí)處理也要一體化。
大數(shù)據(jù)與AI的融合,也產(chǎn)生了一些新的場(chǎng)景。數(shù)據(jù)平臺(tái)需要支持大模型的發(fā)展。
第一個(gè)場(chǎng)景,是數(shù)據(jù)和AI的一體化。
在大模型開(kāi)發(fā)架構(gòu)中,通常是數(shù)據(jù)團(tuán)隊(duì)和模型團(tuán)隊(duì)是分開(kāi)的,各自使用各自的平臺(tái)、工具,會(huì)增加開(kāi)發(fā)成本,影響開(kāi)發(fā)效率。更好的解決方案,是數(shù)據(jù)平臺(tái)提供一個(gè)統(tǒng)一的接口,實(shí)現(xiàn)“DataOps+AIOps一體化”,降低運(yùn)維與開(kāi)發(fā)成本。
第二個(gè)場(chǎng)景,RAG的應(yīng)用。
RAG是Retrieval-Augmented Agenerated(檢索增強(qiáng)生成),可以理解為大模型的一個(gè)“數(shù)據(jù)輔助外掛”。當(dāng)企業(yè)搜索場(chǎng)景單獨(dú)采用大模型無(wú)法滿足要求時(shí),可以基于企業(yè)數(shù)據(jù)平臺(tái)的運(yùn)營(yíng)數(shù)據(jù),提供一站式的高精度全文檢索+向量檢索RAG方案,實(shí)現(xiàn)更強(qiáng)大的AI搜索。
第三個(gè)場(chǎng)景,AI Agent智能體的應(yīng)用。
AIGC能思考,但AI Agent增加了行動(dòng)的能力,現(xiàn)在成為AI的新焦點(diǎn),相關(guān)的應(yīng)用數(shù)量也急劇增加。企業(yè)基于數(shù)據(jù)平臺(tái),將業(yè)務(wù)數(shù)據(jù)與大模型融合,可以產(chǎn)生更好的生成式AI應(yīng)用,創(chuàng)造更多的AI Agent。
我們可以舉一個(gè)數(shù)據(jù)平臺(tái)支撐RAG、Agent應(yīng)用的例子。
假如你有一個(gè)咖啡店,想要發(fā)布朋友圈廣告,進(jìn)行咖啡和配套糕點(diǎn)的推薦。首先,你可以基于數(shù)據(jù)平臺(tái),通過(guò)對(duì)訂單數(shù)據(jù)的大數(shù)據(jù)查詢(xún),找到銷(xiāo)量最好的咖啡。然后,你可以基于數(shù)據(jù)平臺(tái)的歷史數(shù)據(jù),訓(xùn)練一個(gè)模型(這里應(yīng)該小模型就夠了),找到推薦搭配的糕點(diǎn)。
接下來(lái),基于數(shù)據(jù)平臺(tái)知識(shí)庫(kù)和大模型,采用RAG方案,找到一個(gè)最合適的廣告詞。大模型再基于廣告詞和咖啡糕點(diǎn)的圖片,生成一個(gè)廣告文案。
所有上述過(guò)程,都可以配置到Agent里面。以后,只需要一個(gè)指令,就能夠按步驟快速完成這項(xiàng)工作。是不是很高效?
AI時(shí)代的數(shù)據(jù)平臺(tái),除了支持AI發(fā)展之外,也要讓AI反向賦能平臺(tái)。例如,將AI能力應(yīng)用于數(shù)據(jù)平臺(tái)的資源管理與運(yùn)維管理,將大幅提升工作效率。
簡(jiǎn)單來(lái)說(shuō),AI時(shí)代的大模型應(yīng)用開(kāi)發(fā),核心要素就是算卡(算力)、大模型(算法)和數(shù)據(jù)。在這種應(yīng)用里,最好的架構(gòu),是大模型直接和數(shù)據(jù)聯(lián)動(dòng)。以數(shù)據(jù)為核心,數(shù)據(jù)平臺(tái)足夠簡(jiǎn)單、足夠融合、足夠智能,讓大模型以最高效的方式完成訓(xùn)練和推理。
█ TCHouse-X,AI時(shí)代的數(shù)據(jù)平臺(tái)創(chuàng)新解決方案
那么,數(shù)據(jù)平臺(tái)該如何重構(gòu)設(shè)計(jì),才能滿足上面提到的場(chǎng)景和能力需求呢?
最近,騰訊云給出了他們的解決方案——一站式數(shù)據(jù)智能平臺(tái)TCHouse-X。
TCHouse-X的核心設(shè)計(jì)理念,是一體化、智能化、高性能以及云原生。
●?一體化
前面反復(fù)提到了一體化。TCHouse-X在架構(gòu)設(shè)計(jì)層面,就貫徹了一體化的思想。
它通過(guò)云原生多集群共享數(shù)據(jù)及元數(shù)據(jù)管理,打破了傳統(tǒng)數(shù)據(jù)平臺(tái)在離線計(jì)算、在線計(jì)算和AI開(kāi)發(fā)之間的壁壘。用戶可以基于同一份數(shù)據(jù),運(yùn)行在線分析、離線處理、數(shù)據(jù)湖探索和機(jī)器學(xué)習(xí)等多種業(yè)務(wù)負(fù)載,無(wú)需在不同的系統(tǒng)間切換和數(shù)據(jù)的拷貝搬遷,實(shí)現(xiàn)AI、BI和Data在一個(gè)平臺(tái)上開(kāi)發(fā)和共建。
對(duì)于用戶來(lái)說(shuō),數(shù)據(jù)平臺(tái)的極致簡(jiǎn)化,不僅方便了產(chǎn)品的開(kāi)發(fā),改善了體驗(yàn),也大大降低了產(chǎn)品運(yùn)維的難度和成本。這是做減法帶來(lái)的優(yōu)勢(shì)。
● 智能化
智能化,是指TCHouse-X獲得了來(lái)自AI的賦能,借助AI進(jìn)行技術(shù)優(yōu)化和迭代。
TCHouse-X能夠通過(guò)智能化的系統(tǒng)交互、資源管理與運(yùn)維管理功能,實(shí)現(xiàn)運(yùn)維“自動(dòng)駕駛”,顯著提升易用性與運(yùn)維效率。
以資源管理為例,TCHouse-X具備AI智能調(diào)度系統(tǒng),能夠?qū)崟r(shí)感知負(fù)載并智能規(guī)劃資源,從而提高計(jì)算資源的利用率。
TCHouse-X還支持前面提到的自然語(yǔ)言交互。用戶可通過(guò)自然語(yǔ)言描述,快速查詢(xún)分析數(shù)據(jù),無(wú)需SQL相關(guān)的專(zhuān)業(yè)培訓(xùn)與學(xué)習(xí)。
● 高性能
一款優(yōu)秀的數(shù)據(jù)平臺(tái),當(dāng)然在性能上不能拉垮。
TCHouse-X基于騰訊云自研核心引擎技術(shù)(數(shù)據(jù)平臺(tái)三大件,包括優(yōu)化器、計(jì)算引擎、存儲(chǔ)引擎,騰訊云都是從零到一進(jìn)行自研),在計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等多維度優(yōu)化,能夠?yàn)橛脩籼峁┤溌窐O致性能。在效率層面,TCHouse-X能夠支持實(shí)時(shí)加工處理源頭數(shù)據(jù),并且具備毫秒級(jí)的在線分析能力。
同時(shí),TCHouse-X支持多種彈性策略,無(wú)論是應(yīng)對(duì)突發(fā)流量高峰還是處理大規(guī)模查詢(xún),都能有效幫助企業(yè)實(shí)現(xiàn)資源的靈活配置,降低成本并提高效率。
● 云原生
云原生,是TCHouse-X的核心基因。它帶來(lái)的優(yōu)勢(shì),是可以提供極致的資源彈性?;谠圃?,可以實(shí)現(xiàn)存算分離,可以對(duì)計(jì)算和存儲(chǔ)進(jìn)行彈性配置,增加靈活性。這也是前面一體化開(kāi)放的前提條件。
彈性可以體現(xiàn)在多個(gè)場(chǎng)景。例如分時(shí)段(白天/夜晚)的資源分配,資源使用量的智能預(yù)測(cè),突發(fā)負(fù)載的智能彈性伸縮,等等??梢钥闯?,設(shè)計(jì)理念(云原生和智能化)之間,也是有相互關(guān)聯(lián)的。
█ TCHouse-X的實(shí)際落地表現(xiàn)
我們可以看出,TCHouse-X是騰訊云精心打造的一款大數(shù)據(jù)數(shù)倉(cāng)產(chǎn)品。
它大幅提升了平臺(tái)的性能,簡(jiǎn)化了傳統(tǒng)數(shù)據(jù)平臺(tái)的復(fù)雜架構(gòu),并引入了智能化系統(tǒng)交互、資源管理與運(yùn)維管理能力,能夠?yàn)榇竽P蜁r(shí)代的應(yīng)用創(chuàng)新提供一站式數(shù)據(jù)處理能力。
根據(jù)測(cè)算,TChouse-X的在線查詢(xún)性能優(yōu)于市場(chǎng)同類(lèi)產(chǎn)品50%,而離線批處理的綜合性?xún)r(jià)比則提升了10倍之多。在計(jì)算資源層面,采用TCHouse-X,企業(yè)計(jì)算資源成本最高也能降低50%。
目前,TCHouse-X已在騰訊內(nèi)部多個(gè)業(yè)務(wù)線以及多個(gè)外部企業(yè)客戶場(chǎng)景中得到應(yīng)用,具體包括大模型AIGC應(yīng)用、車(chē)聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)、安全廠商、CRM平臺(tái)、跨境電商企業(yè)、物流平臺(tái)和手游公司等。
在實(shí)際應(yīng)用中,TCHouse-X充分展示了自身的強(qiáng)大性能和成本效益。特別是在大規(guī)模數(shù)據(jù)處理和實(shí)時(shí)分析方面,表現(xiàn)非常出色。
以騰訊會(huì)議應(yīng)用為例。采用TCHouse-X后,該應(yīng)用實(shí)現(xiàn)了顯著的性能提升和存儲(chǔ)優(yōu)化。
在進(jìn)行會(huì)議質(zhì)量分析和日志分析時(shí),TCHouse-X相比于原來(lái)的Presto/Trino查詢(xún)性能提升了5到10倍,日均查詢(xún)數(shù)約40萬(wàn),顯示了其在高并發(fā)查詢(xún)處理方面的強(qiáng)大能力。同時(shí),存儲(chǔ)從原來(lái)的4份減少到1份,大幅降低了存儲(chǔ)成本。與原Spark相比,性能提升了2倍,進(jìn)一步證明了TCHouse-X在處理復(fù)雜查詢(xún)時(shí)的高效率。
█ 結(jié)語(yǔ)
TCHouse-X的發(fā)布,是騰訊云在大數(shù)據(jù)領(lǐng)域長(zhǎng)期深耕和積累的成果。
很多人可能不知道,作為騰訊云基于海量業(yè)務(wù)打造的世界領(lǐng)先級(jí)大數(shù)據(jù)平臺(tái),騰訊云大數(shù)據(jù)目前的算力規(guī)模已經(jīng)超過(guò)千萬(wàn)核,是全球最大規(guī)模的大數(shù)據(jù)平臺(tái)之一。平臺(tái)每天實(shí)時(shí)計(jì)算量數(shù)百萬(wàn)億次,每天運(yùn)行容器數(shù)數(shù)億個(gè),每天計(jì)算數(shù)據(jù)量數(shù)百PB,量級(jí)位居國(guó)內(nèi)第一。
TCHouse-X是企業(yè)打造數(shù)據(jù)基座的一個(gè)神器。隨著AI浪潮的愈演愈烈,相信越來(lái)越多的行業(yè)用戶會(huì)開(kāi)始采用TCHouse-X,享受它帶來(lái)的效率提升和成本節(jié)約。AI數(shù)智時(shí)代的數(shù)據(jù)價(jià)值挖掘,將進(jìn)入一個(gè)全新的階段!