作者|油醋
郵箱|zhuzheng@pingwest.com
大模型,到底是一場無限游戲還是一場有限游戲?
與ChatGPT打過照面的人開始暢想一場無邊界的AGI愿景,但真的接近它的人,想法或許越來越傾向后者。
“巨大的參數,巨量高質量的數據來源,以及融合在各種不同訓練方法中的Knowhow,如果任何廠商說自己在三、四個月之內做出來一個跟OpenAI效果相近的超大模型,基本上都是唬人的。而如果能力達不到GPT-4,商用就無從談起,GPT-3.5都不行?!?/p>
6月末竹間智能CEO簡仁賢這樣說的時候,行業(yè)對于通用大模型的熱度已經迅速降溫。
兩個月前在MIT發(fā)生的一次討論中,OpenAI CEO Sam Altman現(xiàn)身,他表示“誕生 ChatGPT 的研究策略已經結束”,未來模型的進一步變大將不會進一步帶來新進展。在描述 GPT-4 的論文中,OpenAI預估擴展模型規(guī)模擴大的邊際收益將出現(xiàn)遞減。而訓練背后,數據中心的存量和建造速度也會成為限制。OpenAI在6月除了推出了token數擴展到32000個的GPT-4-32k,也同時推出了另一個向下兼容的版本:基于GPT-3但模型規(guī)模更小的GPT-3.5-turbo。
投資領域也開始有“創(chuàng)業(yè)公司做通用大模型的機會是0”這樣的論調出現(xiàn),甚至如華映資本表示在未來5-10年國內能活下來并且產生商業(yè)價值的通用大模型不會超過三家。這樣的呼聲呼應了李彥宏以及李志飛等人在此之前對于通用大模型競爭的悲觀前景。
從商業(yè)角度,最有前景的大模型方向開始變成垂直領域,參數量則被校準到了幾十億到幾百億的區(qū)間。早在去年11月ChatGPT出來后,簡仁賢做了一個簡單的測試,然后決定放棄AGI的方向。
2015年簡仁賢離開微軟互聯(lián)網工程院,帶著微軟小娜Cortana的研發(fā)經驗另起爐灶,成立竹間智能,主攻NLP(自然語言處理)領域,力圖成為以理解人類語言和情緒為目標的科技公司。2017年公司開始商業(yè)化探索,2020年形成規(guī)?;涞亍D壳爸耖g智能已經為600多家客戶做了NLP的落地。
竹間智能在國內ToB的AI領域玩了8年的有限游戲。簡仁賢對于大模型研發(fā)的門檻和機會有清晰構想。
通用人工智能(AGI)大模型的商業(yè)化路徑勢必通往ToC,但算力、數據,以及巨額資金對于竹間這樣一家仍然保持初創(chuàng)公司體型的公司來說都是擺在明面上的巨大障礙。
但他也明白這場8年的有限游戲中,竹間智能得到了什么。
理性的放棄是為了在另一個方向上提前起步。ChatGPT在去年11月出現(xiàn)后,簡仁賢很快決定推進Prompt Builder與 Model Factory (模型工廠)的研發(fā),到現(xiàn)在已經8個月,Model Factory也引出了竹間在大模型上的新故事。
100位模型工程師的大腦
“目前市面上幾乎所有大模型都基于Transformer框架展開,或者說,我們在談論的大模型更像是一個復雜的數據處理與模型訓練工程?!焙喨寿t說。
“模型訓練還是在復制別人,CoT(思維鏈)是人家的Paper,InContext Learning也已經有很多研究者做了大量工作,包括Tree of Thought、RLHF也是人家發(fā)明出來的一個方法,你只是把這些方法拿來再復現(xiàn)一次而已?!?/p>
這并不是創(chuàng)新。但簡仁賢認為更大的創(chuàng)新空間也從這里延伸出來——如何將這樣的大模型訓練任務批量化,規(guī)?;⑶易龅降统杀?。
這也是為什么Prompt Builder與 Model Factory研發(fā)被這么早地提上日程。在竹間智能內部,Prompt Builder已經開始替代產品經理的角色,Model Factory 已經替代模型工程師做模型微調的大部分工作,并且滲透進所有關于大模型的研發(fā)體系。這個并不顯眼的技術起點投射出竹間在大模型競爭中的入局野心。
將一百位模型工程師的大腦聚集成一個工廠,或者叫EmotiBrain。
Prompt Builder所包含的Prompt模版集以及優(yōu)化和管理能力,都被內嵌在大模型訓練微調平臺EmotiBrain的 Model Factory內,后者是竹間研發(fā)的一個大語言模型訓練工具。
簡仁賢演示了一下企業(yè)如何用EmotiBrain來訓練出一個適合的模型。
這是一個流水線的訓練方式。使用者選擇一個基礎預訓練模型,然后選擇對應的行業(yè)數據,企業(yè)自有數據,指令集數據,以及同時可以選擇多種微調方法(整個fine-tuning的過程是自動化的)。所有細節(jié)都選定之后,平臺智能的分配GPU資源,并開始執(zhí)行模型訓練。在EmotiBrain上,多個模型訓練可以同時運行,使用者選定一個目標任務后,可以改變基礎模型、測試數據以及微調方式來生成不同的模型,通過模型評測,并選取最優(yōu)者。
EmotiBrain模型訓練界面 ?圖源:竹間智能
EmotiBrain能夠實現(xiàn)從訓練數據生成,數據梳理清洗,標注,到選擇預訓練基礎模型,實驗不同的微調方法,不同人員進行多次微調直到測試、部署以及最后應用的集成整體化。它可以進一步被拆分成多方面的能力,Prompt Builder是其中之一,另一方面,其內含的Model Factory擁有高質量的中英文訓練數據集,支持Fine-tune、Prompt Tuning、Instruct Tuning、LoRA、QLoRA等多種微調模式,可同時訓練上百個大模型,大大減少訓練最優(yōu)模型的時間,也降低了模型訓練成本;Chat Search則是一個大模型驅動的對話搜索引擎。
生成式AI的黑箱屬性轉變成模型訓練的偶然性。這意味著企業(yè)在訓練最適合自己的模型時很難一擊即中,它是訓練出來的,也是多次訓練之后選出來的。EmotiBrain在多模型同時訓練的基礎上提供了一個模型評估機制。比如一個法律咨詢場景下的對話AI,將多個訓練完的模型呈現(xiàn)出來之后會以相同的提問同時測試各個模型,企業(yè)可以根據評估結果來選擇更好的那個模型。
對于大量非AI領域的企業(yè)來說,聘請模型工程師是非常奢侈的事情,模型工程師人才短缺是一個大挑戰(zhàn)。簡仁賢說表示,“EmotiBrain相當于有100個模型工程師在幫你干活”。這樣一個將集體智慧凝結成自動化流程的過程也并不是一蹴而就的。
2017年推出機器人定制云平臺Bot Factory后,竹間智能也同時開始了NLP模型的自動化訓練,對于 Transformer 的模型開發(fā)也是從2019就開始的,積累到現(xiàn)在已經有超過1000個意圖理解模型,500多個解析器,總共的模型積累超過3000個。與此同時,一個竹間內部的機器學習平臺也在成型,并且開始承載整個模型訓練的過程。
這一套模型訓練的流水線機制在內部研發(fā)中打磨多年后,去年年中谷歌效果驚人的LaMDA2發(fā)布,竹間科技決定轉向大模型,開始用Bloom作為target(被預測內容)來打磨自己的機器學習平臺,并且嘗試訓練自己的基礎大模型,現(xiàn)在的EmotiBrain也在機器學習平臺能力擴展之后形成。
但一個大模型訓練微調平臺只是基礎。
彭博行業(yè)研究近日的報告預測,目前市場規(guī)模僅為400億美元的生成式AI在2032年將會膨脹為一個1.3萬億美元規(guī)模以上的市場。而簡仁賢對生成式AI在ToB領域的最終市場規(guī)模的預估也在數萬億級別,而這個市場中的勝負手最終將是產品化,規(guī)模化,與降低成本的能力。
“中國有14億人,10億以上的網民,但絕大多數人并不會使用模型,你要給他產品應用,而不是給他模型?!?/p>
EmotiBrain是竹間智能“1+4”大模型產品體系中基礎性的“1”,它的能力將會借助四個方面的核心產品進一步具像化。
產品化的能力
這四個產品方向分別是對話、對練培訓、知識管理和寫作助手。
Bot Factory+和KKBot延續(xù)了竹間智能在對話方向的產品積累,前者包含大模型和快速模型協(xié)同的雙引擎智能對話技術,可以實現(xiàn)對于問答的自動抽取和知識沉淀,在不斷的人機交互中不斷優(yōu)化回答質量和速度。問答所形成的知識庫,以及流程知識和圖譜知識,也可以通過Bot Factory+來管理。
KKBot可以理解為個人或企業(yè)的辦公Copilot,企業(yè)可以根據自身業(yè)務場景和需求在KKBot上選擇適合自己的大模型,形成個性化的對話場景和功能,并且竹間提供私有化部署的解決方案來保證企業(yè)數據安全。Bot Factory+和KKBot的組合使用則可以進一步強化由AI對話能力帶來的生產力提升,兩者的結合可以控制大語言模型胡言亂語的現(xiàn)象。
Emoti Coach是竹間智能研發(fā)的一款基于大語言模型的仿真對練軟件,在大模型能力的加持下,基于企業(yè)自有知識與大模型具備的能力,通過簡單提示就可以生成豐富的課程和對練場景,Emoti Coach的沉浸式特點意味著其對練環(huán)境逼近實戰(zhàn),也更容易獲得真實的1:1對練效果。融入大模型能力后,它能夠為練習者給出及時且細顆粒度的反饋。
可以自動構建知識圖譜及知識管理的Knowledge Factory定位為企業(yè)級的知識工廠,提供了模糊搜索和語意搜索相結合的方式來檢索企業(yè)中的相關文檔,并且能夠在文檔之間建立智能關系網絡。對于員工個體,Knowledge Factory提供續(xù)寫、改寫、翻譯和總結等生成式能力來輔助提高工作效率。而嚴格的安全審核機制則會確保文檔作為企業(yè)的知識沉淀能夠避開風險。
竹間智能“1+4”大模型產品體系 ?圖源:竹間智能
而針對文檔創(chuàng)作,竹間智能研發(fā)了企業(yè)級的寫作助手產品Magic Writer,可以進一步解放員工在文檔上的生產力。借助內置的豐富文檔模版,員工只要輸入必要的關鍵詞就可以自動實現(xiàn)文檔的生成,而Knowledge Factory的內容生成能力與安全審核機制也會在Magic Writer中得到體現(xiàn),可以依據企業(yè)私有數據來創(chuàng)作,避免通用模型會胡言亂語的情形。
外界對于大模型的關注多放在大廠與新的創(chuàng)業(yè)公司兩端,前者有足夠的資源、研發(fā)能力和自有場景,后者往往可以將矚目的創(chuàng)始團隊轉換成巨大的想象空間。相較之下,在NLP領域扎根多年的公司反而被忽視。但當外界將視線更多聚焦到行業(yè)大模型與企業(yè)定制化模型上,竹間智能的產品優(yōu)勢開始顯現(xiàn)出來。
企業(yè)需要一個能真正跨越大模型與用戶之間“最后一公里”的解決方案,而不僅僅是孤立的服務或工具?!耙唤M零散的工具對企業(yè)是沒有用的,因為企業(yè)沒有那么多能做模型的IT人員”,簡仁賢說。
竹間智能積累了包括私有部署跟SaaS服務在內的六七百個大客戶,AI產品也在多年的大客戶驗證中趨于成熟,“1+4”大模型產品體系可以看做是從前的產品和行業(yè)Knowhow用大語言模型來做升級,這是竹間自己的“最后一公里”,但在此之前,基礎的產品化能力則是一段必須要用5-7年才能走完的路。
竹間提供的是一個端到端的解決方案,這是在NLP領域多年積累后的AI公司相比市面上廣泛談論MaaS的其他玩家所具有的獨特優(yōu)勢。
“Model is new Code(模型就是新型代碼)”。竹間提出了這樣的理念。
從20世紀90年之前程序員以紙帶和純文本形式編寫代碼,到之后集成開發(fā)環(huán)境(IDE)與提供代碼補全和錯誤提示的語言服務器協(xié)議(LSP)的出現(xiàn),人類的編碼歷史也是一條降低開發(fā)者輸入門檻的歷史。大模型的興起已經席卷各行各業(yè),未來的軟件將由大型語言模型驅動,模型也就成了新的代碼。
從這個意義上講,為了彌合用戶、企業(yè)與大模型之間的巨大鴻溝,負責大模型生產的流水線工廠會作為一種基礎設施長久存在。竹間智能的機會也在這里。