u1s1是什么意思?干飯人又是個啥?
當在北戴河阿那亞的劇場里被突然問到類似稀奇古怪的問題,一時發(fā)懵的我只想當場掏出手機,給對方來個“百度一下”。
說起來,搜索這項“舊技術”最近的討論聲浪還真有點大。
君不見那邊新搜索工具廣告天天見,這廂聽著海風看話劇的百度萬象大會現(xiàn)場,老牌搜索引擎也打出了“百度一下 生活更好”的新Flag。
其實,正如百度集團執(zhí)行副總裁沈抖現(xiàn)場所說,大家對搜索太過熟悉,以至于感受不到其中技術的變革,搜索的技術存在感那是真“感知不強”。
但實際上,“AI技術為搜索提供了持續(xù)進化的動力”。
要知道,從古早的文本檢索到今天的人工智能,網(wǎng)絡世界的網(wǎng)頁數(shù)量已經(jīng)從千萬級別,增長到了千億級別,其中囊括的內(nèi)容可能比世界上所有圖書館加起來還要豐富。
在今天,想要高效連接今天的互聯(lián)網(wǎng)用戶和海量信息,搜索引擎其實真的沒那么簡單。
那么,究竟是怎樣的技術在驅(qū)動搜索引擎更智能地讀懂你的需求,連接豐富而又準確的信息?
技術本身在海量信息增長面前,又經(jīng)歷了怎樣的進化?
今天,不如就借著這陣勢,我們來好好說道說道。
從文本檢索到人工智能
現(xiàn)在,在使用搜索引擎時,你可能不只會用幾個關鍵詞,還會直接輸入你想問的問題。
但其實早期的搜索引擎采用的是文本檢索的方式,只能做到用戶查詢關鍵詞和網(wǎng)頁文本內(nèi)容的匹配。
可想而知,雖然這樣的方式也能把不同網(wǎng)頁的關聯(lián)度進行排序,但總體的搜索質(zhì)量是比較差的。
而實際上,網(wǎng)頁之間有著豐富的鏈接關系,就像高引論文往往本身質(zhì)量更高,高質(zhì)量的網(wǎng)頁通常也會被更多的網(wǎng)頁鏈接。
為了進一步挖掘和利用這種鏈接信息,1996年,李彥宏開發(fā)了Rankdex,即超鏈分析算法。這是世界上首個使用超鏈接來衡量網(wǎng)站質(zhì)量的搜索引擎。
也就是說,搜索引擎在收到一個用戶查詢之后,不僅僅會去匹配網(wǎng)頁的內(nèi)容,還會看看其他網(wǎng)頁對這個頁面的“評價”。
在此之后,谷歌也提出并使用了類似的PageRank技術,并大獲成功。
超鏈分析算法,可以說是當今每個主要搜索引擎排名算法的基礎。值得一提的是,在谷歌創(chuàng)始人拉里·佩奇的第一項網(wǎng)頁排名專利申請中,也引用了Rankdex。
如果說早期的搜索技術門檻不算高,從超鏈分析這個階段開始,一些今天大家伙普遍依賴的搜索引擎,就開始一騎絕塵,拉開差距了,比如谷歌,比如百度。
并且這些做搜索引擎起家的公司,如今也都成為了人工智能領域的先行者。
而事實上,甚至在人工智能未成顯學之時,為了讓搜索結(jié)果更快、更精準、更個性化,搜索領域的巨頭們就已經(jīng)著手將機器學習的方法引入到搜索引擎中。
谷歌就在2016年上線了基于反向傳播技術的RankBrain算法。該算法可以基于語義分析和詞庫聯(lián)想,幫助用戶更快地搜索冷門的搜索結(jié)果。
而如今在NLP領域大火的BERT,也已被部署到谷歌搜索當中。有了預訓練語言模型的加持,即使你輸入的是一大段文字,搜索引擎也能夠get到你想查什么。
根據(jù)谷歌的數(shù)據(jù),BERT的引入為至少10%的搜索結(jié)果帶來了改善。
國內(nèi),百度同樣是最早投入人工智能技術研發(fā)的科技公司,在2010年就成立了單獨的NLP部門。
以搜索引擎技術為核心,在過去十余年中,百度演化出了語音、圖像、知識圖譜、自然語言處理等人工智能技術。這些長期的技術積累,甚至在今天進一步拓展到了自動駕駛、AI芯片等領域。
這也是為什么,在今天,搜索引擎不僅僅能按照你輸入的文字進行搜索,甚至直接給一張圖、一段音樂,AI也能理解你想要獲取怎樣的信息。
正如沈抖所說,打開百度App,你說出想問的問題,可能旁邊的人還沒聽清,百度搜索已經(jīng)能夠提供精準的答案。而當你在阿那亞的任何一個角落,看到不認識花草苗蟲,打開相機使用視覺搜索,也能快速得到答案。
智能搜索時代背后的關鍵技術
所以,進化到智能搜索時代,讓搜索引擎高效連接你和信息的核心技術,具體又有哪些?
正好,在百度萬象大會上,沈抖也介紹了百度AI是如何推動搜索持續(xù)進化的。我們一項一項來看個仔細。
深度語義匹配模型
2013年,百度搜索就上線了基于百億級用戶行為數(shù)據(jù)的SimNet語義匹配模型,使得搜索結(jié)果的相關性得到明顯提升。
簡單來說,SimNet利用詞向量技術解決了關鍵詞匹配失敗的問題,可以有效得到同義詞、近義詞之間的相似度,并且具有較強的泛化能力。
在實際應用場景下,海量的用戶點擊行為數(shù)據(jù)會被轉(zhuǎn)化為大規(guī)模弱標記數(shù)據(jù),再搭配并行訓練算法,SimNet首次實現(xiàn)了可完全取代基于字面匹配的策略,而且可以直接建模非相似度類的匹配問題。
其核心網(wǎng)絡結(jié)構形式,包括BOW、CNN、RNN、MMDNN等。
而基于這樣的深度語義模型,百度搜索已經(jīng)將一次全庫語義檢索的時間優(yōu)化到了10ms。
跨模態(tài)深度閱讀理解技術
前文也說到,有AI加持的搜索引擎,不僅僅能讀懂文字,還能聽懂語音、看懂圖片。
其實,機器認知世界的方式,也不僅僅局限在自然語言,還包括對語音、視覺等多模態(tài)信息的綜合應用。
為此,百度重點研發(fā)了知識增強的跨模態(tài)深度語義理解技術。
一方面,打造擁有超過50億實體和5500億事實的多元異構知識圖譜。通過將知識作為背景信息,增強了模型的語義推理能力。
另一方面,通過知識關聯(lián)跨模態(tài)信息,運用語言描述不同模態(tài)信息的語義,進而讓機器實現(xiàn)圖像和語言、語音和語言的一體化理解。
基于這項閱讀理解技術,百度還在EMNLP-MRQA 2019閱讀理解國際測評中,以超出第二名近2個百分點的優(yōu)勢獲得冠軍。
智能化多模搜索技術
2015年,百度就提出了多模搜索的理念,探索從文本搜索向語音、視覺、視頻等多模態(tài)搜索的演進。
而這或許也是智能化搜索在用戶層面最直觀的體現(xiàn)——在百度App中,你可以體驗語音搜索、拍照搜索、實時翻譯、植物識別、視頻搜索等豐富的搜索方式。
除了前面提到的跨模態(tài)語義理解,在語音搜索上,百度搜索還集成了語音識別、語音合成等多項AI技術,讓搜索引擎能“聽”會“說”,不僅能夠聽清、聽懂,還能深入理解語義,給出繪“聲”繪色的最佳搜索答案,讓搜索引擎與用戶之間的交互方式變得更加自然、流暢、便捷。
在視覺搜索上,百度搜索綜合了圖像識別、人臉識別、OCR、物體檢測、實體匹配等多項視覺技術,并依托于搜索系統(tǒng)對全網(wǎng)圖像、視頻內(nèi)容的索引以及用戶行為,得以細粒度的識別用戶實時錄制的視頻流、拍照及上傳圖片中的實體和文字,進而圍繞實體在用戶視覺場景下的需求,鏈接并組織相關內(nèi)容及服務提供給用戶,實現(xiàn)諸如拍題搜索、商品搜索、實時翻譯、植物識別等智能視覺搜索能力。
是的,不僅僅是圖文,作為當前最紅火的通用信息載體,視頻現(xiàn)在也可以直接用來搜索,并且結(jié)合百度超大規(guī)模的知識圖譜,能實現(xiàn)精準的搜索、定位。
本次萬象大會上,百度短視頻生態(tài)平臺總經(jīng)理宋健還最新發(fā)布了好看視頻知識圖譜產(chǎn)品功能,并提出“幀視頻”的概念。
“幀視頻”能延伸知識信息的密度,讓短視頻的知識含量濃縮到“幀”的顆粒度,推動短視頻成為更好的知識獲取的載體。
智能搜索不只是搜索
說了這么多,有沒有覺得日常的搜索背后,涉及到的信息量屬實龐大?
在今天,信息的獲取方式看似便捷,但海量資訊涌來的同時,也帶來了越來越多的無效信息。
這也是為什么我們會希望搜索的結(jié)果更加精準。
而在此之外,我們還更希望搜索更能讀懂人的意圖,更節(jié)省時間、更高效地解決問題。
基于這樣的用戶需求,如百度,一方面在持續(xù)增強搜索本身的屬性,形成知識服務產(chǎn)品體系,提高首條搜索滿意度。
而另一方面,因為搜索天然與各種服務場景具有連接性,百度也在圍繞“搜索+服務”做加法,以進一步降低用戶的決策成本,提升服務能力。
所以,這也就解釋了為什么百度App品牌升級為“百度一下 生活更好“。
在這樣的背景之下,智能時代的搜索不再是簡單的信息檢索,而是人們與信息、服務等各種解決方案之間的高效連接方式。
此外,智能搜索和智能推薦融合,還會進一步擴大化這種效率的提升。
沈抖對此解釋說:
互聯(lián)網(wǎng)基礎設施日益完善,整個社會信息度在提升,用戶希望更快速地完成閉環(huán)需求。
百度正是基于這一需求的變化,提出了“人格化”和“服務化”戰(zhàn)略。
所謂“人格化”,是放大每一個創(chuàng)作者的才能,并把生態(tài)里的創(chuàng)作者和用戶直接相連,更快速地滿足用戶需求。
百度副總裁、百度App總經(jīng)理平曉黎就舉了這樣的例子:在知識分享領域,以往通過搜索,人們只能找到相關的靜態(tài)頁面;而搜索進化后,百度還可以直接將搜索結(jié)果連接到能提供該結(jié)果的人,如專家、自媒體、知識博主等,進一步消除信息差。
而“服務化”,則是讓用戶“所見即所得”。
圍繞這樣的核心戰(zhàn)略,基于搜索,百度把短視頻和重點垂類放在了關鍵位置上,百度健康、百度電商業(yè)務也在萬象大會上首次公開亮相。
歸根結(jié)底,從搜索到服務的落地,有很多的場景可以選擇,而這些場景的服務實現(xiàn),又恰恰需要搜索不斷進化,從搜索到智能搜索。而想要做到這一點,背后對技術能力的要求著實不低。
事實上,也有不少業(yè)內(nèi)人士認為,搜索自誕生之初,就擁有類似于人工智能的屬性:你在搜索框中提問題,機器來找出答案提供服務。
而作為人工智能技術的第一塊試驗田,不論是搜索還是機器都在不斷進化,搜索現(xiàn)在也確實成為了人工智能技術的集大成者。
其越來越“機智”的進化背后,驅(qū)動力正是來自百度這樣的企業(yè)、研究機構長期積累的AI能力,讓搜索從原來的搜索分發(fā),到提供服務,提供人格化的內(nèi)容和交互體驗。
下一個十年,搜索技術還會有怎樣的超進化?
你還有怎樣的期待,不妨在評論區(qū)一起聊一聊~
參考鏈接:
[1]https://en.wikipedia.org/wiki/Robin_Li
[2]https://lusongsong.com/info/post/406.html?__SAKURA=11996c0e2fcf9a9a499373a06e725a6ea1618368577_198393
[3]https://zhuanlan.zhihu.com/p/80491738
[4]https://blog.google/products/search/search-language-understanding-bert