臨近歲末年初,各大科技廠商都卯著勁兒相繼發(fā)布新技術(shù)、新產(chǎn)品,其中,一場(chǎng)關(guān)于“新圖靈測(cè)試”的探討,及其所打開的廣袤空間,就成為業(yè)內(nèi)熱議的對(duì)象。
年中的 2020 智源大會(huì)上,京東集團(tuán)技術(shù)委員會(huì)主席、京東智聯(lián)云總裁、京東人工智能研究院院長(zhǎng)、IEEE Fellow 周伯文,在與斯坦福大學(xué)教授、人工智能實(shí)驗(yàn)室負(fù)責(zé)人克里斯托弗·曼寧(Christopher Manning)的對(duì)話中,提出了圖靈測(cè)試的“替代方案”。
而前不久的 CIIS2020 上,京東將多模態(tài)內(nèi)容生成、多輪對(duì)話等 AI 技術(shù),與智能交互機(jī)器人流程自動(dòng)化(RPA)相結(jié)合,打造出能夠適配千變?nèi)f化的消費(fèi)者需求和服務(wù)產(chǎn)業(yè)復(fù)雜業(yè)態(tài)的智能交互技術(shù)體系。
不僅讓“新圖靈測(cè)試”成為可能,也讓我們看到了 AI 與 RPA 結(jié)合的“京東思路”,正在從決策到管理、執(zhí)行的聯(lián)動(dòng),給產(chǎn)業(yè)數(shù)字化帶來的全新發(fā)展機(jī)遇,正逐步清晰地浮現(xiàn)在我們眼前。
一種悖論:為什么說圖靈測(cè)試不適合做產(chǎn)業(yè)數(shù)智化基準(zhǔn)
圖靈測(cè)試(The Turing test),是人工智能領(lǐng)域的基礎(chǔ)名詞,艾倫·麥席森·圖靈在 1950 年預(yù)測(cè),到 2000 年人工智能可以在 5 分鐘的問答中騙過 30%成年人。
那么,發(fā)展了數(shù)十年的 AI 到底有沒有達(dá)到圖靈的預(yù)測(cè)標(biāo)準(zhǔn)呢?
伴隨著 GPT3、BERT 等大規(guī)模、高性能的算法出現(xiàn),AI 不僅能寫詩繪畫講故事,甚至還能模仿客服給消費(fèi)者打營(yíng)銷電話,騙取人類信任……看起來似乎已經(jīng)達(dá)到了預(yù)測(cè)中的水平。
但究其本質(zhì),圖靈的預(yù)言其實(shí)指向一種具有真正智能的機(jī)器的可能性,意味著人類能夠打造出具備思考能力的機(jī)器。2014 年人工智能軟件尤金·古斯特曼(Eugene Goostman)通過了圖靈測(cè)試,被認(rèn)為具有人類智能,但實(shí)際上,這位“尤金”還遠(yuǎn)遠(yuǎn)不能思考。
這種表與里的悖論,讓圖靈測(cè)試作為智能的評(píng)測(cè)基準(zhǔn)(Benchmark),在落地產(chǎn)業(yè) AI 化過程中存在兩個(gè)待解的問題:
一是無法量化。盡管目前許多算法可以通過圖靈測(cè)試,但這一評(píng)測(cè)基準(zhǔn)對(duì) AI 應(yīng)用落地產(chǎn)業(yè)沒有直接幫助和參考。因?yàn)閳D靈測(cè)試沒有規(guī)定問題的范圍和提問的標(biāo)準(zhǔn),跟人類進(jìn)行隨機(jī)的、無特定內(nèi)容對(duì)話的交流。要評(píng)價(jià)一個(gè) AI 系統(tǒng)的智能程度,就如克里斯托弗·曼寧教授在會(huì)議中所提到的那樣,“需要找一個(gè)另外的方法,標(biāo)量真正的理解、真正的持續(xù)對(duì)話”。
圖靈測(cè)試的第二個(gè)問題,則是無法檢驗(yàn) AI 系統(tǒng)在產(chǎn)業(yè)應(yīng)用的效率。在產(chǎn)業(yè)智能化進(jìn)程中,AI 往往需要被用來解決具象的問題,比如幫助零售商與消費(fèi)者流暢地溝通,這就要求其具備一種“寬泛的心理能力”,需要調(diào)動(dòng)意圖感知、語音識(shí)別、語義分析、內(nèi)容生成等等具體能力,而這都是圖靈測(cè)試無法具體評(píng)測(cè)到的。
從這個(gè)角度看,尋找新的評(píng)測(cè)標(biāo)準(zhǔn),是 AI 走進(jìn)社會(huì)化大生產(chǎn)之后水到渠成的產(chǎn)業(yè)需求。
一個(gè)可能:AI+RPA 如何打開新圖靈測(cè)試的天地
既然圖靈測(cè)試并不能滿足產(chǎn)業(yè)應(yīng)用 AI 時(shí)的評(píng)測(cè)需求,所以周伯文才會(huì)提出一個(gè)很新穎的概念,直接讓兩個(gè)對(duì)話型 AI 做直播帶貨,通過統(tǒng)計(jì)以每小時(shí)能賣出多少商品的可量化指標(biāo),來對(duì)比哪個(gè) AI 的對(duì)話更吸引人,從而評(píng)估對(duì)話型 AI 的智能化水平。
這個(gè)創(chuàng)意,在 CIIS 2020 上就變成了現(xiàn)實(shí)。周伯文在現(xiàn)場(chǎng)分享了這個(gè)進(jìn)階版的“帶貨測(cè)試”:
京東對(duì)數(shù)以億計(jì) SKU 進(jìn)行賣點(diǎn)挖掘,自動(dòng)生成文案、背景音樂、虛擬形象,再配上咨詢導(dǎo)購客服,整套服務(wù)可以自動(dòng)化地生成每件物品的專屬主播介紹,與觀眾用彈幕和語音實(shí)時(shí)交流,答疑解惑,把直播產(chǎn)業(yè)以規(guī)?;⒆詣?dòng)化的方式推廣到億級(jí)的播放和商品銷售上去。
要完成這一實(shí)時(shí)、可量化的智能交互,需要的技術(shù)是非常多面的。首先需要利用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)和知識(shí)圖譜對(duì)物品資料進(jìn)行識(shí)別和理解,然后系統(tǒng)根據(jù)多模態(tài)數(shù)字內(nèi)容生成技術(shù),可以自動(dòng)生成一個(gè)精彩的解說詞,自動(dòng)挖掘賣點(diǎn)、自動(dòng)生成銷售文案、生成語音背景和音樂,還會(huì)為每個(gè)消費(fèi)者生成獨(dú)特的虛擬形象,再利用京東 TTS 語音驅(qū)動(dòng)虛擬主播進(jìn)行講解。
舉個(gè)例子,當(dāng)消費(fèi)者跟智能客服或智能主播對(duì)話時(shí),用文字表達(dá)自己的困惑“我想找一件黃色的、有波浪邊的輕薄連衣裙”,多模態(tài)智能對(duì)話可以快速將這些文字以圖像化的形式表達(dá)出來,將符合要求的圖片呈現(xiàn)出來,同時(shí),主播還會(huì)活靈活現(xiàn)地向消費(fèi)者介紹“裙擺可以像風(fēng)一樣擺動(dòng)哦~”
解說過程中,根據(jù)消費(fèi)者的實(shí)時(shí)彈幕,系統(tǒng)需要快速根據(jù)上下文多輪對(duì)話策略進(jìn)行內(nèi)容識(shí)別、意圖感知,來實(shí)時(shí)調(diào)整自己的講解節(jié)奏、內(nèi)容、情緒。
令消費(fèi)者縮短無效觀看時(shí)間,與主播一對(duì)一交流;同時(shí)也可以讓眾多商家低門檻、自動(dòng)化地用直播方式帶貨。AI 主播還可以進(jìn)一步收集消費(fèi)者的問題與困惑,及時(shí)地反饋給商家進(jìn)行迭代和優(yōu)化,等于擁有了一個(gè)零售顧問。
京東平臺(tái)的實(shí)踐數(shù)據(jù)顯示,目前該技術(shù)已經(jīng)在好貨頻道、社交電商、售前導(dǎo)購機(jī)器人京小智、搭配購、什么值得買 APP 等生成了 5000 萬個(gè)素材,其中 AI 素材曝光點(diǎn)擊率是人工素材的 1.4 倍。讓機(jī)器更懂人心、更會(huì)說話,這正是京東將 AI+RPA 融合之后的智能服務(wù)所帶來的魅力。
順著“帶貨主播”模式開始延伸,我們可以看到作為“新圖靈測(cè)試”背后的技術(shù)組合——AI+RPA 到底與傳統(tǒng)的智能體有哪些不同?
首先,同樣是人與機(jī)器的交互,AI+RPA 的效果可以量化,支撐產(chǎn)業(yè)端的運(yùn)營(yíng)、管理、決策。比如對(duì)話型 AI 做直播帶貨,可以在與消費(fèi)者的對(duì)話中不斷自我學(xué)習(xí)進(jìn)化,在垂直領(lǐng)域變得更具智能感,輸出更吸引人的內(nèi)容。
其次,AI+RPA 的協(xié)同賦予了自動(dòng)化服務(wù)以自主判斷、決策、推理能力,設(shè)計(jì)了具體而清晰的協(xié)作任務(wù),如同一個(gè)智慧的大腦突然具備了四肢和行動(dòng)能力,其中 AI 作為大腦可以提升系統(tǒng)的服務(wù)效率,獨(dú)立承擔(dān)起一些簡(jiǎn)單、重復(fù)的工作。
最后也是最重要的,AI+RPA 背后的核心邏輯與技術(shù)體系有著很強(qiáng)的泛化能力,在服務(wù)業(yè)數(shù)智化轉(zhuǎn)型中的許多流程中都有著清晰的價(jià)值體現(xiàn)。
執(zhí)行層將服務(wù)員、客服等一線員工從重復(fù)中解放出來,幫助他們提升工作效率;管理層,抽離出有用的信息,利用邏輯推倒實(shí)時(shí)分析業(yè)務(wù)變化;最后形成直觀的可視化報(bào)告或數(shù)據(jù)圖,幫助決策層提升決策效率。
比如基于京東在智能交互 RPA 和數(shù)據(jù)智能領(lǐng)域的積累,京東智聯(lián)云所打造的“咨詢大腦”,就被用來構(gòu)建城市咨詢智力中心,可以提供涵蓋民生、政務(wù)服務(wù)、精細(xì)化管理、公共安全等多個(gè)領(lǐng)域的服務(wù)。
從智能交互出發(fā),可以清晰地看到服務(wù)業(yè)的迭代路徑與可行性。這也是為什么,周伯文會(huì)說,這種任務(wù)導(dǎo)向型對(duì)話智能(Task-oriented Conversational Intelligence)將帶來人機(jī)交互技術(shù)驅(qū)動(dòng)的萬億級(jí)市場(chǎng)。
三方突圍:京東如何破解服務(wù)業(yè)數(shù)智化的三重困境
在 CIIS2020 上,周伯文表示,產(chǎn)業(yè)數(shù)字化是傳統(tǒng)行業(yè)利用 AI 等新一代信息技術(shù)提升效率,而服務(wù)業(yè)涉及非常多的行業(yè),如金融、教育、電商、物流,數(shù)字化和智能化水平并不一致。接下來應(yīng)該是人和 AI 協(xié)作的深化,進(jìn)一步提升服務(wù)的效能。
這是智能時(shí)代科技企業(yè)的增長(zhǎng)密碼,也是京東努力的核心方向。
目前來看,服務(wù)領(lǐng)域的數(shù)智化存在三重難題:
一是服務(wù)業(yè)的重塑之難:很多現(xiàn)有的標(biāo)準(zhǔn)化服務(wù)流程完全可以被重塑、重造,進(jìn)而提升服務(wù)效能,但傳統(tǒng)服務(wù)業(yè)在智能技術(shù)認(rèn)知和基礎(chǔ)設(shè)施方面相對(duì)較弱,加上需求、規(guī)模、痛點(diǎn)的千差萬別,需要一個(gè)全場(chǎng)景的體系來實(shí)現(xiàn)適配。
二是基礎(chǔ)設(shè)施的運(yùn)維之難:許多服務(wù)業(yè)對(duì)于智能技術(shù)都存在認(rèn)知不足、人才短缺等問題,而 AI 項(xiàng)目落地的成功率直接取決于其批量復(fù)制、高效運(yùn)維的能力,如何把工程化的數(shù)據(jù)運(yùn)維、模型運(yùn)維、開發(fā)運(yùn)維三大核心支柱,通過工具化的生命周期管理整合并提供給產(chǎn)業(yè),是科技企業(yè)必須努力解決的。
三是多模態(tài)的交互之難:在復(fù)雜的現(xiàn)實(shí)環(huán)境中,用戶的意圖往往會(huì)以多模態(tài)方式來展現(xiàn),語言、文字、圖像、視頻等等都可以作為媒介來傳遞信息,傳統(tǒng) AI 一旦需要處理邊界和規(guī)則不清晰的問題,效率就迅速下降。只有在解決深度語義理解、多模態(tài)交互技術(shù)、對(duì)話內(nèi)容生成、復(fù)雜場(chǎng)景下的多輪對(duì)話與決策技術(shù)等等之后,智能交互才能真正釋放行業(yè)創(chuàng)新價(jià)值。
也正是如此,京東發(fā)布的多模態(tài)交互與內(nèi)容生等一系列解決方案,讓千人千面的智能交互應(yīng)用開始真實(shí)地走入產(chǎn)業(yè)端,服務(wù)業(yè)數(shù)智化轉(zhuǎn)型的浪潮快速到來。
舉個(gè)例子,傳統(tǒng)的客服機(jī)器人只能將市民抱怨的問題記下來,然后提交給后臺(tái)工作人員去安排和處理。而伴隨著智能交互系統(tǒng)的落地,山西大同的 12345 近來就出現(xiàn)了一些顯而易見的改變,可以通過智能動(dòng)態(tài)交互的方式準(zhǔn)確地理解是哪里、是什么情況、什么路燈,通過數(shù)字化的私有云管理體系調(diào)動(dòng)相關(guān)區(qū)的衛(wèi)生局,通過和相關(guān)人員進(jìn)行 AI 外呼聯(lián)系解決這個(gè)問題,并創(chuàng)建這個(gè)工單和狀態(tài)。
在確認(rèn)修好之后,市長(zhǎng)熱線再外呼電話,告訴市民修好了這種接訴即辦的智能服務(wù),會(huì)不會(huì)讓每一個(gè)打開電話的市民感受到一種城市管理的速度與文明呢?在疫情防控嚴(yán)格的當(dāng)下,智能交互基礎(chǔ)上的智能疫情外呼系統(tǒng),也可以自動(dòng)化完成外呼疫情排查、通知、信息采集、病例回訪等工作,是不是可以有效減輕醫(yī)護(hù)和基層人員的負(fù)擔(dān)?
我想上述答案都會(huì)是肯定的。
智能交互還可以應(yīng)用到客服領(lǐng)域。如果你也曾厭倦過撥打客服電話時(shí)冗長(zhǎng)的等待、牛頭不對(duì)馬嘴的溝通,那么智能交互可能會(huì)在未來拯救你和客服雙方。
傳統(tǒng)客服模式下,人工客服需要將三分之二時(shí)間用在理解客戶的需求上,剩下是用在后臺(tái)查詢、業(yè)務(wù)辦理,以及創(chuàng)建摘要,為客戶完成后續(xù)服務(wù)的跟蹤和閉環(huán)上。而京東智能交互可以在分配電話坐席前,就進(jìn)行機(jī)器探索,把合乎的畫像和需求匹配到最適合的人工智客服那里;比如手機(jī)的特殊功能,會(huì)找到手機(jī)專家回答問題。
在實(shí)時(shí)對(duì)話中,系統(tǒng)會(huì)自動(dòng)識(shí)別高濃度負(fù)面情緒。在疫情期間,智能客服就曾在與一位年輕客戶的交談中,感知到對(duì)方在購藥之后出現(xiàn)了情緒低沉的情況,在安撫的同時(shí),及時(shí)聯(lián)系了心理咨詢專家。618 期間,智能人機(jī)交互系統(tǒng)就為京東平臺(tái)服務(wù)了 7800 萬人次,使得原來的人海戰(zhàn)略客服變成智能接待的方式,使得客服中心效率提升 90%。
從識(shí)別到理解,再到生成千人千面的個(gè)性化服務(wù),是 AI 能力的迭代進(jìn)化,也展現(xiàn)出京東對(duì)連接技術(shù)與產(chǎn)業(yè)的獨(dú)特思考。在技術(shù)創(chuàng)新的同時(shí),賦予其廣袤的產(chǎn)業(yè)價(jià)值機(jī)會(huì)點(diǎn),在產(chǎn)業(yè) AI 化、AI 產(chǎn)業(yè)化的當(dāng)下,進(jìn)一步點(diǎn)燃了 AI 改造世界的可能性。
周伯文在發(fā)言的結(jié)尾說道:下一個(gè) 10 年,以技術(shù)為本、基于智能交互的服務(wù)業(yè)數(shù)智化將是我們下一個(gè)產(chǎn)業(yè)巨大的浪潮。
這是未來的起點(diǎn),也是等待你我一起去挖掘和感受的特殊時(shí)刻。