10月21日,杭州云棲大會上,阿里巴巴達摩院發(fā)布軟硬件結合語音產品“聽悟”。相比只能逐字轉寫的上一代語音產品,“聽悟”是面向未來會議的AI助理,集成了達摩院最新語音及自然語言處理技術,不僅“聽”得準,且“悟”性高,可秒速生成智能會議紀要及待辦。
?
會議場景對語音轉文字產品有強需求。但因技術限制,傳統(tǒng)語音產品存在“聽不準、分不清、看不懂”等問題,往往在噪音下識別準確率較低,無法區(qū)分不同說話人,轉寫內容冗長難以閱讀和沉淀。針對痛點,達摩院語音實驗室打造了“聽悟”,通過讓AI深度參與,讓線上及線下會議更智能、高效、協(xié)同。
“聽悟”內置達摩院獨創(chuàng)聲紋融合方位算法,能對多達10位說話人進行角色分離;融入達摩院新一代端到端語音識別模型,中文識別準確率可達98%,支持14種方言及中英文“自由說”;可嵌入線上音視頻會議,實時出字幕及紀要。
除了聽力好,這位AI助理悟性也高。 “聽悟”能模仿人工整理,進行智能糾錯和分段,自動過濾語氣詞,讓生成文本更流暢。同時,“聽悟”擅長抓重點,可秒速生成關鍵詞、核心結論、重點內容和待辦,用戶能同屏編輯、標注摘要、一鍵分享、安全保存?!奥犖颉边€能對常用詞、用戶行為及歷史文檔進行自學習,越用越聰明。
此外,“聽悟”配置了智能麥克風,融入達摩院指向性差分麥克風陣列技術,可實現(xiàn)7米內遠距離360度高清收音,相比傳統(tǒng)麥克風收音距離、抗噪能力大為提升。
達摩院語音實驗室負責人鄢志杰表示,“語音技術的發(fā)展是不斷解鎖場景的歷史,會議作為當下組織協(xié)同的核心場景,是語音AI將變革的下一個重要場景?!?/p>
鄢志杰介紹,“聽悟”適用于企業(yè)會議、金融調研、媒體訪談、教育培訓等泛會議場景,目前面向企業(yè)客戶,已為多家頭部金融企業(yè)提供服務,且應用于釘釘新上線的“釘閃記”功能中。未來,“聽悟”還將探索與會議廠商合作。
IDC報告顯示,阿里AI近年在語音語義領域表現(xiàn)強勁,市場年增長率達96.6%,增速第一,總營收中國前二,已深入政務、金融、電商、法律等行業(yè),應用于會議、客服、IoT、搜索、文本分析等場景。