醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運(yùn)輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
近年來,行業(yè)內(nèi)智能語音語言算法不斷更新迭代,基礎(chǔ)性能持續(xù)增強(qiáng),通用識別準(zhǔn)確率等已不再是智能語音語言行業(yè)發(fā)展的核心挑戰(zhàn),語音語言技術(shù)逐步由以語音感知為主,向綜合感知、認(rèn)知、知識計算的全鏈路對話系統(tǒng)方向拓展。
關(guān)鍵基礎(chǔ)算法層面,在可控環(huán)境和簡單結(jié)構(gòu)化知識源條件下,語音及語言處理技術(shù)的性能已經(jīng)表現(xiàn)良好,達(dá)到產(chǎn)業(yè)化水平,但在復(fù)雜真實環(huán)境和自然非結(jié)構(gòu)化語言及知識處理方面,與產(chǎn)業(yè)需求仍然有不小差距。例如,在遠(yuǎn)場、高噪聲、多人會議場景下的自由語音識別準(zhǔn)確率還有待提升,知識型的開放問答和語義理解對話尚無通用模型。
因此,在感知技術(shù)方面,業(yè)內(nèi)研究逐步轉(zhuǎn)向聚焦突破高噪聲、多干擾、端側(cè)低資源等真實復(fù)雜自然場景;在認(rèn)知及知識計算方面,聚焦理解式的知識問答、對話理解及管理技術(shù),以及專業(yè)領(lǐng)域的深度知識結(jié)構(gòu)化,進(jìn)一步增強(qiáng)面向垂直領(lǐng)域信息智能化的知識圖譜、對話問答、閱讀理解、翻譯等能力。
另一方面,個性化、場景定制化、私有化部署等需求已經(jīng)成為傳統(tǒng)產(chǎn)業(yè)進(jìn)行智能化改造和數(shù)字化升級的普遍需求,比如個性化的聲音復(fù)刻、新語義領(lǐng)域的問答對話、為保護(hù)隱私的私有化識別部署等。支撐這一需求的小數(shù)據(jù)遷移學(xué)習(xí)和自主學(xué)習(xí)算法及其在語音語言處理各個領(lǐng)域的結(jié)合,也是智能語音及語言行業(yè)算法技術(shù)發(fā)展的趨勢。
1)全雙工語音出現(xiàn),人機(jī)交互朝著更自然、更順暢的方向發(fā)展
全雙工是通信學(xué)科中的一個術(shù)語,意為允許數(shù)據(jù)在兩個方向上同時傳輸,應(yīng)用在智能語音語言行業(yè),即為實時的、雙向的語音信息的交互,這是人們進(jìn)行即興自由交互情境下的對話模式。目前市場上大部分產(chǎn)品只能滿足單輪交互或多輪交互,單輪交互的情景下,用戶每次都需要使用喚醒詞開啟交互,使得人機(jī)對話非常割裂;多輪交互的情景下,用戶只需一次喚醒,在機(jī)器判斷任務(wù)尚未完成時,會持續(xù)的接收用戶發(fā)出的語音信息,待到機(jī)器判斷單次任務(wù)完成后,再綜合信息進(jìn)行分析并做出回應(yīng),但在多輪交互中機(jī)器仍不能做到接收信息和發(fā)出語音同步進(jìn)行。區(qū)別于單輪交互與多輪交互,全雙工可以做到“邊聽、邊想、邊說”,在接收語音信息的同時進(jìn)行思考,并實現(xiàn)動態(tài)的預(yù)估,進(jìn)而以更快的速度進(jìn)行回答,使人機(jī)交互更自然、更流暢;
同時,全雙工語音還可做到節(jié)奏控制,根據(jù)用戶回答內(nèi)容的重要性,決定打斷還是繼續(xù)傾聽,是先完成上一個問題還是先回答用戶的追加問題;此外,全雙工語音還能進(jìn)行場景理解,識別用戶當(dāng)前是否在與 AI進(jìn)行對話,并根據(jù)不同對象、不同場景進(jìn)行音量、語氣等方面的調(diào)節(jié)。未來,智能語音語言的應(yīng)用場景越發(fā)多樣化,應(yīng)對的環(huán)境狀況越發(fā)復(fù)雜,全雙工語音的優(yōu)勢將會越發(fā)凸顯,并成為智能語音語言行業(yè)的主流交互方式。
2)優(yōu)化人機(jī)交互體驗,多模態(tài)交互成為必然趨勢
人類在交互過程中并非孤立地依據(jù)聲音、表情及動作中的單項進(jìn)行溝通與交流,而是綜合視覺、聽覺、觸覺甚至嗅覺來進(jìn)行有效的溝通。同理,要使機(jī)器做到更加逼真的“擬人化”,就需要通過語音、視覺、文本等信息結(jié)合的方式來推動人機(jī)交互的優(yōu)化與升級。例如,在復(fù)雜聲學(xué)環(huán)境尤其是多人同時說話的時候,語音識別性能會顯著下降,此時若引入視覺信息對講話者進(jìn)行唇語識別,綜合語音和視頻信息則可以大幅提升說話人跟蹤和語音識別準(zhǔn)確率;
又例如,在人機(jī)交互過程中,機(jī)器通過采集用戶的表情、說話語氣,甚至腳步的頻率和急緩程度,可以分析用戶的情緒狀態(tài),以采用不同的方式推進(jìn)交互,提高人機(jī)交互的交互效率與質(zhì)量。應(yīng)對人機(jī)交互場景化應(yīng)用不斷拓展的市場需求,多模態(tài)、智能化的完整解決方案可以更好地應(yīng)對不同場景的復(fù)雜變化,多模態(tài)交互成為行業(yè)發(fā)展的必然趨勢。
3)芯片研發(fā)日益關(guān)鍵,端側(cè)智能與云側(cè)智能雙輪驅(qū)動 AI 深度應(yīng)用
目前基于深度學(xué)習(xí)的智能算法通常運(yùn)行于具有強(qiáng)大計算能力的云計算中心,而相比于云計算,邊緣計算將資源和服務(wù)下沉到網(wǎng)絡(luò)邊緣端,從而帶來更低的帶寬占用、更低的時延、更高的能效和更好的隱私保護(hù)。隨著移動終端設(shè)備的普及率越來越高,未來行業(yè)將逐步將人工智能模型全部或分布式的部署到資源受限的終端設(shè)備上,與云側(cè)智能協(xié)同。同時,結(jié)合感知硬件和計算模組的軟硬一體化解決方案,也成為人工智能軟件算法技術(shù)落地優(yōu)化的趨勢。
軟硬一體化的方案將更容易提升人工智能用戶的最終體驗,更好解決 AI 落地的“最后一公里”問題。軟硬一體化的重要形態(tài)就是專用人工智能芯片。專用芯片往往是場景化或針對特定功能的,成本和效率大大優(yōu)于通用芯片,可以進(jìn)一步提高產(chǎn)品端側(cè)的計算效率,并提升針對特定應(yīng)用場景的優(yōu)化適應(yīng)能力。未來,人工智能語音芯片的發(fā)展將進(jìn)一步推動智能語音語言產(chǎn)品在各垂直行業(yè)領(lǐng)域商業(yè)化落地。
4)以對話交互為核心的認(rèn)知和知識計算成為智能信息服務(wù)的重要技術(shù)趨勢
基于知識交互的認(rèn)知智能是信息服務(wù)智能化的核心技術(shù),在智能客服、教育、辦公、金融、政務(wù)、醫(yī)療等各個垂直領(lǐng)域的數(shù)字化轉(zhuǎn)型中具有重要作用。在各類智能信息軟硬件爆發(fā)式增長的大背景下,對話式語言認(rèn)知智能,尤其是對話理解和管理技術(shù),將成為感知與認(rèn)知系統(tǒng)級融合的關(guān)鍵技術(shù),極大影響用戶體驗。另一方面,針對垂直領(lǐng)域的復(fù)雜結(jié)構(gòu)化數(shù)據(jù)庫、各類知識文檔等多種形態(tài)的原始知識源,進(jìn)行知識結(jié)構(gòu)化和知識圖譜構(gòu)建,形成可控人機(jī)理解式交互的知識源,支撐知識問答和對話,支持人類決策,將是面向信息服務(wù)智能化的知識計算的發(fā)展方向。
5)系統(tǒng)級的大規(guī)模場景化柔性定制成為賦能傳統(tǒng)產(chǎn)業(yè)的關(guān)鍵
由于人工智能賦能產(chǎn)業(yè)過程中的場景化定制需求巨大,當(dāng)前智能語音語言行業(yè)的公司逐步由向硬件設(shè)備廠商提供單一技術(shù)授權(quán)或單點技術(shù)的項目制開發(fā)等商業(yè)模式,逐步轉(zhuǎn)向以最終用戶體驗為目標(biāo)的輕量化需求產(chǎn)品的快速迭代、規(guī)?;ㄖ崎_發(fā)和軟硬一體化,通過提供人工智能芯片及模組、智能語音及語言技術(shù)定制接口、業(yè)務(wù)級對話技能開發(fā)以及靈活的知識資源庫等智能語音語言的全鏈路柔性定制方案,增加技術(shù)輸出的厚度,擴(kuò)大技術(shù)輸出的邊界,增加下游產(chǎn)業(yè)的粘性,形成生態(tài)優(yōu)勢。