醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險(xiǎn)旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運(yùn)輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
(1)人工智能語音語言行業(yè)基本概述
1)定義 人工智能語音語言技術(shù)即實(shí)現(xiàn)人與機(jī)器以語
言為紐帶的信息處理技術(shù),人機(jī)對(duì)話通過對(duì)聲音信號(hào)的音頻采集與信號(hào)處理將語音轉(zhuǎn)化為文字供機(jī)器處理,在機(jī)器進(jìn)行語音識(shí)別與語義理解后、再進(jìn)行對(duì)話管理、自然語言生成并通過語音合成技術(shù)將文本語言轉(zhuǎn)化為聲音進(jìn)行輸出,最終形成完整的人機(jī)語音語言交互。
2)發(fā)展歷程
1952 年,AT&T 貝爾實(shí)驗(yàn)室成功研究出世界上第一個(gè)語音識(shí)別系統(tǒng) Audry,標(biāo)志著智能語音語言技術(shù)發(fā)展的開始。至今智能語音語言技術(shù)已經(jīng)歷經(jīng)了近 70年的發(fā)展,經(jīng)歷了技術(shù)萌芽期、起步期、變革式發(fā)展期、落地可用期共四個(gè)發(fā)展階段。
技術(shù)萌芽期(1950s-1970s):Audry 作為第一個(gè)語音識(shí)別系統(tǒng),可以識(shí)別10個(gè)英文數(shù)字發(fā)音,該系統(tǒng)基于簡單的模板匹配方法識(shí)別個(gè)體說出的孤立數(shù)字,在此之后,連續(xù)語音識(shí)別系統(tǒng)開始出現(xiàn)。語音合成的參數(shù)合成法能生成比較自然的語音。同一時(shí)代,以有限自動(dòng)機(jī)和正則匹配理論為基礎(chǔ)的文字處理技術(shù)出現(xiàn)。以喬姆斯基的文法和句法結(jié)構(gòu)為代表的理性主義方法,和以香農(nóng)信息論為代表的經(jīng)驗(yàn)主義方法都發(fā)展起來。出現(xiàn)了一些極為簡單的翻譯、問答和聊天系統(tǒng),但都無法實(shí)用。
起步期(1980s-2011):在此階段初期,隨著算法模型以及微電子技術(shù)的發(fā)展,語音識(shí)別領(lǐng)域取得了突破性進(jìn)展。隱馬爾科夫模型(HMM)逐漸成熟和不斷完善,開始成為語音識(shí)別的主流方法,語音識(shí)別轉(zhuǎn)向基于概率統(tǒng)計(jì)建模的方法,同時(shí)神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用研究興起。此后語音識(shí)別技術(shù)逐漸走向?qū)嵱没S多具有代表性的產(chǎn)品問世,例如 IBM 研發(fā)的 ViaVoice 系統(tǒng),Dragon 公司研發(fā)的 DragonDictate 系統(tǒng),都具有更好的自適應(yīng)性,能夠在使用過程中不斷提高識(shí)別準(zhǔn)確率。
2009 年,Hinton 將深度神經(jīng)網(wǎng)絡(luò)(DNN)應(yīng)用于語音的聲學(xué)建模,取得了在語音識(shí)別方面的重大突破,使語音識(shí)別的準(zhǔn)確性得到顯著改善。與語音技術(shù)基本同步,這一時(shí)期的自然語言處理技術(shù)的發(fā)展,也出現(xiàn)了數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)模型逐漸占據(jù)主流地位的趨勢。從概率模型到支持向量機(jī),從線性分類器到神經(jīng)網(wǎng)絡(luò),大量數(shù)據(jù)驅(qū)動(dòng)的技術(shù)被應(yīng)用到自然語言處理領(lǐng)域,產(chǎn)生了一系列重大成果。這一階段中,理解、翻譯、問答、對(duì)話系統(tǒng)等都在限定的范圍內(nèi)逐步實(shí)用化。
變革式發(fā)展期(2011-2016):2011 年,微軟研究院又將 DNN 技術(shù)應(yīng)用在大詞匯量連續(xù)語音識(shí)別任務(wù)上,極大地降低了語音識(shí)別錯(cuò)誤率。2016 年,微軟AI 團(tuán)隊(duì)在產(chǎn)業(yè)標(biāo)準(zhǔn) Switchboard 語音識(shí)別任務(wù)上,取得了當(dāng)時(shí)產(chǎn)業(yè)中最低的 5.9%的詞錯(cuò)率(WER),5.9%的詞錯(cuò)率等同于專業(yè)速錄員速記同樣一段對(duì)話的水平,這代表著機(jī)器的語音識(shí)別準(zhǔn)確率第一次達(dá)到人類水平,智能語音語言技術(shù)開始逐步落地。這一時(shí)期中,以連續(xù)詞向量、循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型為代表的一系列深度學(xué)習(xí)技術(shù),進(jìn)一步大幅推動(dòng)了自然語言處理技術(shù)的發(fā)展,復(fù)雜場景下的自然語言處理的性能顯著改善。
落地可用期(2016-至今):端到端的語音識(shí)別開始廣泛應(yīng)用,準(zhǔn)確率進(jìn)一步提升,且針對(duì)遠(yuǎn)場的語音識(shí)別和喚醒得到進(jìn)一步發(fā)展,全雙工語音交互開始出現(xiàn)。此階段語音識(shí)別的準(zhǔn)確率可達(dá) 98%以上,且能根據(jù)實(shí)際應(yīng)用痛點(diǎn)針對(duì)性優(yōu)化。大數(shù)據(jù)驅(qū)動(dòng)的預(yù)訓(xùn)練語言模型的出現(xiàn),使得自然語言處理技術(shù)在這一階段又上了一個(gè)臺(tái)階,眾多小數(shù)據(jù)、跨領(lǐng)域的遷移學(xué)習(xí)技術(shù)也應(yīng)運(yùn)而生,自然語言處理的技術(shù)覆蓋范圍進(jìn)一步加強(qiáng),在產(chǎn)業(yè)中得到廣泛深入使用。
數(shù)據(jù)來源:《2020 年中國智能語音行業(yè)研究報(bào)告》(艾瑞咨詢)
(2)人工智能語音語言市場的產(chǎn)業(yè)鏈情況
人工智能語音語言市場的產(chǎn)業(yè)鏈可依據(jù)關(guān)鍵技術(shù)拆分為六大環(huán)節(jié),各個(gè)環(huán)節(jié)又可以進(jìn)一步歸集為聲學(xué)、語音感知、語言認(rèn)知三大模塊。音頻采集與信號(hào)處理環(huán)節(jié)是智能語音語言交互的起點(diǎn),當(dāng)前的核心在于回聲消除、噪聲消除、聲源分離、提升遠(yuǎn)場和復(fù)雜聲學(xué)環(huán)境下語音喚醒和識(shí)別的準(zhǔn)確率等關(guān)鍵技術(shù);語音識(shí)別是把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或音頻類別的過程,當(dāng)前的核心在于聲紋技術(shù)、口音適應(yīng)能力、情緒識(shí)別能力、端到端識(shí)別、低功耗識(shí)別等;
語義理解是通過自然語言處理等方式使機(jī)器理解語言的過程,當(dāng)前的核心在于口語語義理解問題、對(duì)話關(guān)鍵信息抽取、知識(shí)提取及結(jié)構(gòu)化等;而對(duì)話管理是以多輪交互為核心的一系列自然語言認(rèn)知技術(shù)的綜合,是人機(jī)對(duì)話系統(tǒng)中的理解、決策和知識(shí)中樞,當(dāng)前的核心在于實(shí)現(xiàn)多模態(tài)、全雙工交互,增強(qiáng)機(jī)器在多任務(wù)、全場景、全領(lǐng)域的靈活對(duì)話能力;知識(shí)圖譜是現(xiàn)實(shí)世界知識(shí)的一種表達(dá)方式,當(dāng)前的核心在于知識(shí)圖譜構(gòu)建、問答推理等;語音合成即從文本到語音,讓機(jī)器具備“說話”的能力,當(dāng)前的核心在于使機(jī)器能夠?qū)崿F(xiàn)自然聲音、高表現(xiàn)力、小數(shù)據(jù)復(fù)刻轉(zhuǎn)換,以及方言及多語種的語音表達(dá)。
人工智能語音語言行業(yè)內(nèi)的大部分公司只專注于產(chǎn)業(yè)鏈的單個(gè)或部分環(huán)節(jié),少有公司能擁有覆蓋產(chǎn)業(yè)鏈各環(huán)節(jié)的技術(shù)、產(chǎn)品與服務(wù),當(dāng)前國內(nèi)人工智能語音語言行業(yè)的公司大約有 400 余家,僅有極少數(shù)可以實(shí)現(xiàn)全產(chǎn)業(yè)鏈覆蓋。
(3)人工智能語音語言行業(yè)行業(yè)結(jié)構(gòu)與市場規(guī)模
1)行業(yè)結(jié)構(gòu)
圖:中國智能語音市場細(xì)分應(yīng)用領(lǐng)域(2030)
數(shù)據(jù)來源:《2021 年中國智能語音市場分析》(iResearch&德勤)
據(jù)德勤 2021 年的研究,在大環(huán)境需求的催化下,各行業(yè)智能化應(yīng)用迎來需求拐點(diǎn),進(jìn)入需求爆發(fā)期。預(yù)計(jì) 2030 年消費(fèi)級(jí)應(yīng)用場景總的發(fā)展空間將超過 700億元。智能家居、智慧駕駛、智能辦公等企業(yè)級(jí)場景加速發(fā)展,市場需求不斷擴(kuò)大,發(fā)展空間預(yù)計(jì)即將達(dá)到千億規(guī)模。
2)市場規(guī)模
智能語音語言技術(shù)使得人類的生產(chǎn)及生活方式逐步改變,基于智能語音語言技術(shù)的人機(jī)交互產(chǎn)品在接收用戶的聲音等信息后,能將用戶意圖轉(zhuǎn)換為機(jī)器可以理解和進(jìn)一步處理的內(nèi)容,從而幫助用戶解決問題或完成特定任務(wù)。其中,對(duì)話式機(jī)器人可以降低人力成本,減輕人工工作量,提高工作效率,解決用戶客服、營銷、質(zhì)檢、呼入、呼出等需求;搭載人機(jī)對(duì)話交互功能的消費(fèi)級(jí)智能硬件,例如智能家電、智能車載、智能可穿戴設(shè)備等,能夠通過語音語言交互的方式,提供更豐富的設(shè)備交互功能,提升設(shè)備操控便捷性。根據(jù)德勤 2021 年末發(fā)布的《中國智能語音市場分析》,2021 年中國智能語音市場規(guī)模將達(dá)到 285 億元,較 2020年的 217 億元增長 31.34%,預(yù)計(jì)在 2030 年市場規(guī)模將達(dá)到 1,452 億元。
智能家居是智能語音應(yīng)用的主要領(lǐng)域之一,隨著物聯(lián)網(wǎng)、人工智能等技術(shù)的快速發(fā)展,智能語音在家居領(lǐng)域的應(yīng)用將進(jìn)一步提速。根據(jù)前瞻經(jīng)濟(jì)學(xué)人《2022年中國智能語音行業(yè)市場規(guī)模與發(fā)展前景分析-智能語音進(jìn)入加速應(yīng)用階段》,2017-2021 年中國智能家居市場規(guī)模不斷增長,2021 年預(yù)估突破 5,800 億元,2022年將超過 6,500 億元,將帶動(dòng)智能語音市場的持續(xù)提升。
根據(jù)前瞻產(chǎn)業(yè)研究院《2020 年中國智能語音行業(yè)市場競爭格局及發(fā)展前景分析-未來將市場規(guī)模保持穩(wěn)步增長》,2020 年我國智能語音在消費(fèi)電子領(lǐng)域的應(yīng)用市場規(guī)模達(dá)到 43.6 億元,占比近 1/3。未來消費(fèi)電子仍然是智能語音占比最高的行業(yè)領(lǐng)域,2021 年智能語音在消費(fèi)電子行業(yè)的市場規(guī)模達(dá)到約 56.5 億元,增長率約為 30%。
根據(jù)艾瑞咨詢研究院的《2021 年人工智能產(chǎn)業(yè)報(bào)告》,2021 年我國智能硬件的 AI 語音助手算法的產(chǎn)值已達(dá)到 34 億元,預(yù)計(jì) 2026 年相關(guān)產(chǎn)值規(guī)模將達(dá)到155 億元,2021 年至 2026 年的 CAGR 為 35.4%。
2020年中國智能網(wǎng)聯(lián)車市場滲透率已經(jīng)達(dá)到49%,根據(jù)IHS Markit的預(yù)測,2025 年中國智能網(wǎng)聯(lián)車滲透率將超過 75%,進(jìn)一步推動(dòng)智能語音在汽車領(lǐng)域的應(yīng)用。
根據(jù)沙利文的報(bào)告,2020 年中國智能客服行業(yè)市場規(guī)模約為 30.1 億元,伴隨智能化價(jià)值深化,2025 年中國智能客服市場規(guī)模預(yù)計(jì)將突破 100 億元,5 年CAGR 達(dá) 35.8%,行業(yè)呈現(xiàn)快速增長態(tài)勢。