醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
智能文字識別是 AI 領(lǐng)域的一個重要分支,該技術(shù)融合了智能圖像處理、基于深度學(xué)習(xí)的復(fù)雜場景文字識別、自然語言處理(NLP)等多項 AI 技術(shù),算法涉及機(jī)器學(xué)習(xí)與深度學(xué)習(xí)。
1、行業(yè)所屬情況
1)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)
機(jī)器學(xué)習(xí)是 AI 的一種底層算法,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個子集。機(jī)器學(xué)習(xí)的算法是建立在一個樣本數(shù)據(jù)集上,在沒有明確編程指示下,依靠模式和推理做出預(yù)測或決策的數(shù)學(xué)模型,且可隨著數(shù)據(jù)量的增加不斷改進(jìn)算法性能。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)方法系列的一部分,利用多層神經(jīng)網(wǎng)絡(luò)從大量數(shù)據(jù)中進(jìn)行學(xué)習(xí)。
機(jī)器學(xué)習(xí)在處理問題時,需要先人工進(jìn)行特征提取,然后根據(jù)提取后的特征進(jìn)行分類問題求解;深度學(xué)習(xí)將特征提取與分類問題求解匯總在一個神經(jīng)網(wǎng)絡(luò)模型中,只需一次輸入即可得到最終的輸出結(jié)果,無需手工獲取特征,所以能解決更為復(fù)雜的問題,且由數(shù)據(jù)驅(qū)動,有效數(shù)據(jù)量越大,模型的表現(xiàn)越好。
隨著深度學(xué)習(xí)出現(xiàn),AI 算法瓶頸逐步被突破。機(jī)器從海量數(shù)據(jù)庫自行歸納物體特征,按照該特征規(guī)律識別物體,圖文識別的精準(zhǔn)度得到極大提升。
2)自然語言處理技術(shù)
自然語言處理(Natural Language Processing,簡稱為“NLP”)技術(shù)是 AI 的一個子領(lǐng)域,用于分析、理解和生產(chǎn)自然語言,NLP 技術(shù)實現(xiàn)機(jī)器與人溝通的大前提,決定了機(jī)器對語言的理解能力。機(jī)器學(xué)習(xí)與深度學(xué)習(xí)大大推動了 NLP 技術(shù)的發(fā)展,使其具備可表達(dá)性、可訓(xùn)練性以及可泛化性。
3)結(jié)合深度學(xué)習(xí)、NLP 的智能文字識別技術(shù)
將圖像中的文字轉(zhuǎn)變?yōu)闄C(jī)器可讀可處理的字符信息,是機(jī)器與現(xiàn)實世界進(jìn)行視覺交互的重要基礎(chǔ),催生了光學(xué)字符識別(Optical Character Recognition,簡稱為“OCR”)技術(shù)。根據(jù)中國信息通信研究院、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟與騰訊集團(tuán)聯(lián)合發(fā)布的《智能文字識別(OCR)能力測評與應(yīng)用白皮書》,早期的 OCR 技術(shù)可追溯到 1870 年,電報技術(shù)和為盲人設(shè)計的閱讀設(shè)備的出現(xiàn)標(biāo)志著 OCR 技術(shù)的誕生。
從 2000 年開始,在線服務(wù)成為 OCR 的主要業(yè)務(wù)形態(tài)之一,這一階段 OCR 技術(shù)僅在比較規(guī)整的印刷體文檔識別上性能良好。2014 年以來,隨著深度學(xué)習(xí)技術(shù)在 OCR 領(lǐng)域的應(yīng)用,加上海量訓(xùn)練數(shù)據(jù)的積累,OCR 取得了飛躍性發(fā)展,適用范圍明顯擴(kuò)大。
2017 年以來,OCR 技術(shù)越來越多的和自然語言處理技術(shù)相融合,形成了智能文字識別技術(shù),增強(qiáng)了對內(nèi)容的“理解”能力,通過語義信息的關(guān)聯(lián),復(fù)雜場景下的文字識別能力得到增強(qiáng)。與此同時,隨著圖像處理等技術(shù)的發(fā)展,能夠?qū)⑴で突兊奈淖謭D像進(jìn)行矯正,也能夠改善 OCR 性能。
OCR 通過圖像文字的識別實現(xiàn)信息錄入,有兩大核心優(yōu)勢,一是提高效率,相比傳統(tǒng)的人工方式,顯著提升信息錄入效率;二是降低成本,通過機(jī)器代替人工,可大幅降低人力成本的開銷。因此 OCR 技術(shù)具有較高的實際應(yīng)用價值,是 AI 應(yīng)用中商業(yè)推廣落地較快的領(lǐng)域,是 AI 領(lǐng)域的重要分支。
《中國禁止出口限制出口技術(shù)目錄》已將“印刷體漢字識別技術(shù)、程序結(jié)構(gòu)、主要算法和源程序、具有交互和自學(xué)習(xí)功能的脫機(jī)手寫漢字識別系統(tǒng)及方法、漢字識別的特征抽取方法和實現(xiàn)文本切分技術(shù)的源程序”等納入限制出口的信息處理技術(shù)范圍。為落實國務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》,科技部啟動了實施科技創(chuàng)新 2030“新一代人工智能”重大項目,并提出 2020 年度第一批項目申報指南,其中“復(fù)雜版面手寫圖文識別及理解關(guān)鍵技術(shù)研究”被列入“新一代人工智能共性關(guān)鍵技術(shù)”。
傳統(tǒng) OCR 技術(shù)針對特定場景的文字圖像進(jìn)行建模,受限于手工設(shè)計特征的單一表達(dá)能力和復(fù)雜的處理流程,一旦跳出當(dāng)前場景,遇到復(fù)雜場景,模型就會失效。而基于深度學(xué)習(xí)、NLP 的智能文字識別技術(shù)可解決傳統(tǒng) OCR 的缺點,靈活應(yīng)對自然場景下多形態(tài)文本以及手寫文本。:
2、行業(yè)概況
相比傳統(tǒng)簡單文字識別,智能文字識別技術(shù)融合圖像處理、OCR、深度學(xué)習(xí)、NLP等 AI 技術(shù),具備更多認(rèn)知與理解能力,可適應(yīng)多語言、多版式、多樣式等復(fù)雜場景,識別準(zhǔn)確率大大提升,同時可基于理解能力進(jìn)一步開發(fā)文檔解析、分類、對比、審核等功能,是個人文檔資產(chǎn)管理與企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵。
從個人用戶角度,用戶對個人文檔資產(chǎn)管理數(shù)字化意識和需求不斷增強(qiáng),合同、名片、發(fā)票、筆記等非結(jié)構(gòu)化的紙質(zhì)文檔通過智能文字識別技術(shù)數(shù)字化后,用戶可隨時隨地在手機(jī)、電腦等多終端進(jìn)行查詢、管理及分享,解決了紙質(zhì)文檔不易存儲、分類、查詢或提取關(guān)鍵信息等痛點,滿足個人的辦公、求職、學(xué)習(xí)等不同場景的需求。
從企業(yè)客戶角度,企業(yè)數(shù)字化轉(zhuǎn)型是將數(shù)字技術(shù)進(jìn)行商業(yè)化落地,從根本上對業(yè)務(wù)流程進(jìn)行優(yōu)化,智能文字識別技術(shù)可將企業(yè)運營過程中產(chǎn)生的大量非結(jié)構(gòu)化、非標(biāo)準(zhǔn)化的文檔數(shù)據(jù)進(jìn)行提取、存儲、轉(zhuǎn)化、解析,為企業(yè)客戶節(jié)省人力成本,提升運營效率,解決了眾多行業(yè)存在的人工操作效率低、業(yè)務(wù)處理流程長,將迎來巨大發(fā)展空間。
根據(jù) Grand View Research 報告,全球智能文字識別服務(wù)市場規(guī)模 2022 年達(dá) 106.5億美元,預(yù)計 2022-2027 年復(fù)合年均增長率約 16.7%。
從下游行業(yè)應(yīng)用來看,金融、物流運輸?shù)氖袌鲆?guī)模是占比最高的兩個細(xì)分行業(yè),且增速也最快,主要由于金融、物流運輸企業(yè)在業(yè)務(wù)流程方面的基礎(chǔ)信息化建設(shè)程度、投入意愿相對其他行業(yè)來說相對較高,在證照、單據(jù)、表格等文檔的智能錄入、分類、比對、審核方面進(jìn)行降本增效具有較大需求,為智能文字識別技術(shù)的商業(yè)化快速落地帶來基礎(chǔ)。
分國別來看,2022 年,亞太區(qū)智能文字識別服務(wù)市場規(guī)模占全球比重約為 22.7%,2022-2027 年復(fù)合年均增長率預(yù)計為全球最高水平,達(dá) 19.4%。亞太區(qū)的高速增長原因主要為:
1)中國、印度等部分國家經(jīng)濟(jì)的高速增長,經(jīng)濟(jì)活動的增長一定程度帶來文檔數(shù)據(jù)與信息量的增長,政府、企業(yè)對經(jīng)濟(jì)活動中產(chǎn)生的文檔進(jìn)行電子化存儲、數(shù)據(jù)提取、分析挖掘具有巨大需求;
2)亞太區(qū)域互聯(lián)網(wǎng)、智能手機(jī)的高速發(fā)展推動數(shù)據(jù)量爆發(fā)式增長,智能文字識別作為數(shù)字資產(chǎn)管理的關(guān)鍵技術(shù),擁有巨大發(fā)展前景;
3)亞太區(qū)近年來對于 AI 技術(shù)研發(fā)、產(chǎn)業(yè)智能升級的重視,促使智能文字識別技術(shù)持續(xù)提升,以及推動企業(yè)對于此服務(wù)的投入。相比北美、歐洲等發(fā)達(dá)國家和地區(qū),亞太區(qū)智能文字識別行業(yè)尚處于發(fā)展初期,處于高速發(fā)展時期。
根據(jù)灼識咨詢,2022 年,中國智能文字識別服務(wù)市場規(guī)模為人民幣50.4億元,預(yù)計2027年市場規(guī)模將達(dá)人民幣168.9億元,復(fù)合年均增長率達(dá) 27.3%,遠(yuǎn)超全球市場總增速。
按照下游客戶類型及交付形式,智能文字識別服務(wù)可分為 C 端 APP、B 端基礎(chǔ)技術(shù)服務(wù)、B 端標(biāo)準(zhǔn)化服務(wù)、B 端場景化解決方案四種形態(tài)。在下游個人用戶和企業(yè)客戶對文檔資產(chǎn)數(shù)字化與智能化升級需求的驅(qū)動下,預(yù)計中國各類型細(xì)分市場均保持較高增速。
3、行業(yè)發(fā)展驅(qū)動因素及發(fā)展趨勢
1)人工智能列入我國“新基建”范圍,政策利好加速產(chǎn)業(yè)新生態(tài)的構(gòu)建
人工智能對社會與經(jīng)濟(jì)的影響日益凸顯,各國政府先后出臺人工智能發(fā)展相關(guān)政策,推動產(chǎn)業(yè)發(fā)展,將其上升到國家戰(zhàn)略高度。我國中央及各地政府近年來先后發(fā)布了多條人工智能利好政策。2015 年 7 月,國務(wù)院出臺《關(guān)于積極推進(jìn)“互聯(lián)網(wǎng)+”行動的指導(dǎo)意見》,首次將人工智能納入重點任務(wù)之一,推動中國人工智能步入新階段。
2017 年12 月,工信部頒布《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018―2020 年)》。2020 年 4 月國家發(fā)改委將人工智能列入“新基建”范圍。2022 年,科技部等六部門制定了《關(guān)于加快場景創(chuàng)新以人工智能高水平應(yīng)用促進(jìn)經(jīng)濟(jì)高質(zhì)量發(fā)展的指導(dǎo)意見》,促進(jìn)人工智能與實體經(jīng)濟(jì)深度融合,推動場景資源開放、提升場景創(chuàng)新能力。
智能文字識別作為人工智能應(yīng)用中商業(yè)推廣落地較快的領(lǐng)域,正成為人工智能新基建落地應(yīng)用的“領(lǐng)頭雁”,已成為人工智能新基建對外提供的重要智能化服務(wù)能力之一。人工智能融入實體經(jīng)濟(jì)的過程,也將為智能文字識別產(chǎn)業(yè)生態(tài)引入豐富的人才、技術(shù)、場景等要素。
2)深度學(xué)習(xí)、NLP 賦能下,智能文字識別技術(shù)不斷提升
當(dāng)前深度學(xué)習(xí)技術(shù)不斷發(fā)展,加速了智能文字識別技術(shù)性能提升,為復(fù)雜場景的文字識別應(yīng)用提供先決條件。文字識別應(yīng)用范圍從簡單的印刷體數(shù)字、字母符號識別,逐步演進(jìn)到自然場景下多形態(tài)文本檢測與識別、手寫體文本檢測與識別等復(fù)雜情形。同時,深度學(xué)習(xí)的出現(xiàn),使 NLP 技術(shù)在閱讀理解、機(jī)器翻譯、問答系統(tǒng)等領(lǐng)域取得了一定成功,大幅提升智能文字識別的技術(shù)水平。
近年來,全球智能文字識別領(lǐng)域公認(rèn)最重要的國際學(xué)術(shù)會議之一國際文檔分析識別大會(ICDAR)上舉辦的一系列頂級文字識別競賽的識別率持續(xù)被刷新。
3)企業(yè)及政府的數(shù)字化轉(zhuǎn)型需求不斷提升
在第四次工業(yè)革命背景下,人工智能、大數(shù)據(jù)與云計算、5G 等新一代信息技術(shù)的快速發(fā)展與融合,使得數(shù)字化基礎(chǔ)設(shè)施和產(chǎn)業(yè)生態(tài)已經(jīng)成為了社會的“新基建”,其中人工智能是推動數(shù)字化轉(zhuǎn)型與創(chuàng)新的原動力,將成為引領(lǐng)第四次工業(yè)革命的核心驅(qū)動力。
企業(yè)及政府?dāng)?shù)字化轉(zhuǎn)型意在實現(xiàn)運營自動化、管理網(wǎng)絡(luò)化、決策智能化,有利于加快業(yè)務(wù)流程重組,有效地降本增效。根據(jù)國際數(shù)據(jù)公司(IDC)2022 年發(fā)布的《中國數(shù)字化轉(zhuǎn)型市場預(yù)測,2021-2026:通過應(yīng)用場景踐行數(shù)字化優(yōu)先策略》報告,中國數(shù)字化轉(zhuǎn)型支出中軟件增長最高,2021-2026 年復(fù)合增長率 CAGR 達(dá)到 24.5%。中國企業(yè)信息化與 IT 投入近些年不斷提升,且相比發(fā)達(dá)國家仍有較大上升空間。
我國政府對企業(yè)及政府的數(shù)字化轉(zhuǎn)型也推出了多項利好政策。2020 年底,上海市委、市政府公布《關(guān)于全面推進(jìn)上海城市數(shù)字化轉(zhuǎn)型的意見》,提出“實現(xiàn)經(jīng)濟(jì)數(shù)字化形成新供給、生活數(shù)字化滿足新需求、治理數(shù)字化優(yōu)化新環(huán)境”的目標(biāo)。
2021 年 3 月,“加快數(shù)字化發(fā)展、建設(shè)數(shù)字中國”成為我國十四五綱要中的重要章節(jié),其提出“加強(qiáng)關(guān)鍵數(shù)字技術(shù)創(chuàng)新應(yīng)用、加快推動數(shù)字產(chǎn)業(yè)化、推進(jìn)產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型”的要求,人工智能領(lǐng)域的“智能識別系統(tǒng)”是數(shù)字經(jīng)濟(jì)重點產(chǎn)業(yè),并提出了“加快建設(shè)數(shù)字經(jīng)濟(jì)、數(shù)字社會、數(shù)字政府,以數(shù)字化轉(zhuǎn)型整體驅(qū)動生產(chǎn)方式、生活方式和治理方式變革”的目標(biāo)。
2023 年 2 月,中共中央、國務(wù)院印發(fā)《數(shù)字中國建設(shè)整體布局規(guī)劃》,強(qiáng)調(diào)“促進(jìn)數(shù)字經(jīng)濟(jì)和實體經(jīng)濟(jì)深度融合,以數(shù)字化驅(qū)動生產(chǎn)生活和治理方式變革”,指出“整體提升應(yīng)用基礎(chǔ)設(shè)施水平,加強(qiáng)傳統(tǒng)基礎(chǔ)設(shè)施數(shù)字化、智能化改造?!?
智能文字識別技術(shù)可幫助企業(yè)與政府實現(xiàn)文檔存量數(shù)字化、增量電子化,隨著企業(yè)與政府?dāng)?shù)字化、信息化與智能化需求的不斷提高,預(yù)計將持續(xù)推動智能文字識別服務(wù)行業(yè)發(fā)展。
4)個人用戶對文檔資產(chǎn)管理愈發(fā)受到重視
互聯(lián)網(wǎng)、智能手機(jī)的高速發(fā)展,使消費者習(xí)慣于利用智能終端進(jìn)行數(shù)據(jù)處理。同時,在互聯(lián)網(wǎng)時代下信息爆炸式的增長,且通常個人數(shù)據(jù)資產(chǎn)都較為珍貴,如合同、名片、發(fā)票、筆記等,使得消費者對個人資產(chǎn)管理數(shù)字化意識和需求不斷增強(qiáng)。
由于紙質(zhì)文檔不易保存,難以對信息進(jìn)行快速的查詢、分類、分享,因此用戶更傾向于將個人文檔通過掃描、拍照等方式數(shù)字化,在本地或者云端進(jìn)行有效的存儲、分類等,以便隨時隨地在手機(jī)、電腦等多終端進(jìn)行同步、查詢、管理及分享,滿足個人的辦公、求職、學(xué)習(xí)等不同場景的需求。個人用戶對文檔資產(chǎn)管理持續(xù)存在的需求將不斷推動智能文字識別服務(wù)行業(yè)發(fā)展。