智能文字識別行業(yè)的核心技術是 OCR、NLP、圖像處理等技術,是 AI 產(chǎn)業(yè)中快速發(fā)展的細分行業(yè)之一,不僅服務于個人用戶的文檔資產(chǎn)管理需求,也推動企業(yè)客戶進行數(shù)字化、智能化轉型。
1、全球智能文字識別行業(yè)
(1)所屬行業(yè)在新技術方面的發(fā)展情況
智能文字識別是 AI 領域的一個重要分支,該技術融合了智能圖像處理、基于深度學習的復雜場景文字識別、自然語言處理(NLP)等多項 AI 技術,算法涉及機器學習與深度學習。
1)機器學習與深度學習
機器學習是 AI 的一種底層算法,深度學習是機器學習的一個子集。機器學習的算法是建立在一個樣本數(shù)據(jù)集上,在沒有明確編程指示下,依靠模式和推理做出預測或決策的數(shù)學模型,且可隨著數(shù)據(jù)量的增加不斷改進算法性能。
深度學習是機器學習方法系列的一部分,利用多層神經(jīng)網(wǎng)絡從大量數(shù)據(jù)中進行學習。機器學習在處理問題時,需要先人工進行特征提取,然后根據(jù)提取后的特征進行分類問題求解;深度學習將特征提取與分類問題求解匯總在一個神經(jīng)網(wǎng)絡模型中,只需一次輸入即可得到最終的輸出結果,無需手工獲取特征,所以能解決更為復雜的問題,且由數(shù)據(jù)驅動,有效數(shù)據(jù)量越大,模型的表現(xiàn)越好。隨著深度學習出現(xiàn),AI 算法瓶頸逐步被突破。機器從海量數(shù)據(jù)庫自行歸納物體特征,按照該特征規(guī)律識別物體,圖文識別的精準度得到極大提升。
2)自然語言處理技術
自然語言處理(Natural Language Processing,簡稱為“NLP”)技術是 AI 的一個子領域,用于分析、理解和生產(chǎn)自然語言,NLP 技術實現(xiàn)機器與人溝通的大前提,決定了機器對語言的理解能力。機器學習與深度學習大大推動了 NLP 技術的發(fā)展,使其具備可表達性、可訓練性以及可泛化性。
3)結合深度學習、NLP 的智能文字識別技術
將圖像中的文字轉變?yōu)闄C器可讀可處理的字符信息,是機器與現(xiàn)實世界進行視覺交互的重要基礎,催生了光學字符識別(Optical Character Recognition,簡稱為“OCR”)技術。根據(jù)中國信息通信研究院、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟與騰訊集團聯(lián)合發(fā)布的《智能文字識別(OCR)能力測評與應用白皮書》,早期的 OCR 技術可追溯到 1870 年,電報技術和為盲人設計的閱讀設備的出現(xiàn)標志著 OCR 技術的誕生。
從 2000 年開始,在線服務成為 OCR 的主要業(yè)務形態(tài)之一,這一階段 OCR 技術僅在比較規(guī)整的印刷體文檔識別上性能良好。2014 年以來,隨著深度學習技術在 OCR 領域的應用,加上海量訓練數(shù)據(jù)的積累,OCR 取得了飛躍性發(fā)展,適用范圍明顯擴大。2017 年以來,OCR 技術越來越多的和自然語言處理技術相融合,形成了智能文字識別技術,增強了對內(nèi)容的“理解”能力,通過語義信息的關聯(lián),復雜場景下的文字識別能力得到增強。
與此同時,隨著圖像處理等技術的發(fā)展,能夠將扭曲和畸變的文字圖像進行矯正,也能夠改善 OCR 性能。OCR 通過圖像文字的識別實現(xiàn)信息錄入,有兩大核心優(yōu)勢,一是提高效率,相比傳統(tǒng)的人工方式,顯著提升信息錄入效率;二是降低成本,通過機器代替人工,可大幅降低人力成本的開銷。因此 OCR 技術具有較高的實際應用價值,是 AI 應用中商業(yè)推廣落地較快的領域,是 AI 領域的重要分支。
《中國禁止出口限制出口技術目錄》已將“印刷體漢字識別技術、程序結構、主要算法和源程序、具有交互和自學習功能的脫機手寫漢字識別系統(tǒng)及方法、漢字識別的特征抽取方法和實現(xiàn)文本切分技術的源程序”等納入限制出口的信息處理技術范圍。為落實國務院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》,科技部啟動了實施科技創(chuàng)新 2030“新一代人工智能”重大項目,并提出 2020 年度第一批項目申報指南,其中“復雜版面手寫圖文識別及理解關鍵技術研究”被列入“新一代人工智能共性關鍵技術”。
傳統(tǒng) OCR 技術針對特定場景的文字圖像進行建模,受限于手工設計特征的單一表達能力和復雜的處理流程,一旦跳出當前場景,遇到復雜場景,模型就會失效。而基于深度學習、NLP 的智能文字識別技術可解決傳統(tǒng) OCR 的缺點,靈活應對自然場景下多形態(tài)文本以及手寫文本:
(2)行業(yè)概況
相比傳統(tǒng)簡單文字識別,智能文字識別技術融合圖像處理、OCR、深度學習、NLP等 AI 技術,具備更多認知與理解能力,可適應多語言、多版式、多樣式等復雜場景,識別準確率大大提升,同時可基于理解能力進一步開發(fā)文檔解析、分類、對比、審核等功能,是個人文檔資產(chǎn)管理與企業(yè)數(shù)字化轉型的關鍵。
從個人用戶角度,用戶對個人文檔資產(chǎn)管理數(shù)字化意識和需求不斷增強,合同、名片、發(fā)票、筆記等非結構化的紙質文檔通過智能文字識別技術數(shù)字化后,用戶可隨時隨地在手機、電腦等多終端進行查詢、管理及分享,解決了紙質文檔不易存儲、分類、查詢或提取關鍵信息等痛點,滿足個人的辦公、求職、學習等不同場景的需求。
從企業(yè)客戶角度,企業(yè)數(shù)字化轉型是將數(shù)字技術進行商業(yè)化落地,從根本上對業(yè)務流程進行優(yōu)化,智能文字識別技術可將企業(yè)運營過程中產(chǎn)生的大量非結構化、非標準化的文檔數(shù)據(jù)進行提取、存儲、轉化、解析,為企業(yè)客戶節(jié)省人力成本,提升運營效率
解決了眾多行業(yè)存在的人工操作效率低、業(yè)務處理流程長,將迎來巨大發(fā)展空間。根據(jù) Grand View Research 報告,全球智能文字識別服務市場規(guī)模 2022 年達 106.5億美元,預計 2022-2027 年復合年均增長率約 16.7%。
從下游行業(yè)應用來看,金融、物流運輸?shù)氖袌鲆?guī)模是占比最高的兩個細分行業(yè),且增速也最快,主要由于金融、物流運輸企業(yè)在業(yè)務流程方面的基礎信息化建設程度、投入意愿相對其他行業(yè)來說相對較高,在證照、單據(jù)、表格等文檔的智能錄入、分類、比對、審核方面進行降本增效具有較大需求,為智能文字識別技術的商業(yè)化快速落地帶來基礎。分國別來看,2022 年,亞太區(qū)智能文字識別服務市場規(guī)模占全球比重約為 22.7%,2022-2027 年復合年均增長率預計為全球最高水平,達 19.4%。亞太區(qū)的高速增長原因主要為:
1)中國、印度等部分國家經(jīng)濟的高速增長,經(jīng)濟活動的增長一定程度帶來文檔數(shù)據(jù)與信息量的增長,政府、企業(yè)對經(jīng)濟活動中產(chǎn)生的文檔進行電子化存儲、數(shù)據(jù)提取、分析挖掘具有巨大需求;
2)亞太區(qū)域互聯(lián)網(wǎng)、智能手機的高速發(fā)展推動數(shù)據(jù)量爆發(fā)式增長,智能文字識別作為數(shù)字資產(chǎn)管理的關鍵技術,擁有巨大發(fā)展前景;
3)亞太區(qū)近年來對于 AI 技術研發(fā)、產(chǎn)業(yè)智能升級的重視,促使智能文字識別技術持續(xù)提升,以及推動企業(yè)對于此服務的投入。相比北美、歐洲等發(fā)達國家和地區(qū),亞太區(qū)智能文字識別行業(yè)尚處于發(fā)展初期,處于高速發(fā)展時期。
根據(jù)灼識咨詢,2022 年,中國智能文字識別服務市場規(guī)模為人民幣 50.4 億元,預計 2027 年市場規(guī)模將達人民幣 168.9 億元,復合年均增長率達 27.3%,遠超全球市場總增速。按照下游客戶類型及交付形式,智能文字識別服務可分為 C 端 APP、B 端基礎技術服務、B 端標準化服務、B 端場景化解決方案四種形態(tài)。在下游個人用戶和企業(yè)客戶對文檔資產(chǎn)數(shù)字化與智能化升級需求的驅動下,預計中國各類型細分市場均保持較高增速。
(3)行業(yè)發(fā)展驅動因素及發(fā)展趨勢
1)人工智能列入我國“新基建”范圍,政策利好加速產(chǎn)業(yè)新生態(tài)的構建
人工智能對社會與經(jīng)濟的影響日益凸顯,各國政府先后出臺人工智能發(fā)展相關政策,推動產(chǎn)業(yè)發(fā)展,將其上升到國家戰(zhàn)略高度。我國中央及各地政府近年來先后發(fā)布了多條人工智能利好政策。2015 年 7 月,國務院出臺《關于積極推進“互聯(lián)網(wǎng)+”行動的指導意見》,首次將人工智能納入重點任務之一,推動中國人工智能步入新階段。
2017 年12 月,工信部頒布《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018―2020 年)》。2020 年 4 月國家發(fā)改委將人工智能列入“新基建”范圍。2022 年,科技部等六部門制定了《關于加快場景創(chuàng)新以人工智能高水平應用促進經(jīng)濟高質量發(fā)展的指導意見》,促進人工智能與實體經(jīng)濟深度融合,推動場景資源開放、提升場景創(chuàng)新能力。
智能文字識別作為人工智能應用中商業(yè)推廣落地較快的領域,正成為人工智能新基建落地應用的“領頭雁”,已成為人工智能新基建對外提供的重要智能化服務能力之一。人工智能融入實體經(jīng)濟的過程,也將為智能文字識別產(chǎn)業(yè)生態(tài)引入豐富的人才、技術、場景等要素。
2)深度學習、NLP 賦能下,智能文字識別技術不斷提升
當前深度學習技術不斷發(fā)展,加速了智能文字識別技術性能提升,為復雜場景的文字識別應用提供先決條件。文字識別應用范圍從簡單的印刷體數(shù)字、字母符號識別,逐步演進到自然場景下多形態(tài)文本檢測與識別、手寫體文本檢測與識別等復雜情形。
同時,深度學習的出現(xiàn),使 NLP 技術在閱讀理解、機器翻譯、問答系統(tǒng)等領域取得了一定成功,大幅提升智能文字識別的技術水平。近年來,全球智能文字識別領域公認最重要的國際學術會議之一國際文檔分析識別大會(ICDAR)上舉辦的一系列頂級文字識別競賽的識別率持續(xù)被刷新。
3)企業(yè)及政府的數(shù)字化轉型需求不斷提升
在第四次工業(yè)革命背景下,人工智能、大數(shù)據(jù)與云計算、5G 等新一代信息技術的快速發(fā)展與融合,使得數(shù)字化基礎設施和產(chǎn)業(yè)生態(tài)已經(jīng)成為了社會的“新基建”,其中人工智能是推動數(shù)字化轉型與創(chuàng)新的原動力,將成為引領第四次工業(yè)革命的核心驅動力。企業(yè)及政府數(shù)字化轉型意在實現(xiàn)運營自動化、管理網(wǎng)絡化、決策智能化,有利于加快業(yè)務流程重組,有效地降本增效。
根據(jù)國際數(shù)據(jù)公司(IDC)2022 年發(fā)布的《中國數(shù)字化轉型市場預測,2021-2026:通過應用場景踐行數(shù)字化優(yōu)先策略》報告,中國數(shù)字化轉型支出中軟件增長最高,2021-2026 年復合增長率 CAGR 達到 24.5%。中國企業(yè)信息化與 IT 投入近些年不斷提升,且相比發(fā)達國家仍有較大上升空間。我國政府對企業(yè)及政府的數(shù)字化轉型也推出了多項利好政策。
2020 年底,上海市委、市政府公布《關于全面推進上海城市數(shù)字化轉型的意見》,提出“實現(xiàn)經(jīng)濟數(shù)字化形成新供給、生活數(shù)字化滿足新需求、治理數(shù)字化優(yōu)化新環(huán)境”的目標。2021 年 3 月,“加快數(shù)字化發(fā)展、建設數(shù)字中國”成為我國十四五綱要中的重要章節(jié),其提出“加強關鍵數(shù)字技術創(chuàng)新應用、加快推動數(shù)字產(chǎn)業(yè)化、推進產(chǎn)業(yè)數(shù)字化轉型”的要求,人工智能領域的“智能識別系統(tǒng)”是數(shù)字經(jīng)濟重點產(chǎn)業(yè),并提出了“加快建設數(shù)字經(jīng)濟、數(shù)字社會、數(shù)字政府,以數(shù)字化轉型整體驅動生產(chǎn)方式、生活方式和治理方式變革”的目標。
2023 年 2 月,中共中央、國務院印發(fā)《數(shù)字中國建設整體布局規(guī)劃》,強調(diào)“促進數(shù)字經(jīng)濟和實體經(jīng)濟深度融合,以數(shù)字化驅動生產(chǎn)生活和治理方式變革”,指出“整體提升應用基礎設施水平,加強傳統(tǒng)基礎設施數(shù)字化、智能化改造?!敝悄芪淖肿R別技術可幫助企業(yè)與政府實現(xiàn)文檔存量數(shù)字化、增量電子化,隨著企業(yè)與政府數(shù)字化、信息化與智能化需求的不斷提高,預計將持續(xù)推動智能文字識別服務行業(yè)發(fā)展。
4)個人用戶對文檔資產(chǎn)管理愈發(fā)受到重視
互聯(lián)網(wǎng)、智能手機的高速發(fā)展,使消費者習慣于利用智能終端進行數(shù)據(jù)處理。
同時,在互聯(lián)網(wǎng)時代下信息爆炸式的增長,且通常個人數(shù)據(jù)資產(chǎn)都較為珍貴,如合同、名片、發(fā)票、筆記等,使得消費者對個人資產(chǎn)管理數(shù)字化意識和需求不斷增強。由于紙質文檔不易保存,難以對信息進行快速的查詢、分類、分享,因此用戶更傾向于將個人文檔通過掃描、拍照等方式數(shù)字化,在本地或者云端進行有效的存儲、分類等,以便隨時隨地在手機、電腦等多終端進行同步、查詢、管理及分享,滿足個人的辦公、求職、學習等不同場景的需求。個人用戶對文檔資產(chǎn)管理持續(xù)存在的需求將不斷推動智能文字識別服務行業(yè)發(fā)展。
5)大模型技術引領行業(yè)革新浪潮,參與者競相探索商業(yè)化落地場景
大模型是基于海量數(shù)據(jù)打造的模型,是實現(xiàn)通用人工智能的重要路徑,通過無監(jiān)督學習的大規(guī)模預訓練和快速遷移,實現(xiàn)人工智能自動內(nèi)容生成及內(nèi)容判別,將人工智能從感知提升到理解的維度。大模型可以整合多種不同類型的數(shù)據(jù)和信息,實現(xiàn)多模態(tài)處理和分析,從而更全面地理解和解決復雜問題。從 2018 年 OpenAI 發(fā)布超大模型 GPT-1 開始,大模型在各應用場景嶄露頭角,其應用場景廣泛且多樣化。從自然語言處理到圖像生成,從音頻處理到視頻、3D 場景創(chuàng)建,大模型能夠應對多領域的挑戰(zhàn)。
未來,大模型有望為更多應用場景帶來更多機會和創(chuàng)新,人工智能領域的各參與者也在競相探索商業(yè)化落地場景。大模型分為通用人工智能大模型和垂直領域的專業(yè)人工智能大模型,鑒于二者在應用場景、數(shù)據(jù)需求及成本上有所差異,推測未來會就不同目的共存。
通用人工智能大模型泛用性強,覆蓋的通識知識范圍較廣但可能未經(jīng)過嚴格驗證,所需訓練數(shù)據(jù)量及算力投入較高;垂直領域的專業(yè)人工智能系統(tǒng)專業(yè)性強,常與行業(yè)專業(yè)知識結合以滿足真實場景下、特定行業(yè)的應用需求,所需數(shù)據(jù)及成本投入相對可控。智能文字識別等 AI 細分領域的技術有望結合大規(guī)模預訓練等方式實現(xiàn)垂直領域 AI 大模型在實際應用的商業(yè)化落地。
(4)行業(yè)進入壁壘
1)技術與人才壁壘
智能文字識別行業(yè)具備技術密集的特點,智能文字識別技術涉及 OCR、NLP、圖像處理、深度學習等尖端技術的融合,需要底層算法構建、模型訓練、測試和部署等多個技術環(huán)節(jié)的配合。全球人工智能的技術和產(chǎn)品呈現(xiàn)日新月異的發(fā)展態(tài)勢,例如如何在資源受限的移動端設備上設計兼顧性能和效率的輕量模型,如何通過語義及知識的深度挖掘提升模型性能,均是行業(yè)的研究熱點與難點。
同時,市場需求也在不斷變化,促使智能文字識別廠商根據(jù)下游客戶的不同需求,開發(fā)標準化程度不同、形態(tài)不同的產(chǎn)品,提升識別的準確率、速度、穩(wěn)定性,才能夠在激烈的市場競爭中立于不敗之地。智能文字識別技術在實際應用場景上的商業(yè)化落地,需要長時間的技術積累與持續(xù)的研發(fā)投入,也需要大量的優(yōu)秀研發(fā)人員進行底層算法與應用模型的研究,新進入此領域的科技公司的技術追趕難度較大,同時也難以在短期內(nèi)培養(yǎng)出尖端的研發(fā)人才團隊。
2)客戶資源壁壘
對于 C 端 APP 細分市場,先行進入市場的智能文字識別 APP,利用先發(fā)優(yōu)勢,已積累大量用戶,形成了品牌效應。用戶在產(chǎn)品內(nèi)積累越來越多個人文檔資產(chǎn),遷移成本較高,使產(chǎn)品擁有較高用戶粘性,這對本行業(yè)的新進企業(yè)形成了較高的用戶壁壘,同時已樹立的品牌效應也進一步加強用戶壁壘。
對于 B 端服務細分市場,智能文字識別行業(yè)的頭部企業(yè)通過多元化的 B 端產(chǎn)品線布局,在多個下游行業(yè)樹立了多家標桿企業(yè)客戶,其落地案例通常會形成較大行業(yè)影響,影響此行業(yè)內(nèi)眾多企業(yè)的供應商選擇。另外,大型企業(yè)客戶通常對于場景化解決方案需求更高,此類項目落地周期相對較長,更換成本較高。因此對于新廠商而言,形成較高客戶資源壁壘。
3)銷售能力壁壘
由于不同行業(yè)客戶對于智能文字識別技術的需求與應用場景不同,智能文字識別服務提供商對于各行業(yè)場景的深度理解、研發(fā)出可在行業(yè)場景中落地的應用產(chǎn)品是其能否在本行業(yè)立足的關鍵因素之一。如為保險行業(yè)客戶研發(fā)出智能核保、理賠流程的智能文字識別解決方案;為政府客戶研發(fā)出智能證件審核的智能文字識別解決方案;為物流業(yè)客戶研發(fā)出運單信息自動錄入的智能文字識別解決方案。
因此,一家成功的智能文字識別企業(yè)不僅需要尖端研發(fā)人才,也同時需要可鏈接行上海合合信息科技股份有限公司 招股說明書154業(yè)客戶需求和內(nèi)部研發(fā)團隊的銷售團隊,銷售團隊對客戶所在行業(yè)的真實業(yè)務場景、業(yè)務邏輯、產(chǎn)業(yè)鏈上下游等有充分的理解,以客戶的痛點、需求為核心,充分調(diào)動公司內(nèi)部如研發(fā)、實施、售后服務等各類資源,以實現(xiàn)行業(yè)解決方案的落地。而行業(yè)的深度理解需要依靠大量案例的經(jīng)驗積累,這對本行業(yè)的新進企業(yè)形成了較高的銷售能力壁壘。
4)數(shù)據(jù)資源壁壘
融合了深度學習、NLP 等人工智能技術的智能文字識別,其算法的設計和優(yōu)化需要由海量的高質量場景數(shù)據(jù)驅動,需要在各行業(yè)各類大數(shù)據(jù)應用場景積累的海量數(shù)據(jù)對智能文字識別算法模型進行訓練。所以相比市場新進廠商而言,進入智能文字識別領域較久、落地案例更為豐富的廠商在各類場景、各類行業(yè)數(shù)據(jù)的累積上優(yōu)勢明顯,其智能文字識別算法模型更為成熟,識別準確率、識別速度也更為出色。這對本行業(yè)的新進企業(yè)形成了較高的數(shù)據(jù)壁壘。