醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
大數(shù)據(jù)生命周期進一步細分為大數(shù)據(jù)集成、存儲和處理、治理、建模、挖掘和流通
等階段。各主要環(huán)節(jié)相關(guān)技術(shù)簡介如下:
(1)大數(shù)據(jù)集成
大數(shù)據(jù)集成包括大數(shù)據(jù)采集和大數(shù)據(jù)整合。大數(shù)據(jù)采集主要是通過各種技術(shù)手段將分散的海量內(nèi)容數(shù)據(jù)(文本、音頻、視頻等)、行為數(shù)據(jù)(訪問、查詢、搜索、會話、表單等)、工業(yè)生產(chǎn)數(shù)據(jù)(傳感器數(shù)據(jù)、監(jiān)控數(shù)據(jù))等從業(yè)務(wù)系統(tǒng)中收集出來。由于大數(shù)據(jù)本身具有分散、海量、高速、異質(zhì)的特征,采集難度較大,因此保證數(shù)據(jù)采集的穩(wěn)定性、可靠性、高效性、可用性和可擴展性等是主要的技術(shù)目標,越來越多的企業(yè)開始選用專業(yè)的數(shù)據(jù)采集服務(wù)。
大數(shù)據(jù)整合的目標是將各種分布的、異構(gòu)的數(shù)據(jù)源中的數(shù)據(jù)抽取后,進行清洗、轉(zhuǎn)換,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,作為數(shù)據(jù)分析處理和挖掘的基礎(chǔ);這個過程常常也被稱為 ETL(Extract/抽取,Transform/轉(zhuǎn)換,Load/加載),通常 ETL 占到整個數(shù)據(jù)倉庫開發(fā)時間的 60%~80%。
大數(shù)據(jù)時代,數(shù)據(jù)整合軟件的市場也開始了整體的技術(shù)升級,主要解決兩個主要技術(shù)問題,一是獨立的 ETL 應(yīng)用服務(wù)器的計算能力普遍不足,二是無法處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。經(jīng)過幾年的技術(shù)發(fā)展,ETL 過程逐步演進為 ELT,即數(shù)據(jù)抽取后直接加載(Load)到大數(shù)據(jù)平臺中,再基于大數(shù)據(jù)平臺的計算能力來實現(xiàn)數(shù)據(jù)轉(zhuǎn)換(Transform),不再依賴 ETL 應(yīng)用服務(wù)器做抽取和轉(zhuǎn)化工作,這樣可以解決 ETL 應(yīng)用服務(wù)器的處理能力不足問題,充分利用大數(shù)據(jù)平臺的分布式計算能力提升數(shù)據(jù)集成的效率和穩(wěn)定性。
(2)大數(shù)據(jù)存儲和處理
大數(shù)據(jù)存儲與處理要用服務(wù)器及相關(guān)設(shè)備把采集到的數(shù)據(jù)存儲起來,使得數(shù)據(jù)能夠被高效地訪問和運算。由于數(shù)據(jù)量的爆發(fā)式增長,尤其是非結(jié)構(gòu)化數(shù)據(jù)的大量涌現(xiàn),傳統(tǒng)的單機系統(tǒng)性能出現(xiàn)瓶頸,單純地提高硬件配置已經(jīng)難以跟上業(yè)務(wù)的需求,產(chǎn)生的海量數(shù)據(jù)沒有合適的存儲場所,企業(yè)被迫放棄大量有價值的數(shù)據(jù);數(shù)據(jù)處理的速度和性能出現(xiàn)瓶頸,業(yè)務(wù)的深度和廣度受到限制。
因此,過去十年間,計算機系統(tǒng)逐步從集中式向分布式架構(gòu)發(fā)展。分布式架構(gòu)及相關(guān)技術(shù)通過增加服務(wù)器的數(shù)量來提升系統(tǒng)的處理能力,每個節(jié)點都是一個可獨立運行的單元,單個節(jié)點失效時不會影響應(yīng)用整體的可用性。分布式系統(tǒng)在擴展性、容錯性、經(jīng)濟性、靈活性、可用性和可維護性方面具有明顯優(yōu)勢。
(3)數(shù)據(jù)治理
根據(jù)國際數(shù)據(jù)管理協(xié)會的定義,數(shù)據(jù)治理是對數(shù)據(jù)資產(chǎn)管理形式權(quán)利和控制的活動集合。數(shù)據(jù)治理是一個管理體系,包括組織、制度、流程和工具,隨著集成和存儲的數(shù)據(jù)量增加,數(shù)據(jù)治理的難度也逐漸增加,牽扯的關(guān)聯(lián)方也越來越多,因此需要一套適合企業(yè)的方法論來開展工作。
業(yè)界逐漸形成了 DAMA、DCMM 等較完整的數(shù)據(jù)治理體系框架,一般包括制定數(shù)據(jù)治理戰(zhàn)略、定義數(shù)據(jù)治理工作機制、通過各個業(yè)務(wù)專題來落實相關(guān)數(shù)據(jù)治理工作內(nèi)容,并最終落實到數(shù)據(jù)治理工具上來實現(xiàn)高效持續(xù)的數(shù)據(jù)治理的執(zhí)行流程。
具體到數(shù)據(jù)治理的內(nèi)容,一般包括元數(shù)據(jù)管理(包括元數(shù)據(jù)采集、血緣分析、影響分析等)、數(shù)據(jù)標準管理(包括標準定義、查詢與發(fā)布等)、數(shù)據(jù)質(zhì)量管理(包括質(zhì)量規(guī)則定義、質(zhì)量檢查、質(zhì)量報告等)、數(shù)據(jù)資產(chǎn)管理(包括數(shù)據(jù)資產(chǎn)編目、數(shù)據(jù)資產(chǎn)服務(wù)、資產(chǎn)審批等)、數(shù)據(jù)安全管理(包括數(shù)據(jù)權(quán)限管理、數(shù)據(jù)脫敏、數(shù)據(jù)加密等)、數(shù)據(jù)生命周期管理(包括數(shù)據(jù)歸檔、數(shù)據(jù)銷毀等)以及主數(shù)據(jù)管理(包括主數(shù)據(jù)申請、發(fā)布、分發(fā)等)這幾個主要的部分。
(4)數(shù)據(jù)建模
數(shù)據(jù)建模是構(gòu)建企業(yè)數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)集市的重要過程,其通過一個業(yè)務(wù)級別的數(shù)據(jù)模型設(shè)計,將分散在不同數(shù)據(jù)源中的數(shù)據(jù)集成在一起,并通過一種面向業(yè)務(wù)主題的方式將數(shù)據(jù)分門別類來做重新組織和標準化,形成有明確業(yè)務(wù)意義的數(shù)據(jù)形式,統(tǒng)一為數(shù)據(jù)分析、數(shù)據(jù)挖掘等提供可用的數(shù)據(jù)。
面向業(yè)務(wù)主題(如客戶主題、賬戶主題等)的數(shù)據(jù)組織管理方式便于業(yè)務(wù)人員對數(shù)據(jù)的理解和綜合使用。具體到技術(shù)層面,數(shù)據(jù)建模一般包括業(yè)務(wù)調(diào)研、架構(gòu)設(shè)計、數(shù)據(jù)模型設(shè)計、數(shù)據(jù)庫 SQL 開發(fā)與測試、業(yè)務(wù)集成上線等幾個階段,架構(gòu)設(shè)計是整個工作的核心,一般會面向不同的行業(yè)來設(shè)計相關(guān)行業(yè)的邏輯數(shù)據(jù)模型。在數(shù)據(jù)建模過程中使用的工具主要包括:數(shù)據(jù)模型設(shè)計與管理工具、SQL 開發(fā)工具、任務(wù)調(diào)度工具等。
(5)數(shù)據(jù)分析和挖掘
大數(shù)據(jù)分析和數(shù)據(jù)挖掘的核心目標是對客觀事實規(guī)律進行描述、展示和總結(jié)、刻畫、推廣,可以從大量的數(shù)據(jù)中通過算法來揭示出隱含的、未知的并有潛在價值信息,并對客觀規(guī)律進行溯源和解釋,從而幫助決策者做出正確的預(yù)測和決策。圍繞這個目標,大數(shù)據(jù)分析和挖掘的手段可以分為模型驅(qū)動、數(shù)據(jù)驅(qū)動等,一般通過統(tǒng)計、在線分析、情報檢索、機器學(xué)習(xí)和專家系統(tǒng)等在內(nèi)的多種方法來實現(xiàn)這一目標。
現(xiàn)階段在面對大數(shù)據(jù)“4V”問題時,大數(shù)據(jù)分析和數(shù)據(jù)挖掘工具對傳統(tǒng)數(shù)據(jù)分析和挖掘工具做進一步自動化和智能化;與此同時,近年來深度學(xué)習(xí)的興起又為大數(shù)據(jù)分析提供了新的手段,其做
為當(dāng)前計算機行業(yè)的熱點研究方向之一,其本質(zhì)的目標是從大量數(shù)據(jù)中提取模式和知識,其要處理的對象包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)在內(nèi)的所有類型數(shù)據(jù),例如近年來在視頻、語音等非結(jié)構(gòu)化數(shù)據(jù)的分析需求快速增加,相應(yīng)的深度學(xué)習(xí)技術(shù)也取得了飛速發(fā)展。
(6)數(shù)據(jù)流通
數(shù)據(jù)流通是按照一定規(guī)則,將存儲的數(shù)據(jù)或者數(shù)據(jù)分析、挖掘得到的信息作為流通對象,從供應(yīng)方傳遞到需求方的過程。數(shù)據(jù)流通的具體內(nèi)容包括可視化的分析報告、面向運營人員的數(shù)據(jù)標簽、面向應(yīng)用可以直接調(diào)用的數(shù)據(jù)指標 API、面向數(shù)據(jù)分析人員的數(shù)據(jù)集、面向數(shù)據(jù)挖掘人員的數(shù)據(jù)特征、和面向業(yè)務(wù)建模人員的單方或多方的建模模型等。
基于數(shù)據(jù)水印、數(shù)據(jù)加密和脫敏、隱私計算、聯(lián)邦學(xué)習(xí)的數(shù)據(jù)流通安全技術(shù),可以提高數(shù)據(jù)流通的完整性和保密性。