醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險(xiǎn)旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運(yùn)輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
最終判斷依據(jù):多模態(tài)的理解、生成和響應(yīng)
多模態(tài)理解與生成,毫秒級(jí)響應(yīng),實(shí)現(xiàn)即時(shí)語(yǔ)音對(duì)話。 GPT-4o實(shí)現(xiàn)毫秒級(jí)視覺(jué)理解,GPT-4o能夠接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。使用語(yǔ)音模式與ChatGPT對(duì)話當(dāng)中,GPT-3.5與GPT-4平均延遲分別為2.8s、5.4s,而GPT-4o對(duì)音頻輸入的響應(yīng)時(shí)間最短為232毫秒,平均為320毫秒,這與人類在對(duì)話中的響應(yīng)時(shí)間相似。
更先進(jìn)的視覺(jué)與音頻理解能力,智能感知語(yǔ)氣與語(yǔ)態(tài)。與現(xiàn)有模型相比,GPT-4o展現(xiàn)了出色的視覺(jué)和音頻理解能力:首先,用戶可在對(duì)話中隨時(shí)打斷;其次,可根據(jù)場(chǎng)景生成多種音調(diào),帶有人類般的情緒和情感;直接通過(guò)和AI視頻通話讓它在線解答各種問(wèn)題。
技術(shù)爭(zhēng)奪:端到端原生多模態(tài)技術(shù),統(tǒng)一神經(jīng)網(wǎng)絡(luò)
傳統(tǒng)多模態(tài)大模型技術(shù)架構(gòu)一般包括編碼、對(duì)齊、解碼等步驟,逐步整合多模態(tài)關(guān)聯(lián)信息,輸出目標(biāo)結(jié)果。
編碼:包括視覺(jué)、音頻、文本等模態(tài)編碼器,目的是有效處理多個(gè)模態(tài)信息,轉(zhuǎn)化為可處理狀態(tài);
對(duì)齊:不同模態(tài)編碼器可能不能直接融合,通過(guò)建立共同表示空間,將不同模態(tài)的表示統(tǒng)一,有效整合多個(gè)模態(tài)信息;
解碼:編碼的反向過(guò)程,把模型的內(nèi)部表示轉(zhuǎn)化為物理世界的自然信號(hào),即輸出人類可識(shí)別的信息;
特點(diǎn):傳統(tǒng)的多模態(tài)基礎(chǔ)模型,通常為每種模態(tài)采用特定的編碼器或解碼器,將不同的模態(tài)分離開(kāi)。
缺點(diǎn):限制了模型有效融合跨模態(tài)信息的能力。
以GPT-4為例,根據(jù)Semianalysis猜測(cè),GPT-4多模態(tài)模型可能類似于Flamingo架構(gòu),它的文本編碼器與視覺(jué)編碼器是分開(kāi)的,同時(shí)引入了交叉注意力機(jī)制。
在語(yǔ)音對(duì)話場(chǎng)景,傳統(tǒng)語(yǔ)音AI通常經(jīng)過(guò)三步法實(shí)現(xiàn)對(duì)話功能,在這過(guò)程中會(huì)丟失很多信息且不能判斷情緒變化。三步法具體為:1)語(yǔ)音識(shí)別或ASR:音頻到文本,類似 Whisper;2)LLM 計(jì)劃下一步要說(shuō)什么:文本1到文本2;3)語(yǔ)音合成或TTS:文本2到音頻,類似ElevenLabs或VALL-E。GPT-4便采用該模式,在這過(guò)程中不僅響應(yīng)速度更慢而且丟失了大量信息,無(wú)法直接觀察語(yǔ)調(diào)、多個(gè)說(shuō)話者或背景噪音,也無(wú)法輸出笑聲、歌唱或表達(dá)情感等。
GPT-4o為跨模態(tài)(文本、視覺(jué)和音頻)端到端訓(xùn)練新模型,意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理,成為真正的多模態(tài)統(tǒng)一模型,帶來(lái)性能的飛躍提升。
5月16日,Meta推出混合模態(tài)的基座模型Chameleon,與GPT-4o類似,不僅使用了端到端的方式從頭開(kāi)始訓(xùn)練,而且訓(xùn)練時(shí)將所有模態(tài)(文本、圖像、代碼)的信息交織混合在一起,并使用統(tǒng)一的Transformer架構(gòu)處理。
數(shù)據(jù)處理:除了文本,圖像也轉(zhuǎn)化為一系列離散的tokens,最終生成交錯(cuò)的文本和圖像tokens序列。
訓(xùn)練數(shù)據(jù):訓(xùn)練數(shù)據(jù)既有純文本、文本-圖像對(duì),也有文本、圖像交錯(cuò)出現(xiàn)的多模態(tài)文檔,共計(jì)10萬(wàn)億tokens。
預(yù)訓(xùn)練:一開(kāi)始就被設(shè)計(jì)為混合模型,使用統(tǒng)一的架構(gòu),以端到端的方式在所有模態(tài)(即圖像、文本和代碼)的交錯(cuò)混合上從頭開(kāi)始訓(xùn)練,而不需要單獨(dú)的解碼器或編碼器。
Chameleon實(shí)現(xiàn)了廣泛的能力:
在純文本任務(wù)中保持競(jìng)爭(zhēng)力:Chameleon-34B的性能在常識(shí)推理和閱讀理解測(cè)試任務(wù)上與Mixtral 8x7B和 Gemini Pro等模型相匹配。
在視覺(jué)問(wèn)答和圖像標(biāo)注基準(zhǔn)上:Chameleon-34B超過(guò)了Flamingo、IDEFICS和Llava-1.5等模型。
為了進(jìn)一步評(píng)估模型生成多模態(tài)內(nèi)容的質(zhì)量,論文在基準(zhǔn)測(cè)試之外引入了人類評(píng)估實(shí)驗(yàn):
Chameleon在混合模態(tài)推理和生成方面提供的全新功能:在開(kāi)放式問(wèn)題(即混合圖像和文本的問(wèn)題)的混合模態(tài)響應(yīng)質(zhì)量方面,人類評(píng)估者更喜歡Chameleon模型,而不是Gemini Pro和GPT-4V。它可回答包含文本和生成圖像的問(wèn)題。
更多行業(yè)研究分析請(qǐng)參考思瀚產(chǎn)業(yè)研究院官網(wǎng),同時(shí)思瀚產(chǎn)業(yè)研究院亦提供行研報(bào)告、可研報(bào)告、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、商業(yè)計(jì)劃書、專項(xiàng)調(diào)研、建筑設(shè)計(jì)、境外投資報(bào)告等相關(guān)咨詢服務(wù)方案。