国产亚洲人成无码网在线观看,亚洲人成电影在线播放,日韩高清性爽一级毛片免费

當(dāng)前位置：思瀚首頁(yè) >> 行業(yè)新聞 >> 產(chǎn)業(yè)科技

大模型高地爭(zhēng)奪：多模態(tài)的理解和響應(yīng)，原生多模態(tài)技術(shù)比拼
思瀚產(chǎn)業(yè)研究院 2024-07-05

最終判斷依據(jù)：多模態(tài)的理解、生成和響應(yīng)

多模態(tài)理解與生成，毫秒級(jí)響應(yīng)，實(shí)現(xiàn)即時(shí)語(yǔ)音對(duì)話。 GPT-4o實(shí)現(xiàn)毫秒級(jí)視覺(jué)理解，GPT-4o能夠接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像的任意組合輸出。使用語(yǔ)音模式與ChatGPT對(duì)話當(dāng)中，GPT-3.5與GPT-4平均延遲分別為2.8s、5.4s，而GPT-4o對(duì)音頻輸入的響應(yīng)時(shí)間最短為232毫秒，平均為320毫秒，這與人類在對(duì)話中的響應(yīng)時(shí)間相似。

更先進(jìn)的視覺(jué)與音頻理解能力，智能感知語(yǔ)氣與語(yǔ)態(tài)。與現(xiàn)有模型相比，GPT-4o展現(xiàn)了出色的視覺(jué)和音頻理解能力：首先，用戶可在對(duì)話中隨時(shí)打斷；其次，可根據(jù)場(chǎng)景生成多種音調(diào)，帶有人類般的情緒和情感；直接通過(guò)和AI視頻通話讓它在線解答各種問(wèn)題。

技術(shù)爭(zhēng)奪：端到端原生多模態(tài)技術(shù)，統(tǒng)一神經(jīng)網(wǎng)絡(luò)

傳統(tǒng)多模態(tài)大模型技術(shù)架構(gòu)一般包括編碼、對(duì)齊、解碼等步驟，逐步整合多模態(tài)關(guān)聯(lián)信息，輸出目標(biāo)結(jié)果。

編碼：包括視覺(jué)、音頻、文本等模態(tài)編碼器，目的是有效處理多個(gè)模態(tài)信息，轉(zhuǎn)化為可處理狀態(tài)；

對(duì)齊：不同模態(tài)編碼器可能不能直接融合，通過(guò)建立共同表示空間，將不同模態(tài)的表示統(tǒng)一，有效整合多個(gè)模態(tài)信息；

解碼：編碼的反向過(guò)程，把模型的內(nèi)部表示轉(zhuǎn)化為物理世界的自然信號(hào)，即輸出人類可識(shí)別的信息；

特點(diǎn)：傳統(tǒng)的多模態(tài)基礎(chǔ)模型，通常為每種模態(tài)采用特定的編碼器或解碼器，將不同的模態(tài)分離開(kāi)。

缺點(diǎn)：限制了模型有效融合跨模態(tài)信息的能力。

以GPT-4為例，根據(jù)Semianalysis猜測(cè)，GPT-4多模態(tài)模型可能類似于Flamingo架構(gòu)，它的文本編碼器與視覺(jué)編碼器是分開(kāi)的，同時(shí)引入了交叉注意力機(jī)制。

在語(yǔ)音對(duì)話場(chǎng)景，傳統(tǒng)語(yǔ)音AI通常經(jīng)過(guò)三步法實(shí)現(xiàn)對(duì)話功能，在這過(guò)程中會(huì)丟失很多信息且不能判斷情緒變化。三步法具體為：1）語(yǔ)音識(shí)別或ASR：音頻到文本，類似 Whisper；2）LLM 計(jì)劃下一步要說(shuō)什么：文本1到文本2；3）語(yǔ)音合成或TTS：文本2到音頻，類似ElevenLabs或VALL-E。GPT-4便采用該模式，在這過(guò)程中不僅響應(yīng)速度更慢而且丟失了大量信息，無(wú)法直接觀察語(yǔ)調(diào)、多個(gè)說(shuō)話者或背景噪音，也無(wú)法輸出笑聲、歌唱或表達(dá)情感等。

GPT-4o為跨模態(tài)（文本、視覺(jué)和音頻）端到端訓(xùn)練新模型，意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理，成為真正的多模態(tài)統(tǒng)一模型，帶來(lái)性能的飛躍提升。

5月16日，Meta推出混合模態(tài)的基座模型Chameleon，與GPT-4o類似，不僅使用了端到端的方式從頭開(kāi)始訓(xùn)練，而且訓(xùn)練時(shí)將所有模態(tài)（文本、圖像、代碼）的信息交織混合在一起，并使用統(tǒng)一的Transformer架構(gòu)處理。

數(shù)據(jù)處理：除了文本，圖像也轉(zhuǎn)化為一系列離散的tokens，最終生成交錯(cuò)的文本和圖像tokens序列。

訓(xùn)練數(shù)據(jù)：訓(xùn)練數(shù)據(jù)既有純文本、文本-圖像對(duì)，也有文本、圖像交錯(cuò)出現(xiàn)的多模態(tài)文檔，共計(jì)10萬(wàn)億tokens。

預(yù)訓(xùn)練：一開(kāi)始就被設(shè)計(jì)為混合模型，使用統(tǒng)一的架構(gòu)，以端到端的方式在所有模態(tài)（即圖像、文本和代碼）的交錯(cuò)混合上從頭開(kāi)始訓(xùn)練，而不需要單獨(dú)的解碼器或編碼器。

Chameleon實(shí)現(xiàn)了廣泛的能力：

在純文本任務(wù)中保持競(jìng)爭(zhēng)力：Chameleon-34B的性能在常識(shí)推理和閱讀理解測(cè)試任務(wù)上與Mixtral 8x7B和 Gemini Pro等模型相匹配。

在視覺(jué)問(wèn)答和圖像標(biāo)注基準(zhǔn)上：Chameleon-34B超過(guò)了Flamingo、IDEFICS和Llava-1.5等模型。

為了進(jìn)一步評(píng)估模型生成多模態(tài)內(nèi)容的質(zhì)量，論文在基準(zhǔn)測(cè)試之外引入了人類評(píng)估實(shí)驗(yàn)：

Chameleon在混合模態(tài)推理和生成方面提供的全新功能：在開(kāi)放式問(wèn)題（即混合圖像和文本的問(wèn)題）的混合模態(tài)響應(yīng)質(zhì)量方面，人類評(píng)估者更喜歡Chameleon模型，而不是Gemini Pro和GPT-4V。它可回答包含文本和生成圖像的問(wèn)題。

更多行業(yè)研究分析請(qǐng)參考思瀚產(chǎn)業(yè)研究院官網(wǎng)，同時(shí)思瀚產(chǎn)業(yè)研究院亦提供行研報(bào)告、可研報(bào)告、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、商業(yè)計(jì)劃書、專項(xiàng)調(diào)研、建筑設(shè)計(jì)、境外投資報(bào)告等相關(guān)咨詢服務(wù)方案。

免責(zé)聲明：
1.本站部分文章為轉(zhuǎn)載，其目的在于傳播更多信息，我們不對(duì)其準(zhǔn)確性、完整性、及時(shí)性、有效性和適用性等任何的陳述和保證。本文僅代表作者本人觀點(diǎn)，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
2.思瀚研究院一貫高度重視知識(shí)產(chǎn)權(quán)保護(hù)并遵守中國(guó)各項(xiàng)知識(shí)產(chǎn)權(quán)法律。如涉及文章內(nèi)容、版權(quán)等問(wèn)題，我們將及時(shí)溝通與處理。