醫(yī)療健康信息技術(shù)裝備制造汽車及零部件文體教育現(xiàn)代服務(wù)業(yè)金融保險(xiǎn)旅游酒店綠色環(huán)保能源電力化工新材料房地產(chǎn)建筑建材交通運(yùn)輸社消零售輕工業(yè)家電數(shù)碼產(chǎn)品現(xiàn)代農(nóng)業(yè)投資環(huán)境
產(chǎn)業(yè)新聞產(chǎn)業(yè)資訊產(chǎn)業(yè)投資產(chǎn)業(yè)數(shù)據(jù)產(chǎn)業(yè)科技產(chǎn)業(yè)政策
多模態(tài)模型:最新發(fā)布Gemini 1.5,支持超長(zhǎng)上下文窗口
2024年2月,谷歌發(fā)布最新一代MoE多模態(tài)模型Gemini 1.5。MoE (Mixture of Experts)是一種混合模型,由多個(gè)子模型(即專家)組成,核心思想是使用一個(gè)門控網(wǎng)絡(luò)來(lái)決定每個(gè)數(shù)據(jù)應(yīng)該被哪個(gè)模型訓(xùn)練,從而減輕不同類型樣本之間的干擾。
支持超長(zhǎng)的上下文窗口,信息處理能力進(jìn)一步增強(qiáng)。谷歌增加了Gemini 1.5 Pro的上下文窗口容量,并實(shí)現(xiàn)在生產(chǎn)中運(yùn)行高達(dá)100萬(wàn)個(gè)Token,遠(yuǎn)超32k的Gemini 1.0、128k的GPT-4 Turbo、200k的Claude 2.1,這意味著Gemini 1.5 Pro可以一次性處理大量信息——包括1小時(shí)的視頻、11小時(shí)的音頻、超過(guò)30000行代碼的代碼庫(kù)或超過(guò)700000個(gè)單詞。
圖像生成模型:Imagen 2可生成高質(zhì)量、更逼真的輸出
2023年12月,Google發(fā)布最新的圖像模型Imagen 2,在數(shù)據(jù)集和模型方面改善了文本到圖像工具經(jīng)常遇到的許多問題,包括渲染逼真的手和人臉,以及保持圖像沒有干擾視覺的偽影。
Imagen 2基于擴(kuò)散技術(shù)提供了高度的靈活性,使控制和調(diào)整圖像風(fēng)格變得更加容易。通過(guò)提供參考風(fēng)格的圖像并結(jié)合文字提示,使用者可以調(diào)節(jié)Imagen 2生成相同風(fēng)格的新圖像;此外,還支持修補(bǔ)(inpainting)和擴(kuò)圖(outpainting)等圖像編輯功能。
視頻生成模型:Genie可通過(guò)單張圖像生成交互式環(huán)境
2024年2月26日,谷歌發(fā)布Genie(Generative Interactive Environments),它是一個(gè)110億參數(shù)的基礎(chǔ)世界模型,可通過(guò)單張圖像提示生成可玩的交互式環(huán)境。谷歌認(rèn)為Genie是實(shí)現(xiàn)通用智能體的基石之作,未來(lái)的AI智能體可以在新生成世界的無(wú)休止的curriculum中接受訓(xùn)練,從Genie學(xué)到的潛在動(dòng)作可以轉(zhuǎn)移到真實(shí)的人類設(shè)計(jì)的環(huán)境中。
Genie包含三個(gè)關(guān)鍵組件:1) 潛在動(dòng)作模型(Latent Action Model, LAM),用于推理每對(duì)幀之間的潛在動(dòng)作