Google DeepMind推通用型世界模型Genie 3 能生成高度互動虛擬3D環境

Google DeepMind團隊正努力打造不同類型的模型,最新就帶來了名為「Genie 3」的世界模型(World Model),用戶只需要輸入簡單的文字提示,便可生成「數分鐘」模擬物理特性、可互動的世界。

Google DeepMind去年12月就首次展示可根據影像建立互動世界的「Genie 2」,但Genie 2 仍有不少限制,如生成的世界只能玩上大約10至20秒,但現時Genie 3在視覺記憶下保持場景約1分鐘,而且還可以720p畫質、24fps更新率呈現。

團隊也提到,Genie 3能夠高度真實地模擬各種自然現象,如水流、光影效果及複雜的環境互動,也可捕捉動物行為與植物複雜的生長模式。同時,Genie 3也支援動畫角色,加強世界建構,並能高保真度地生成遙遠地點和歷史時代的沉浸式體驗。

Google DeepMind認為,模型視為朝向通用人工智能(AGI)邁出的重要步驟,因為它們允許AI代理在無限的模擬環境中進行訓練。

不過,目前Genie 3僅開放予部分創作者與學術界人士使用。

Google DeepMind推新AI系統 如同虛擬衛星即時監測地球

Google DeepMind團隊又有新搞作!最新就宣布研發了一套名為「AlphaEarth Foundations」的AI系統,專門是為了解決和理解從太空傳回的龐大衛星數據,然後整合成統一的數碼地圖,解決數據零散的挑戰。

Google DeepMind團隊在官方網誌指出,這模型會結合光學、雷達和氣候模擬數據,生成即時的高精確度地圖,克服了物理衛星在雲層覆蓋或夜間無法觀測的限制。據稱,AlphaEarth Foundations做為GoogleEarth Engine的一部分,利用機器學習和過去二十年來Google積累的海量數據,在每日深入了解特定區域隨時間的變化,並將其壓縮以節省儲存空間。最終,這將形成一個色彩編碼的地圖,顯示材料特性、植被類型、地下水源以及人類建設,包括建築和農田。

團隊表示,系統目標解決「資料過載」和「資料不一致」兩大挑戰。與傳統系統相比,其錯誤率降低了約24%,處理效率也是以往技術的16倍,準確性與效率的結合,可大幅降低行星級規模環境分析的成本。

Google亦提到,系統猶如虛擬衛星,讓用戶能夠隨時觀察地球上任何特定位置的詳細資訊。同時也希望能夠幫助用家,更好地理解地球上特定生態系統的運作,包括:空氣質量、陽光、地下水以及人類建設項目在不同地區的變化,甚至解決政府和企業正面對的問題,例如:哪些生態系統可能擁有更多的陽光或地下水,以幫助確定最佳的作物種植地點,或是選擇最具氣候韌性的建築位置。也可以幫助科學家針對糧食安全、森林砍伐、水資源等重要議題,作出更明智的決策。

Google DeepMind 宣布開發模擬真實世界的 AI 模型

AI 模型近年不斷發展,對於多媒體處理和生成都已經逐漸純熟,不過要處理現實世界的物理變化等細節則尚有改進空間。最近 Google 就宣布開發能夠模擬真實世界的模型,做為 DeepMind 的一部分。

新的開發計畫將由 OpenAI Sora 影片生成工具前共同負責人 Tim Brooks 領導,Brooks 在 X 表示,新團隊將與 Google 現有 Gemini、Veo 和 Genie 等團隊合作,招募文宣說影片與多模態資料 AI 訓練規模化,將是通往通用人工智慧(AGI)的發展方向。新團隊集中開發「即時互動生成」工具,與現有多模態模型 Gemini 等整合,提供更全面的功能。

真實世界模擬應用範圍相當廣泛,從視覺推理、模擬、規劃具身智慧助理 (Embodied Agent),到即時互動娛樂等都會用到。除了 Google 開發中 Genie 模型,其他「世界模型」還有 World Labs、Decart 和 Odyssey 等,可生成互動多媒體內容如遊戲和電影等,以及逼真模擬、訓練機器人等。