2024.12.17 AI最新動態整理報導

#AI #科技趨勢 #生成式人工智慧

本報導整理了近期人工智慧領域的重要消息,包括領先技術的突破、開源工具的推出及產業方向預測,涵蓋谷歌、Meta、Midjourney以及其他知名團隊的最新動態。

✨ 谷歌發布 AI 視頻模型:Veo 2

谷歌正式發布了第二代 AI 視頻生成模型「Veo 2」,展示效果令人驚豔,新模型在細膩度和真實感上取得了突破。例如,官方發布的一段切西紅柿的視頻充分展現了模型在細節處理上的能力。Veo 2 能夠生成高達 4K 分辨率的視頻,並優化了用戶偏好選擇,比上一代模型更貼近人類的審美標準。

此外,谷歌還為該模型配套推出了「VideoFX 平台」,用戶可以通過該平台實際體驗和申請使用這款視頻生成工具。

🎨 谷歌更新 Imagen 3 模型

谷歌針對其先進的圖像生成模型「Imagen 3」進行了性能優化。本次更新大幅提升了生成圖像的品質和細節表現,尤其是在藝術風格和色彩準確性上,效果不遜於其他模型如「Recraft」、「Ideogram」和「Flux Pro」。用戶可以通過「ImageFX 平台」體驗最新版 Imagen 3,模型應用的範疇向更多繪圖任務拓展。

🌟 Midjourney 推出 Moodboards 功能

Midjourney 最新推出了一項名為「Moodboards」的功能,結合風格化策略與多圖輸出,讓用戶能夠創建更一致的藝術風格。該功能被視為一種類似於風格 LoRA 的工具,但在保持角色一致性方面仍有侷限性。用戶可以通過 Moodboards 上傳靈感圖集,生成多樣化風格的一致作品,進而提升創作效率並激發靈感。

🖼️ 谷歌推出全新 AI 工具 Whisk,實現多圖像混合生成

谷歌推出了一款名為「Whisk」的圖像生成工具。該工具不再依賴冗長的文字提示,而是通過多張圖片的混合生成新風格圖像。Whisk 的核心是由 Gemini 提供內容描述,後續交由 Imagen 3 處理,讓使用者快速創建融合風格與主題的視覺驚喜。

🎥 MemoAvatar:開源音頻驅動頭部合成視頻工具

MemoAvatar 公布了最新的音頻驅動 AI 視頻生成模型,其實時生成效果遠超以往開源模型,如 Halo 等,甚至不亞於商業級閉源解決方案如字節 Loopy 和微軟 VASA-1。MemoAvatar 能夠通過音頻推動頭部運動並保持面部細節一致,被廣泛應用於表情合成和虛擬助理動畫。

🎮 圖森未來發佈圖生視頻模型“Ruyi” 並開源 Ruyi-Mini-7B

圖森未來推出了其首款 AI 創作視頻模型「Ruyi」,並同步開源了輕量版本「Ruyi-Mini-7B」,吸引了開發者的目光。該模型專為消費級顯卡優化,可生成多分辨率視頻,特別適用於動漫與遊戲領域。儘管生成結果在帧間一致性與色彩流暢性上表現出色,但仍需解決複雜場景下的手部畸形等細節問題。

📊 金山 WPS AI 免費解鎖 AI 生成功能

金山宣布其 WPS AI 在年底期間將免費解鎖四項 AI 功能,包括「AI 生成功能」與「年終總結 PPT 模板」。這些功能大幅提升用戶工作效率,用戶可以根據智能推薦快速生成專業總結報告,甚至進行內容風格化調整。此次活動為期有限,旨在吸引更多 WPS 新用戶體驗、降低 AI 工具使用成本。

👚 Meta 推出虛擬試穿模型 Leffa:保留更多細節

Meta 推出了一款新型開源 AI 試穿工具「Leffa」。該工具通過使用真實參考圖片生成服飾試穿效果,大幅提升了圖像細節保真度,減少了以往頻繁加噪導致的失真現象。Leffa 預計將在電商領域產生巨大應用價值,幫助用戶減少退換貨次數。

🎥 Diffusion-Vas 引入新方法,實現視頻遮擋目標補全

研究團隊提出基於「擴散先驗」的視頻處理方法 Diffusion-Vas,解決視頻遮擋區域的內容補全問題。該技術採用了二階段處理策略——先生成無模態掩碼後再進行圖片補全,徹底改善了視頻分割在複雜場景下的準確性,提升了長時間段視頻目標追蹤的穩定性。

📈 博通 CEO 預測 AI 市場將迎爆發期,市值破 1 萬億美元

博通 CEO Hock Tan 預測到 2027 年,AI 芯片市場的可尋址規模將擴展至 600 至 900 億美元範圍。借助近期對 VMware 的收購,博通實現了運營效率提升,市值突破 1 萬億美元,成為 AI 硬件市場的重要力量。

2024 年末,人工智慧技術的發展勢不可擋,無論是圖像生成、視頻生成還是應用場景的拓展,各企業與機構都在不斷推出新功能與工具,這些動態彰顯了 AI 領域的繁榮與創新。