2025 年 3 月 12 日,多家科技巨頭在人工智能領域的最新進展引發業界關注。無論是開源模型的發佈還是全新工具的推出,都為人工智能的全球競爭格局帶來了新看點。
谷歌於今日宣布正式開源 Gemma 3 系列多模態模型,該系列支持圖片及文本輸入,並生成文本輸出。Gemma 3 提供 1B、4B、12B 和 27B 四種模型大小,並在大型語言模型競賽中表現優異,得分超越 DeepSeek V3。此舉標誌著谷歌進一步提升在 LLM 競技場中的技術領先地位。
🔑 關鍵特點:
OpenAI 新發布了一系列工具,涵蓋 Responses API、Web Search 工具、File Search 工具與 Computer Use 工具,旨在幫助開發者構建具備自動化任務執行能力的智能體系統。這些新工具的推出展示了其在從回答問題轉向執行複雜任務上的顯著進步。
🔑 核心更新:
阿里通義 Wan 團隊發布 VACE 模型,具備按條件生成和多種方式編輯視頻的能力。該模型即將開源,未來將支援控制運動軌跡、替換視頻主體、擴展畫面等操作功能,為視頻生成與編輯提供強大的支持。
🔑 功能亮點:
Google Veo 2 功能已上線 Fal.ai 平台,能夠將圖片生成視頻,單個 8 秒視頻的價格為 2.5 美元。該技術效果穩定,成品視頻極少出現常見生成問題(如手部異常)。
🔑 核心優勢:
阿里通義實驗室推出了 R1-Omni 模型,顯著提升了多模態情感識別的準確性與泛化性能。該模型結合加強學習與可驗證獎勵方法,針對多場景情感推理進行優化,並在測試中取得超過 35% 表現提升。
🔑 模型特性:
百度 AI 推出新表格識別方案 PP-TableMagic,專注於端到端表格結構化信息提取。該技術採用多模型架構,突破傳統表格識別在複雜場景下的限制,並提供全方位定制化支持。
🔑 技術特點:
Nanobrowser 為用戶帶來了一款免費的開源 AI 工具,專注於提供高效網頁瀏覽與自動化處理功能。通過集成主流 LLM API,該工具適合小白用戶快速上手,且保證數據安全和隱私保護。
🔑 工具優勢:
人工智能的發展日新月異,從技術創新到應用落地,各種進展均為行業帶來新可能性。我們預期未來將有更多令人耳目一新的突破和應用面世,敬請關注【AI 日報】。