以下是今日人工智能領域的新聞整理與詳細報導,歡迎閱讀了解最新技術與行業發展動態。
谷歌昨日宣布開源最新的 SigLIP 2 視覺-文字編碼器,這是一款非原生視覺多模態大型語言模型(LLM)的核心組件,能賦予模型強大的視覺能力。相比於上一代,SigLIP 2 在圖片分類、圖片-文字檢索以及為 LLM 提供視覺能力方面實現了全面超越。本次開源的模型分為 86M、303M、400M 和 1B 四種尺寸,適配不同用途。
SigLIP 2 可以進行語音理解、問題推理、多物品識別,甚至支援多機器人合作的復雜場景。
Pika 推出了全新功能 Pikaswaps,允許用户簡單操作即可實現視頻中的人物、物品等元素替換。此功能極大降低了視頻特效的門檻,相當於讓每個人都能用上專業的 AE 功能,實現高效且創意的內容製作。
Google Veo 2 最近與 Freepik 平台合作推出全新視頻生成功能,旨在為用戶提供創意工具。然而,有用戶反映需要 39 美元的最高級會員資格才能解鎖完整版功能。官方建議用戶待功能上線後期使用更流暢。
一篇關於大型語言模型(LLM)是如何訓練的科普文章近日上線,中文版由 Huggingface 平台提供,並由用戶 @Ki_Seki_here 進行人工校對。文章結合視覺化小工具,深入淺出地說明訓練 LLM 的工程過程,不僅適合開發者,也讓普通讀者更易理解。
DeepSeek 宣布將在下周陸續開源五個代碼庫,涵蓋多項核心技術,旨在推動 AI 行業的技術創新。公司表示,經過嚴格測試的線上服務模組已準備投入生產環境。通過開源,該公司希望激發技術共享與行業合作。
阿里巴巴近日宣佈其視頻生成模型 WanX2.1 即將開源。該模型具備中英文文字特效生成能力,用戶僅需輸入文本即可生成動態視頻,並支援多樣化過渡特效。此外,模型還具備物理規律模擬能力,能精準還原複雜場景,解決傳統模型常見的肢體扭曲問題。
OpenAI 宣佈 ChatGPT 的周活躍用戶突破 4 億,較去年增長 33%。同時,其付費企業用戶也達到了 200 萬人次。儘管面臨財務挑戰,OpenAI 對未來持樂觀態度,預計 2025 年公司收入有望達到 110 億美元。
Midjourney 最近新增了多項組織功能,包括引入更完善的檔案夾系統和優化圖像操作流程。這些改進方便了用戶對生成的 AI 圖像進行分類和歸檔,特別適合專業圖像處理需求。
微軟正積極為即將推出的 OpenAI GPT-4.5 和 GPT-5 模型準備服務器基礎設施。GPT-4.5 預計在幾周內發布,而 GPT-5 則計劃於今年 5 月底上線,這標誌著 OpenAI 在語言人工智慧持續邁向前沿技術的進程。
Clone Robotics 公司推出全球首款類人機器人 Protoclone,該機器人擁有肌肉與骨骼結構,由超過 1000 個合成肌肉和 500 個傳感器構成,運動表現極具人性化,具備 200 度運動自由度。此舉為機器人技術的應用探索提供了新機會。
DeepSeek App 自上線以來迅速崛起,下載量突破 1 億,周活躍用戶接近 9700 萬。憑藉開源推理模型 DeepSeek-R1 的高性能,該應用在短短時間內吸引大量用戶,成為行業熱點。
感謝關注今日 AI 新聞,更多資訊將持續更新,敬請期待!