今日 AI 動態 (2025年1月6日)

發布日期：2025-01-06

#人工智能 #科技更新 #AI新聞

以下是今日人工智能領域的一些重要新聞整理，為您帶來前沿技術更新和行業熱點話題。

📽️ VITA-1.5：開源版視頻+語音模型

VITA-1.5 是一種開源視頻+語音模型，其效果類似於 ChatGPT APP 的視頻交互功能，集視覺、語音於一體，支持「能看、能聽、能說」，但並非原生多模態模型。這款模型採用了 QWen2.5 作為視覺多模態 LLM，具有僅 1.5 秒的語音延遲，並支持即時打斷功能。

在 Lex Fridman 對烏克蘭總統澤倫斯基的採訪中，ElevenLabs 成功應用 AI 技術生成英語音軌，為澤倫斯基無需使用俄語提供了交流解決方案，顯示出 AI 在跨語言場景中的驚人潛力。

昆侖萬維於 2025 年 1 月 6 日推出最新的天工大模型 4.0，其中 o1 版是首款具備中文邏輯推理能力的 AI 模型，可處理數學、編碼等多種複雜推理問題；4o 版是一款多模態模型，集情感表達與多語言能力於一身，並支持即時語音對話。

羅永浩 AI 項目 Jarvis 推出了 “J1Assistant”，目前僅提供海外安卓版本。該軟件專注於音頻輸入，支持用戶通過語音傳遞信息或發送指令，同時具備備忘錄等功能，旨在為智能交互設定新標杆。

愛奇藝向法院起訴 MiniMax，指控其未經許可使用愛奇藝素材進行 AI 模型訓練，導致侵權。愛奇藝要求其停止侵權並賠償 10 萬元。MiniMax 或以素材來源為公開資源進行抗辯，目前事件仍在調查中。

阿里巴巴達摩院推出基於潛在擴散模型的 SHMT 妝容遷移技術，通過提供化妝參考圖，即可快速為目標照片生成化妝效果，並公開了相關源碼和研究指導文檔，進一步推動了化妝應用及圖像處理領域的發展。

LatentSync 利用潛在擴散模型和 TREPA 技術，實現了音頻與視頻中唇部動作的精準匹配，顯著提升了唇同步技術的效果，並提供了高質量、時間一致的視頻生成。

Meta 公布了一種全新的記憶層技術，可通過可訓練的鍵值查找機制提升大型語言模型的事實準確性。該技術允許模型在處理多參數任務時，表現出卓越的穩定性和擴展性。

Yukai Engineering 推出了一款毛茸茸的可愛機器人 “Mirumi”，其靈感來自於日本妖怪，能通過轉頭與人互動，模仿嬰兒般的純真與愉悅，為用戶帶來溫馨的陪伴體驗。

OpenAI CEO 山姆・奧特曼宣布，OpenAI 已掌握建構人工通用智能（AGI）的核心技術，並將目標轉向「超智能」，以期對科學發現和創新產生更深遠的影響。即使 AGI 技術目前仍存在限制，但奧特曼對技術進展保持樂觀。

來自哈佛的華人研究員 Jeffrey Wang 正式加盟 OpenAI，將專注於模型預訓練及推理工作。他的學術背景涵蓋語言模型隱私和公平性研究，為 OpenAI 帶來新技術突破的可能。

微軟宣布計劃在 2025 財年投入 800 億美元建設 AI 專用數據中心，藉此加速 AI 模型訓練和全球部署的基礎設施建設，並進一步推動數字化轉型的進程。

NIST 研究團隊開發了一種 AI 聲音檢測技術，可提前約 2 分鐘檢測鋰電池安全閥破裂聲，預警火災危險，為使用電池設備的消費者提供更安全的保障。

埃隆·馬斯克宣布，Grok3 模型即將正式推出，其計算能力比上一代提升十倍，並使用 10 萬塊英偉達 H100 芯片進行訓練，為開發者和企業提供更強大的技術支持。

敬請關注明日更新，探索更多 AI 行業動態！

參考連結

引用來源