今日 AI 動態 (2025年1月6日)

#人工智能 #科技更新 #AI新聞

以下是今日人工智能領域的一些重要新聞整理,為您帶來前沿技術更新和行業熱點話題。

📽️ VITA-1.5:開源版視頻+語音模型

VITA-1.5 是一種開源視頻+語音模型,其效果類似於 ChatGPT APP 的視頻交互功能,集視覺、語音於一體,支持「能看、能聽、能說」,但並非原生多模態模型。這款模型採用了 QWen2.5 作為視覺多模態 LLM,具有僅 1.5 秒的語音延遲,並支持即時打斷功能。

🎤 ElevenLabs 的一次成功應用

在 Lex Fridman 對烏克蘭總統澤倫斯基的採訪中,ElevenLabs 成功應用 AI 技術生成英語音軌,為澤倫斯基無需使用俄語提供了交流解決方案,顯示出 AI 在跨語言場景中的驚人潛力。

🌐 昆侖萬維天工大模型 4.0 o1 版和 4o 版正式上線

昆侖萬維於 2025 年 1 月 6 日推出最新的天工大模型 4.0,其中 o1 版是首款具備中文邏輯推理能力的 AI 模型,可處理數學、編碼等多種複雜推理問題;4o 版是一款多模態模型,集情感表達與多語言能力於一身,並支持即時語音對話。

📱 羅永浩新 AI 助理“J1Assistant”正式上線

羅永浩 AI 項目 Jarvis 推出了 “J1Assistant”,目前僅提供海外安卓版本。該軟件專注於音頻輸入,支持用戶通過語音傳遞信息或發送指令,同時具備備忘錄等功能,旨在為智能交互設定新標杆。

⚖️ 愛奇藝起訴 MiniMax:AI 模型涉嫌侵犯版權

愛奇藝向法院起訴 MiniMax,指控其未經許可使用愛奇藝素材進行 AI 模型訓練,導致侵權。愛奇藝要求其停止侵權並賠償 10 萬元。MiniMax 或以素材來源為公開資源進行抗辯,目前事件仍在調查中。

💄 阿里巴巴推出妝容遷移技術 SHMT

阿里巴巴達摩院推出基於潛在擴散模型的 SHMT 妝容遷移技術,通過提供化妝參考圖,即可快速為目標照片生成化妝效果,並公開了相關源碼和研究指導文檔,進一步推動了化妝應用及圖像處理領域的發展。

👄 字節跳動開源 AI 模型 LatentSync:精準控制唇形同步

LatentSync 利用潛在擴散模型和 TREPA 技術,實現了音頻與視頻中唇部動作的精準匹配,顯著提升了唇同步技術的效果,並提供了高質量、時間一致的視頻生成。

💾 Meta 推出新型記憶層技術

Meta 公布了一種全新的記憶層技術,可通過可訓練的鍵值查找機制提升大型語言模型的事實準確性。該技術允許模型在處理多參數任務時,表現出卓越的穩定性和擴展性。

🤖 Yukai 推出陪伴型機器人“Mirumi”

Yukai Engineering 推出了一款毛茸茸的可愛機器人 “Mirumi”,其靈感來自於日本妖怪,能通過轉頭與人互動,模仿嬰兒般的純真與愉悅,為用戶帶來溫馨的陪伴體驗。

🧠 OpenAI 目標轉向“超智能”

OpenAI CEO 山姆・奧特曼宣布,OpenAI 已掌握建構人工通用智能(AGI)的核心技術,並將目標轉向「超智能」,以期對科學發現和創新產生更深遠的影響。即使 AGI 技術目前仍存在限制,但奧特曼對技術進展保持樂觀。

🔬 哈佛華人研究員 Jeffrey Wang 加盟 OpenAI

來自哈佛的華人研究員 Jeffrey Wang 正式加盟 OpenAI,將專注於模型預訓練及推理工作。他的學術背景涵蓋語言模型隱私和公平性研究,為 OpenAI 帶來新技術突破的可能。

💰 微軟計劃投入 800 億美元建設 AI 數據中心

微軟宣布計劃在 2025 財年投入 800 億美元建設 AI 專用數據中心,藉此加速 AI 模型訓練和全球部署的基礎設施建設,並進一步推動數字化轉型的進程。

🔥 AI 聲音檢測技術可預警鋰電池起火

NIST 研究團隊開發了一種 AI 聲音檢測技術,可提前約 2 分鐘檢測鋰電池安全閥破裂聲,預警火災危險,為使用電池設備的消費者提供更安全的保障。

🚀 馬斯克宣布 Grok3 上線在即

埃隆·馬斯克宣布,Grok3 模型即將正式推出,其計算能力比上一代提升十倍,並使用 10 萬塊英偉達 H100 芯片進行訓練,為開發者和企業提供更強大的技術支持。

敬請關注明日更新,探索更多 AI 行業動態!