以下整理了近期 AI 技術與產品的最新進展,涵蓋從 3D 建模、語音交互到多模態推理的廣泛領域。
騰訊正式開源 Hunyuan3D 2.0,為 3D 模型生成帶來更高的靈活性與易用性。此次更新包括兩個核心模型:Hunyuan3D-DiT 與 Hunyuan3D-Paint。前者專注於生成白模,後者則用於為白模生成貼圖紋理,最終合成完整的 3D 模型。這種白模與貼圖分離的生成方式讓用戶可以保持基礎模型不變,靈活切換不同的貼圖樣式,從而大幅提升設計和應用效率。
- 體驗地址:[騰訊混元3D](https://3d.hunyuan.tencent.com/)
- GitHub 地址:[Hunyuan3D-2](https://github.com/Tencent/Hunyuan3D-2)
微軟研發的 rStar-Math 項目,結合蒙特卡洛樹搜索(MCTS)技術,提升了複雜數學推理的準確性。該模型由一個小語言模型(SLM)執行搜索,並利用過程獎勵小語言模型來引導整個推理流程。其在 MATH 基準測試上刷新了得分記錄:將 Qwen2.5-Math-7B 的準確率從 58.8% 提升至 90.0%,而 Phi3-mini-3.8B 的分數也從 41.4% 提升至 86.4%。
- GitHub 地址:[rStar](https://github.com/microsoft/rStar)
月之暗面公司推出的 Kimi K1.5 模型,實現了對文本、圖像與聲音等多模態輸入的同步處理,進一步完善了通用推理能力。雖然被認為是對標 OpenAI o1 的競爭產品,但其市場反響未達預期,且與同期發布的 DeepSeek R1 模型相比在多項評分中稍顯落後。目前,核心演算法並未開源,但用戶可透過 API 測試該技術的潛力。
- GitHub 地址:[Kimi-k1.5](https://github.com/MoonshotAI/Kimi-k1.5)
DeepSeek R1 是國內首個媲美 OpenAI 模型性能的開源語言模型。其引入了後訓練階段的強化學習技術,顯著提升了推理能力。DeepSeek 還提供了包含 660B 參數的 R1 完整模型與多個小型子模型,進一步豐富了開源生態。
- 💡 API 使用成本低,緩存命中每百萬 tokens 僅需 1 元。
- 相關連結:[DeepSeek R1 詳情](https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf)
近期 AI 技術快速發展,從 3D 建模到多模態推理,各個領域均展現了突破性進展。而這些新產品與技術不僅帶來了更高效能,也為開源生態及應用場景注入創新力量。