在本期 AI 新聞速遞中,我們整理了最新的技術突破與行業動態,涵蓋了漫畫自動著色、嵌入式平台的實時 API、新型 4D 角色生成技術等豐富內容。
ColorFlow 的推出為漫畫創作者和愛好者帶來了便捷的上色工具。該工具不僅能為黑白漫畫自動上色,還能保持角色上色的一致性,解決了手動上色的繁瑣問題,使創作變得更有效率。
OpenAI 推出的全新 Realtime API SDK,專為嵌入式平台設計,適用於多種小型硬件設備,這一創新功能已讓國內眾多開發板銷售一空。
CAP4D 提供了一種新型技術,創作者僅需上傳多角度的角色圖片,即可即時生成可控的 4D 角色形象,為遊戲、動畫和元宇宙應用帶來便利。
LTX Studio 最近推出了類似 Advanced LivePortrait 的表情生成功能,創作者現在能調整角色面部表情,並基於這些表情快速生成視頻,帶來沉浸式創作體驗。
谷歌推出了多模態推理模型 Gemini2.0Flash Thinking,支持最多 32,000 個輸入標記和 8,000 個輸出標記,徹底改變多模態 AI 的推理效率。該模型的逐步推理功能解決了 AI 黑箱問題,提高了用戶的信任度。
支付寶推出的“蚂上有創意”平台,讓商家和設計師能高效生成海報、視頻等多種類型的創意素材,並通過 AI 洞察實現智能化優化。
Runway 平台新功能允許用戶在視頻生成過程中插入中間幀,大大增強了創作的靈活性和流暢性,為視頻生成領域帶來創新。
Krea AI 推出了令人矚目的自定義訓練功能,用戶可以在幾秒內將現實產品融入任意圖片,滿足電子商務的產品展示需求。
OpenAI 宣布將推出全新推理模型 o3,並跳過 o2 命名以避免商標爭議。此新模型專注於增強用戶提問的深思熟慮性和邏輯性,期待成為階段性跨越式的人工智慧進步。
ElevenLabs 的最新聲學模型 Flash,以 75 毫秒的超低語音生成延遲成為對話式語音助手的理想選擇。該模型支持 32 種語言,為全球多語音應用提供便利性。
OpenAI 的 ChatGPT 推出“應用協作”功能,能直接與多應用程序集成,包括 Apple Notes、VS Code 等,方便開發者和創意工作者進行多源內容處理。
Cursor 藉由 B 輪融資將估值提升至 26 億美元。其年收入從 400 萬美元增長到 4800 萬美元,新資金將進一步加強其市場競爭力與技術研發。
OpenAI 核心人物 Alec Radford 宣布離職,擬以獨立研究的模式探索新一代 AI 技術創新。Radford 是 GPT 系列模型的關鍵設計者,他的離開引發了業界的廣泛關注。
閃極正式發布國內首款量產 AI 眼鏡“拍拍鏡”,搭載高端影像和音頻技術,支持即時翻譯、語音識別等 AI 功能,並於 2025 年 1 月 15 日起發貨。
最新版本的 Stable Diffusion 3.5Large(SD3.5Large)終於正式上線 AWS Bedrock 平台,提供開發者生成式 AI 解決方案,並以其多樣化風格生成和高精準度文本-to-圖片功能廣受關注。
阿布扎比技術創新研究院(TII)推出的 Falcon3 憑藉 14 萬億 token 訓練量和多語跨平台能力,在多項基準測試中表現突出,成為開源市場的強大選手。
以上是本期最具影響力的 AI 技術動態。期待未來有更多突破性進展助力各行各業的不斷發展!