AI新聞速遞(2024年12月22日)

#AI新聞 #技術更新

在本期 AI 新聞速遞中,我們整理了最新的技術突破與行業動態,涵蓋了漫畫自動著色、嵌入式平台的實時 API、新型 4D 角色生成技術等豐富內容。

🎨ColorFlow:自動為漫畫上色

ColorFlow 的推出為漫畫創作者和愛好者帶來了便捷的上色工具。該工具不僅能為黑白漫畫自動上色,還能保持角色上色的一致性,解決了手動上色的繁瑣問題,使創作變得更有效率。

🤖OpenAI 推出基於嵌入式平台的 Realtime API SDK

OpenAI 推出的全新 Realtime API SDK,專為嵌入式平台設計,適用於多種小型硬件設備,這一創新功能已讓國內眾多開發板銷售一空。

🖼️CAP4D:圖片生成4D角色

CAP4D 提供了一種新型技術,創作者僅需上傳多角度的角色圖片,即可即時生成可控的 4D 角色形象,為遊戲、動畫和元宇宙應用帶來便利。

💡LTX Studio 新增面部表情功能

LTX Studio 最近推出了類似 Advanced LivePortrait 的表情生成功能,創作者現在能調整角色面部表情,並基於這些表情快速生成視頻,帶來沉浸式創作體驗。

⚡谷歌發布 Gemini2.0Flash Thinking 模型,挑戰 OpenAI

谷歌推出了多模態推理模型 Gemini2.0Flash Thinking,支持最多 32,000 個輸入標記和 8,000 個輸出標記,徹底改變多模態 AI 的推理效率。該模型的逐步推理功能解決了 AI 黑箱問題,提高了用戶的信任度。

📊支付寶推出 AI 創意生成平台,突破 8700 萬生成素材

支付寶推出的“蚂上有創意”平台,讓商家和設計師能高效生成海報、視頻等多種類型的創意素材,並通過 AI 洞察實現智能化優化。

🎥Runway 推出插入中間幀功能,提升視頻生成靈活性

Runway 平台新功能允許用戶在視頻生成過程中插入中間幀,大大增強了創作的靈活性和流暢性,為視頻生成領域帶來創新。

🛍️電商神器 Krea AI 推出產品定制化工具

Krea AI 推出了令人矚目的自定義訓練功能,用戶可以在幾秒內將現實產品融入任意圖片,滿足電子商務的產品展示需求。

🧠OpenAI 直推 o3 模型,跳過 o2 商標爭議

OpenAI 宣布將推出全新推理模型 o3,並跳過 o2 命名以避免商標爭議。此新模型專注於增強用戶提問的深思熟慮性和邏輯性,期待成為階段性跨越式的人工智慧進步。

🗣️ElevenLabs 發布超低延遲 Flash 語音模型

ElevenLabs 的最新聲學模型 Flash,以 75 毫秒的超低語音生成延遲成為對話式語音助手的理想選擇。該模型支持 32 種語言,為全球多語音應用提供便利性。

💻ChatGPT 桌面版新增應用協作功能

OpenAI 的 ChatGPT 推出“應用協作”功能,能直接與多應用程序集成,包括 Apple Notes、VS Code 等,方便開發者和創意工作者進行多源內容處理。

💰Cursor 編輯助手再融資 1 億美元,估值飆升至 26 億美元

Cursor 藉由 B 輪融資將估值提升至 26 億美元。其年收入從 400 萬美元增長到 4800 萬美元,新資金將進一步加強其市場競爭力與技術研發。

✨GPT 系列首創者 Radford 離職,轉向 AI 獨立研究

OpenAI 核心人物 Alec Radford 宣布離職,擬以獨立研究的模式探索新一代 AI 技術創新。Radford 是 GPT 系列模型的關鍵設計者,他的離開引發了業界的廣泛關注。

👓閃極推出中國首款 AI 眼鏡,重量僅 30 克

閃極正式發布國內首款量產 AI 眼鏡“拍拍鏡”,搭載高端影像和音頻技術,支持即時翻譯、語音識別等 AI 功能,並於 2025 年 1 月 15 日起發貨。

🌌Stable Diffusion 3.5Large 上線 AWS Bedrock 平台

最新版本的 Stable Diffusion 3.5Large(SD3.5Large)終於正式上線 AWS Bedrock 平台,提供開發者生成式 AI 解決方案,並以其多樣化風格生成和高精準度文本-to-圖片功能廣受關注。

🦅Falcon3 挑戰主流開源 AI 模型

阿布扎比技術創新研究院(TII)推出的 Falcon3 憑藉 14 萬億 token 訓練量和多語跨平台能力,在多項基準測試中表現突出,成為開源市場的強大選手。

以上是本期最具影響力的 AI 技術動態。期待未來有更多突破性進展助力各行各業的不斷發展!