AI 日報 (2025年2月8日)

#人工智能 #AI 更新 #技術動態

以下為今日人工智能領域的最新動態與重要資訊:

📷 VideoLLaMA3:視覺多模態模型

VideoLLaMA3 是一款強大的視覺多模態模型,支持圖片理解和視頻理解,並有兩種模型大小版本:7B 和 2B。其中,7B 模型在同等規模的開源模型中性能領先。

特點概要:

– 支持圖片和視頻的多模態信息處理。
– 提供 7B 和 2B 兩種大小選擇。
– 7B 規模模型的性能在開源社區中表現突出。

📖 Storytelling-Chatbot:開源的語音 + 圖文講故事機器人

基於多模態開發框架 pipecat,Storytelling-Chatbot 能講述由 AI 生成的圖文故事,其核心工作流程包括以下技術組合:

– 使用 Gemini 2.0 生成故事文本。
– 利用 DeepgramAI 將用戶的語音轉換成文本。
– 通過 ElevenLabs 將生成的文本轉成語音。
– 使用 Google Imagen 3 創建與文本對應的圖片。

🎨 SliderSpace:AI 繪畫提示詞的交互式探索工具

SliderSpace 是一款基於擴散模型的創新工具,讓用戶通過滑動條調整 AI 繪畫提示詞 的方向和強度,支持概念分解、藝術風格變換及多樣性設置。

⚠️ 割韭菜?DeepSeek 付費課程引爭議

近日,隨著 DeepSeek 大模型的發布,市場上出現了大量相關知識付費課程。部分內容質量參差不齊,引發消費者不滿及呼籲加強監管。

🎥 Pika Labs 推出 Pikadditions 功能:增強視頻創意

Pikadditions 是 Pika Labs 推出的增強功能,支持將 PNG 圖像無縫插入現有視頻,提升視覺敘事效果,適配多種設備。

🤖 扣子智能體平台新增 DeepSeek R1/V3 模型支持

“扣子”智能平台現在支持 DeepSeek R1 和 V3 模型,免費開放使用,提供用於智能應用開發的新工具。

🏃 VideoJAM:Meta 新框架提升 AI 模型運動判斷能力

Meta 推出 VideoJAM,通過外觀和運動表示訓練,改進動畫運動品質,為視頻生成領域帶來突破。

🖼️ 谷歌推出 Imagen3 API,圖像生成費用僅 0.03 美元

Google 公布全新 API——Imagen3,生成高質量圖片僅需 0.03 美元,並附防偽水印,增強數字內容可信度。

✏️ AlphaGeometry2:DeepMind AI 力壓奧數金牌選手

AlphaGeometry2 大幅提升了 AI 幾何問題解決能力,於國際數學奧林匹克題組中表現超越人類平均水平,推進人工通用智能發展。

🎥 BEN2:新一代去背景模型,支持圖片與視頻移除背景

PramaLLC 推出的 BEN2 模型精確去除圖片和視頻背景,提供創作者更高效的切割解決方案。

🚫 阿里巴巴否認 10 億美元投資 DeepSeek 傳聞

阿里巴巴高層否認投資 DeepSeek 傳聞,但肯定市場對 AI 領域的熱情與持續關注。

🔐 黑客兜售 2000 萬個 OpenAI 帳戶信息,安全隱患引擔憂

一名俄羅斯黑客聲稱脫售約 2000 萬個 OpenAI 帳戶信息,用戶應加強密碼及啟用兩步驗證以保障安全。

更多人工智能資訊,請關注我們的每日報導。