AI 日報 (2025年2月8日)

以下為今日人工智能領域的最新動態與重要資訊：

📷 VideoLLaMA3：視覺多模態模型

VideoLLaMA3 是一款強大的視覺多模態模型，支持圖片理解和視頻理解，並有兩種模型大小版本：7B 和 2B。其中，7B 模型在同等規模的開源模型中性能領先。

特點概要：

– 支持圖片和視頻的多模態信息處理。
– 提供 7B 和 2B 兩種大小選擇。
– 7B 規模模型的性能在開源社區中表現突出。

基於多模態開發框架 pipecat，Storytelling-Chatbot 能講述由 AI 生成的圖文故事，其核心工作流程包括以下技術組合：

– 使用 Gemini 2.0 生成故事文本。
– 利用 DeepgramAI 將用戶的語音轉換成文本。
– 通過 ElevenLabs 將生成的文本轉成語音。
– 使用 Google Imagen 3 創建與文本對應的圖片。

SliderSpace 是一款基於擴散模型的創新工具，讓用戶通過滑動條調整 AI 繪畫提示詞 的方向和強度，支持概念分解、藝術風格變換及多樣性設置。

近日，隨著 DeepSeek 大模型的發布，市場上出現了大量相關知識付費課程。部分內容質量參差不齊，引發消費者不滿及呼籲加強監管。

Pikadditions 是 Pika Labs 推出的增強功能，支持將 PNG 圖像無縫插入現有視頻，提升視覺敘事效果，適配多種設備。

“扣子”智能平台現在支持 DeepSeek R1 和 V3 模型，免費開放使用，提供用於智能應用開發的新工具。

Meta 推出 VideoJAM，通過外觀和運動表示訓練，改進動畫運動品質，為視頻生成領域帶來突破。

Google 公布全新 API——Imagen3，生成高質量圖片僅需 0.03 美元，並附防偽水印，增強數字內容可信度。

AlphaGeometry2 大幅提升了 AI 幾何問題解決能力，於國際數學奧林匹克題組中表現超越人類平均水平，推進人工通用智能發展。

PramaLLC 推出的 BEN2 模型精確去除圖片和視頻背景，提供創作者更高效的切割解決方案。

阿里巴巴高層否認投資 DeepSeek 傳聞，但肯定市場對 AI 領域的熱情與持續關注。

一名俄羅斯黑客聲稱脫售約 2000 萬個 OpenAI 帳戶信息，用戶應加強密碼及啟用兩步驗證以保障安全。

更多人工智能資訊，請關注我們的每日報導。