歡迎來到【AI 日報】欄目!這裡是你每天探索人工智慧世界的指南,每天我們為你呈現 AI 領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、了解創新AI產品應用。
Claude 推出了新的 Integrations 功能,可以理解為雲端版的 MCP。這一功能允許 Claude 根據需要,調用 Zapier、Asana、Linear 等工具的服務。目前該功能僅對 Max 會員、企業用戶及 Team 會員開放,普通 Pro 會員無法使用。
MidJourney 最近推出了 Omni-Reference 功能,這是先前 Character Reference 功能的擴展。現在不僅支持人物參考,也支持物體參考、場景參考等。用戶可以通過 --ow 0-1000 調整相似程度,設置為 1000 時,基本上就是換臉,人物一致性非常高。
Suno 發布了 v4.5 版本,提供更好的人聲和音樂效果,並且一次性可以生成長達 8 分鐘的歌曲。
Ideogram 3.0 新增了增強寫實功能,可以生成更真實、更多樣性的圖片。官方同時發布 API,方便開發者利用這項技術。
Gemini APP 現在可以使用 Gemini 2.0 Flash 的圖片編輯功能,在聊天中修改圖片。雖然效果不及 GPT-4o,但是在速度上較快,並且在修改圖片時人物的一致性更好。
小米正式推出其首個大型開源推理模型 Xiaomi MiMo,這是小米在人工智能領域的一項重要進展。MiMo 以 7 億參數在數學推理和代碼競賽中超越了 OpenAI 和阿里巴巴的模型,展現出卓越的推理能力。通過獨特的訓練方法和強化學習策略,MiMo 在推理任務上樹立了新的行業標杆,並已在 HuggingFace 平台上全面開源。
快手推出的“喵記多”是一款 AI 輔助的筆記工具,旨在通過智能助手“喵仔”簡化筆記管理和待辦提醒。用戶可以通過聊天方式記錄筆記、整理內容並設置提醒。儘管“喵記多”在操作上便捷,但在文件格式支持和搜索精準度方面仍有提升空間。
Luma AI 推出了 Ray2 的 Camera Concepts API,這為開發者提供了前所未有的電影級鏡頭控制能力。這一 API 整合了多種鏡頭運動和角度,開發者可以通過簡單的 API 調用實現複雜的動態鏡頭設計,顯著降低了視頻生成的技術門檻。
騰訊在AI領域進行了重大調整,成立大語言模型部和多模態模型部,專注於前沿技術和基礎模型的迭代。同時,設立數據平台部和機器學習平台部,強化數據管理和AI平台建設。
Anthropic 的 Claude 應用程序最近更新,推出了名為“Glassy”的新語音選項,旨在提升用戶的語音交互體驗。此更新不僅提供了更自然的語音選擇,還整合了多種功能,如雙向語音交互和 Google Workspace 的集成。
谷歌旗下的 NotebookLM 迎來了重大更新,新增音頻概述功能支持超過 50 種語言,包括中文。這一創新利用了谷歌 Gemini 模型的音頻處理能力,極大提升了多語言學習和內容創作的便捷性。
Grok3.5 的發布標誌著 xAI 在 AI 技術領域的重大進展,尤其是在推理能力和多模態功能上。新版本將利用強大的計算資源,提升模型的邏輯一致性和準確性,尤其在技術領域展現出色表現。
馬克·扎克伯格宣布推出 Meta AI 應用,旨在與 ChatGPT 競爭,標誌著人工智能領域的激烈競爭即將展開。新的 AI 助手將包含一個“發現”功能,增強社交互動。
OpenAI 針對 GPT-4o 模型的“獻媚”問題進行了緊急修復,CEO Sam Altman 宣布免費用戶已回滾至舊版本,付費用戶也將在稍後完成更新。
Simular 是一款專為 macOS 設計的本地 AI 助手,提供創新的人機協作體驗。它允許用戶與 AI 同時操作,增強了工作效率和靈活性。
本文探討了 AI 在理解視頻鏡頭運動方面的局限性,強調了 CameraBench 項目的重要性。通過建立一個詳盡的鏡頭運動分類法和高質量的數據集,研究者們旨在幫助 AI 更好地理解視頻內容及其情感表達。
谷歌最近推出了三項新的人工智能實驗,旨在為用戶提供個性化的語言學習體驗。這些實驗包括“微型課程”,幫助用戶快速掌握特定短語;“俚語交流”,讓用戶學習更地道的表達方式;以及“詞彙相機”,通過拍照識別物體來擴充詞彙量。
更多新鮮 AI 資訊,請隨時關注我們的更新。