5月6日AI资讯

以下是今天AI领域最新消息，涵盖音乐生成、图像处理、语音识别等多方面内容。

🎵ACE-Step：開源最佳音樂模型

ACE-Step是一款基於擴散模型的開源音樂生成模型，可以生成多種風格的歌曲，並支持包括中文在內的多種語言。該模型的音頻效果接近Suno的水平，支持多種控制功能，包括克隆聲音、修改歌詞以及人聲性別轉換。項目詳見：ACE-Step: A Step Towards Music Generation Foundation Model。Github地址：ACE-Step。

💬OpenF5-TTS：開源可商用版本的F5模型

重新訓練的OpenF5-TTS模型是F5 TTS模型的商業可用版本，採用Apache協議允許商用。它的效果非常卓越。OpenF5-TTS · Hugging Face。

📚Suno實戰教程

這是一篇由向陽喬木撰寫的詳細教程，提供了關於Suno的實戰案例，非常適合參考。mp.weixin.qq.com。

💰Cursor融資9億美元

Cursor公司最近完成了9億美元的融資，目前估值達到90億美元。

🏆OpenAI收購Windsurf

OpenAI以30億美元的價格收購了AI編碼助手Windsurf，是其最大的一筆收購，顯示出OpenAI在AI領域的巨大雄心和實力。

🗣️英偉達全新開源自動語音識別模型 Parakeet-TDT-0.6B-V2，語音轉錄能力再提升

英偉達發布了最新的自動語音識別模型Parakeet-TDT-0.6B-V2，具有超強的轉錄效率。它能夠在一秒內完成60分鐘音頻的轉錄，詞錯誤率為6.05%，支持多種開發環境及優化多款GPU硬件。詳情連結。

🎶Suno v4.5正式上線，僅限付費用户使用，生成歌曲延長至8分鐘

最新的Suno v4.5版本專為Pro和Premier付費用戶設計，允許生成更長達8分鐘的歌曲，並支持更廣泛的音樂風格和提升音質。

🖼️Runway發布圖像一致性參考功能 Gen-4References 支持提取人物、場景或風格特徵及多圖混合

Runway的新功能Gen-4References可以通過上傳參考圖像來提取特徵，支持多張圖像的混合生成，簡化了設計流程。

🔍Midjourney V7推出全新功能“Omni-Reference”，讓圖像生成更靈活

Midjourney的“Omni-Reference”功能提供了精确的图像元素控制，支持多种对象生成和权重调整，适用广泛的应用场景。

🌐Claude AI將升級:網頁版醞釀支持MCP定制鏈接

Claude AI採用Model Context Protocol（MCP），提升與第三方工具的集成能力，實現更靈活的使用體驗。

📱iOS18.6或為中國用戶啟用AI功能，國行蘋果AI或由阿里百度技術支持

蘋果AI將在iOS18.6中啟用，背後有百度的文心一言大模型和阿里巴巴的審查機制，以確保內容合規。

☑️OpenAI 重返非營利模式，終止營利性實體控制機制

OpenAI宣布重返非營利模式，計劃成為最大的慈善實體之一，確保透明的社會效益和商業運作空間。

🖌️Freepik 發布“F Lite”：一個為版權安全而構建的開放 AI 圖像模型

Freepik推出的F Lite模型旨在提供版權安全的圖像生成替代方案，使用自有圖像庫進行訓練及合法審查。

🦾OpenAI同意以30億美元收購AI編碼助Windsurf

OpenAI同意以約30億美元收購人工智能編碼助手Windsurf，顯示其在AI領域的雄心並可能引發行業討論。

🎨谷歌Gemini聊天機器人全新升級:支持多圖上傳和圖像編輯功能

谷歌的Gemini聊天機器人新增的功能允許上傳多圖並進行AI編輯，為用戶提供更大的創作靈活性。

📈ChatGPT訪問量激增，4月總計達47.86億次、首次超越X

ChatGPT的4月訪問量達到47.86億次，首次超過社交媒體X，反映出其作為生產力工具的廣泛應用。

📊Excel MCP Server上線可通過Claude等客户端直接操作Excel文件

Excel MCP Server是一個開源工具，允許通過AI助手操作Excel文件，無需微軟軟件，促進了表格處理效率。詳情連結。

🗣️Claude 移動應用即將推出語音模式，支持多種聲音選項

Claude移動應用即將上線語音模式，支持多種聲音選項和網頁搜索功能，提升用户体验。

🔎新一代唇形同步工具KeySync發布:突破表情洩漏與遮擋難題

KeySync創新解決了唇形同步的常見問題，支持高分辨率視頻處理，為影視等行業帶來了新的機遇。詳情連結。

今天的AI資訊充滿了各種新技術的創新與突破，顯示出全球科技公司在AI領域的持續投入與擴張態勢。