5月6日AI资讯

#AI #科技

以下是今天AI领域最新消息,涵盖音乐生成、图像处理、语音识别等多方面内容。

🎵ACE-Step:開源最佳音樂模型

ACE-Step是一款基於擴散模型的開源音樂生成模型,可以生成多種風格的歌曲,並支持包括中文在內的多種語言。該模型的音頻效果接近Suno的水平,支持多種控制功能,包括克隆聲音、修改歌詞以及人聲性別轉換。項目詳見:ACE-Step: A Step Towards Music Generation Foundation Model。Github地址:ACE-Step

💬OpenF5-TTS:開源可商用版本的F5模型

重新訓練的OpenF5-TTS模型是F5 TTS模型的商業可用版本,採用Apache協議允許商用。它的效果非常卓越。OpenF5-TTS · Hugging Face

📚Suno實戰教程

這是一篇由向陽喬木撰寫的詳細教程,提供了關於Suno的實戰案例,非常適合參考。mp.weixin.qq.com

💰Cursor融資9億美元

Cursor公司最近完成了9億美元的融資,目前估值達到90億美元。

🏆OpenAI收購Windsurf

OpenAI以30億美元的價格收購了AI編碼助手Windsurf,是其最大的一筆收購,顯示出OpenAI在AI領域的巨大雄心和實力。

🗣️英偉達全新開源自動語音識別模型 Parakeet-TDT-0.6B-V2,語音轉錄能力再提升

英偉達發布了最新的自動語音識別模型Parakeet-TDT-0.6B-V2,具有超強的轉錄效率。它能夠在一秒內完成60分鐘音頻的轉錄,詞錯誤率為6.05%,支持多種開發環境及優化多款GPU硬件。詳情連結

🎶Suno v4.5正式上線,僅限付費用户使用,生成歌曲延長至8分鐘

最新的Suno v4.5版本專為Pro和Premier付費用戶設計,允許生成更長達8分鐘的歌曲,並支持更廣泛的音樂風格和提升音質。

🖼️Runway發布圖像一致性參考功能 Gen-4References 支持提取人物、場景或風格特徵及多圖混合

Runway的新功能Gen-4References可以通過上傳參考圖像來提取特徵,支持多張圖像的混合生成,簡化了設計流程。

🔍Midjourney V7推出全新功能“Omni-Reference”,讓圖像生成更靈活

Midjourney的“Omni-Reference”功能提供了精确的图像元素控制,支持多种对象生成和权重调整,适用广泛的应用场景。

🌐Claude AI將升級:網頁版醞釀支持MCP定制鏈接

Claude AI採用Model Context Protocol(MCP),提升與第三方工具的集成能力,實現更靈活的使用體驗。

📱iOS18.6或為中國用戶啟用AI功能,國行蘋果AI或由阿里百度技術支持

蘋果AI將在iOS18.6中啟用,背後有百度的文心一言大模型和阿里巴巴的審查機制,以確保內容合規。

☑️OpenAI 重返非營利模式,終止營利性實體控制機制

OpenAI宣布重返非營利模式,計劃成為最大的慈善實體之一,確保透明的社會效益和商業運作空間。

🖌️Freepik 發布“F Lite”:一個為版權安全而構建的開放 AI 圖像模型

Freepik推出的F Lite模型旨在提供版權安全的圖像生成替代方案,使用自有圖像庫進行訓練及合法審查。

🦾OpenAI同意以30億美元收購AI編碼助Windsurf

OpenAI同意以約30億美元收購人工智能編碼助手Windsurf,顯示其在AI領域的雄心並可能引發行業討論。

🎨谷歌Gemini聊天機器人全新升級:支持多圖上傳和圖像編輯功能

谷歌的Gemini聊天機器人新增的功能允許上傳多圖並進行AI編輯,為用戶提供更大的創作靈活性。

📈ChatGPT訪問量激增,4月總計達47.86億次、首次超越X

ChatGPT的4月訪問量達到47.86億次,首次超過社交媒體X,反映出其作為生產力工具的廣泛應用。

📊Excel MCP Server上線 可通過Claude等客户端直接操作Excel文件

Excel MCP Server是一個開源工具,允許通過AI助手操作Excel文件,無需微軟軟件,促進了表格處理效率。詳情連結

🗣️Claude 移動應用即將推出語音模式,支持多種聲音選項

Claude移動應用即將上線語音模式,支持多種聲音選項和網頁搜索功能,提升用户体验。

🔎新一代唇形同步工具KeySync發布:突破表情洩漏與遮擋難題

KeySync創新解決了唇形同步的常見問題,支持高分辨率視頻處理,為影視等行業帶來了新的機遇。詳情連結

今天的AI資訊充滿了各種新技術的創新與突破,顯示出全球科技公司在AI領域的持續投入與擴張態勢。

參考連結