此新聞整理文章概述了近期科技領域的多項重大創新與成就。
OpenAI 對外推出了最新的o3和o4-mini模型,這些模型在圖像推理中表現卓越。o3擅長於圖形思考及推理,能夠連網操作且利用Python放大圖片查看細節,其還能夠調用以生成更符合要求的圖片。ChatGPT的付費會員可使用這些功能,不過,o4-mini在GitHub上則可免費試用,但具有次數限制。此外,OpenAI還發布了一款名為Codex CLI的開源編程輔助工具,其亦可在GitHub上取得。
Google AI Studio 推出了一系列的新功能升級,新增了多個Starter Apps,例如GIF Maker(生成動圖)、Co-Drawing(輔助繪畫)及Video Toys(基於視頻創建教育應用)等新穎的小應用,進一步豐富了用戶可以在該平台上開發和構建的應用類型。
Droidrun 是一款能夠讓AI操控安卓手機的開源框架,通過這款工具,使用者可以達成類似Computer Use 的效果。該框架需要安裝ADB才能運行。
阿里巴巴的通義實驗室在Hugging Face和GitHub開源了其最新的Wan2.1-FLF2V-14B模型。這代表著AI視頻生成技術的一次重大提升,該模型能夠生成高清視頻,並透過提供首尾幀以達成平滑的動畫過渡,支持多種功能如文本向視頻以及視頻編輯等。這項技術的開源將會極大地降低技術門檻,促使開發者積極參與並推進AI視頻創作的廣泛應用。
字節跳動推出的UI-TARS-1.5是一款在多模態智能體領域顯著進步的模型,特別在GUI操作和遊戲推理方面有突出表現。該模型通過強化學習增強了高階推理能力,展現出優越的任務解決能力。UI-TARS-1.5的開源為開發者提供了強大的工具,推動了多模態智能體的研究及應用。
OpenAI 最近發布的《構建智能體實踐指南》針對產品及工程團隊提供了系統構建智能體系統的必要知識與最佳實踐,強調了智能體與傳統軟體的根本性區別,特別適合於需作出複雜決策及處理非結構化資料的場景應用。
騰訊混元團隊正式開源了 InstantCharacter,這是基於擴散變換器的角色個性化工具,能夠從單張圖像中生成多樣化角色設計,並適用於多種藝術風格。該框架的開源降低了角色定制的技術門檻,同時促進全球開發者的創新熱情。
FramePack是一項革命性視頻擴散技術,其低顯存需求和高效生成能力為視頻生成領域帶來了新的變革。僅需6GB顯存,該技術即可在30fps下生成千幀視頻,而其生成速度在經過優化後可達到1.5秒/幀。
Google最新推出的 Gemini2.5Flash 版本在推理能力上進行了重大升級,引入了一種全混合推理模型,讓開發者可以靈活控制思考過程中的成本和延遲,從而在效率和品質之間取得最佳平衡。
OpenAI 最近推出了Flex處理API,使得用戶可以更低的成本使用AI模型,特別適用於低優先級和非生產性任務,這在當前AI服務費普遍上漲的情況下提供了一個經濟實惠的解決方案。
Midjourney在2025年4月17日發布了其圖像編輯器的新版本更新,這次更新強化了用戶體驗,引入了圖層功能、智能選擇工具及升級的內容審核機制,顯著提升了編輯器的創作靈活性與安全性。
微軟研究團隊推出了一款擁有20億參數且僅需要0.4GB內存的開源語言模型 BitNet b1.582B4T。此模型採用了1.58位低精度架構,顯著降低了計算資源需求並表現優異。
Genspark Super Agent 發布了一款支持超過400種文件格式轉換的新工具,該工具不僅提升了辦公效率,還具備智能優化與無縫集成功能,是個人與企業辦公中不可或缺的助手。
北京市人工智能產業投資基金對智譜追加了2億元的投資,以支持其在開源模型研發和社區生態建設。智譜計劃投入3億元支持全球開源社區,以促進AI的普惠發展。
理想汽車近期宣布其智能助手“理想同學”搭載的MindGPT3.0模型現已上線,這次升級大幅提升了智能助手的性能,尤其是深度思考能力。用戶可以透過手機App和網頁版體驗這一先進的新模型。
這些發展展示了AI與科技的飛速進步,並為未來的創新提供了廣泛的可能性。在持續推動技術前沿的同時,這些新興技術亦在逐步影響並改變我們的日常生活。