本文聚焦於 AI 領域的最新進展,涵蓋大概念模型、多模態技術以及新興應用等多方面的多維報導。
基於 token 處理信息的 LLM(大語言模型)逐漸進化為 LCM(大概念模型)。LCM 引入了一種稱為“概念”的高級語義標識,能更接近於人類在多層次抽象上的信息處理方式。目前,概念可以大致等同於一整句話。這種新的語言模型能力顯著超越了同等規模的 LLM,並具備更強的應用效能。Meta 的這一項目具備開源的訓練代碼。
由上海 AI 實驗室推出的 InternVL2.5-MPO,對圖像語義的描述能力極為優秀,在某些場景下甚至可以媲美 GPT-4 的能力。該模型在圖像語義處理方面表現卓越,是多模態深度學習領域的一項重要進步。
視頻擴散模型在物理理解方面展現出色的能力。研究者利用這一技術,不僅可以精準地預測物理世界的變化,還能應用於機器人控制領域。這項技術為視頻分析和機器人行為設計開闢了新的可能。
隨著 AI 技術的發展,深度偽造技術被不良用途滲透到直播領域,冒用名人形象進行帶貨的現象屢見不鮮。近期,張文宏醫生的形象被非法使用進行商品推廣,引發公眾關注。法律專家表示,這種行為已構成違法,消費者可依法要求退一賠三。此外,相關短視頻平台應責任機制,強化內容審核。
OpenAI 新推出的 o3 模型以高能耗引發關注。每個任務執行所消耗的電能相當於一個美國普通家庭兩個月的用電量,並產生相當於五箱汽油燃燒的二氧化碳排放量。這些數據提醒業界在追求 AI 進步的同時,也需關注技術對環境的影響。
DisPose 是一項創新的動態人物動畫技術,可通過靜態圖片與動作視頻,實現高擬真度的人像動畫生成。該技術藉由解耦姿態指導並進行運動信號重建,顯著提升了動畫生成的細節與控制性。後續研究還引入混合 ControlNet 架構,進一步優化動畫品質。
基於全新“擴散反演”技術的 InvSR 工具,專注於圖像高分辨率化。這項技術採用“部分噪聲預測”策略,展現出靈活性和效率,能快速將模糊圖片轉換為高清晰影像,且適配多種場景採樣需求。目前研究團隊已釋出使用指南及線上演示平台。
Hume AI 推出的 OCTAVE 語音引擎實現了文本到語音的快速轉換,可生成極具個性化特徵的語音作品。無論是虛擬角色還是多樣化的語音創作場景,OCTAVE 以毫秒級的生成速度和高真實感,為創作者帶來了無與倫比的體驗機會。
IBM 推出 Granite 系列最新 3.1 版本,支援多達 128,000 個令牌處理,並涵蓋 12 種人類語言與 116 種編程語言。該模型訓練基於 12 萬億令牌的數據集,尤其能在海量文本處理和語義提取中展現優勢,並已上架 Hugging Face 平台供開發者使用。
埃隆·馬斯克旗下的 xAI 宣布完成新一輪 60 億美元融資,為擴展生成式 AI 模型 Grok 的應用提供了強大支持。新資金將用於更多場景功能的開發,包括搜索優化、聊天交互,以及圖像生成領域的探索。
蔚來汽車宣布對智能駕駛部門進行架構優化,由任少卿領導的新技術委員會,將專注於大模型技術協作和執行效率的提升。此舉將鞏固蔚來在智能駕駛的技術競爭力,並為多品牌業務提供更強大的技術支撐。
隨著 AI 技術深入整合至蘋果產品生態,投資者對其未來前景寄予厚望。儘管近期 iPhone 銷售狀態略顯疲軟,分析預測到 2025 年整合 AI 功能後,iPhone 銷量有望迎來顯著增長。
科創巨頭 SpaceX、Palantir 與 OpenAI 正攜手尋求美國國防合同,以科技替代傳統防務公司主導的現狀。然而,這些 AI 技術應用的倫理問題引發了廣泛關注,尤其在基於戰爭和安全應用場景中的影響備受爭議。
AI 技術日新月異,各領域突破不斷展現其潛力。然而,技術的應用也需兼顧倫理與環境,確保其為人類社會帶來更可持續的進步。