AI 日報：每日 AI 資訊總結（2025年3月2日）

本篇文章彙總了 2025 年 3 月 2 日的最新 AI 技術與應用資訊，涵蓋多款新工具與技術突破，無論是研究者還是日常用戶，都能從中獲益匪淺。

📄 olmOCR：可能是目前最好的開源 OCR 模型

olmOCR 是一款基於微調後 7B 視覺語言模型的 OCR 工具，專為處理 PDF 文件進行微調，數據量達 260,000 頁。該模型完全開源，涵蓋了模型權重、數據、訓練代碼及推理代碼。用戶甚至可以在 GPU（如 4090）本地運行該工具。其高效性使其成為文檔數字化工具中的傑出代表。

GitHub 關注：模型介紹

在線使用：olmOCR 網頁版

PhotoDoodle 是一款令人耳目一新的圖片處理工具，用戶僅需通過簡單的文本提示，即可在真實照片中添加塗鴉元素，實現虛實結合的創意效果。這款工具非常適合創意愛好者和視覺設計師。

在線體驗：PhotoDoodle 網站

DeepSeek 推出了基於其 R1 模型的 RAG 架構，幫助構建更強大的檢索增強生成應用程序。該技術提供靈活的開源環境，是企業和個人開發者的新選擇。

GitHub 連結：DeepSeek RAG 模型

ElevenLabs 啟動了其最新的語音識別模型 Scribe，官方聲稱其識別準確率為業界最高，並廣泛適用於多語言的語音轉換場景，是一流的語音-to-文本工具。

官方介紹：了解詳情

2025 年 2 月 28 日，OpenAI 正式推出 GPT-4.5，該模型在感知能力、創造力和可靠性上有顯著提升。GPT-4.5 具備更自然的對話能力和深刻的語義理解，適用於寫作、學習、溝通等廣泛應用場景。

亮點：

總結來看，AI 領域在本期展示了多款突破性技術或產品，從文檔識別、語音處理到生成式應用工具，這些創新將在不久的將來對我們的生活和工作產生深遠影響。