打開網易新聞 查看精彩圖片

大家好,我是Ai學習的老章

除了關稅的大新聞,昨天大模型世界也很熱鬧,一大波新產品更新

1、OpenAI

OpenAI發(fā)布Evals API[1],為開發(fā)者提供程序化評估工具,支持自定義測試、自動化評估及提示迭代。此前評估僅限儀表盤操作,新API將評估深度集成至工作流,解決傳統(tǒng)手動評估效率低下的痛點,尤其適用于跨領域規(guī)模化應用團隊。

2、Google
打開網易新聞 查看精彩圖片
2、Google

Gemini 的高級訂閱用戶現在可以使用帶有 Gemini 2.5 Pro Experimental 的 Deep Research。[2]Gemini 2.5 Pro Experimental 被稱為世界上最強大的人工智能模型。 Gemini Deep Research 是個人的人工智能研究助手,在最智能的模型加持下,它在研究過程的每一步都表現更出色。測試中,用戶對 Gemini Deep Research 生成的報告評價很高,超過其他領先的深度研究提供商兩倍以上。在新模型上使用 Deep Research 后,分析推理、信息合成和生成更有洞察力的研究報告方面有顯著提升。高級用戶可在網頁、安卓和 iOS 上訪問,節(jié)省大量時間,還可使用音頻概述功能將報告轉換為播客式對話。用戶可在網站上了解更多信息并通過選擇 Gemini 2.5 Pro(實驗性)和點擊提示欄中的 “Deep Research” 進行嘗試。

打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片

3、Unsloth

打開網易新聞 查看精彩圖片

4、英偉達

英偉達開源253B新模型[4],在數學編碼、科學問答中準確率登頂,甚至以一半參數媲美DeepSeek R1,吞吐量暴漲4倍。關鍵秘訣,就在于團隊采用的測試時Scaling。

5、Cloudflare
打開網易新聞 查看精彩圖片
5、Cloudflare
打開網易新聞 查看精彩圖片

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

參考資料

OpenAI發(fā)布Evals API: https://platform.openai.com/docs/guides/evals

Gemini 的高級訂閱用戶現在可以使用帶有 Gemini 2.5 Pro Experimental 的 Deep Research。: https://gemini.google.com/

llama-4 Unsloth 動態(tài)量化版本來啦!: http://huggingface.co/unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF

英偉達開源253B新模型: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

[5]

Cloudflare 剛剛推出了 AutoRAG 服務: http://blog.cloudflare.com/introducing-autorag-on-cloudflare/