編譯 | 核子可樂、Tina
本周,初創(chuàng)公司 Browser Use 宣布完成 1700 萬美元融資,由 Felicis Ventures 領(lǐng)投,A Capital、Nexus Ventures、Y Combinator、Paul Graham、Liquid2、SV Angel、Pioneer Fund 等跟投。
不少公司已經(jīng)在嘗試開發(fā)智能體工具來自動處理各類在線任務(wù)。Browser Use 就是其中之一。這款由 AI 大模型驅(qū)動的瀏覽器自動化代理,僅靠兩名創(chuàng)始人,從構(gòu)想到在 Hacker News 上發(fā)布,僅用了四天,然后在短短幾個月里拿下 1,700 萬美元融資。更令人驚訝的是,這個項目的核心,僅僅是 8000 行開源代碼。
兩名學(xué)生,
從構(gòu)想到發(fā)布僅用了 4 天
這家公司是“閃電創(chuàng)業(yè)”,從零開始,在幾個月的時間里迅速崛起。
Browser Use 的故事始于蘇黎世聯(lián)邦理工學(xué)院的學(xué)生項目之家加速器,這是 Gregor Zunic 和 Magnus Müller 的創(chuàng)意。Müller 本人一直致力于網(wǎng)絡(luò)抓取工具的研究,并于 2024 年結(jié)識了?uni?,當(dāng)時二人正在攻讀數(shù)據(jù)科學(xué)碩士學(xué)位。
互聯(lián)網(wǎng)作為世界上最大的非結(jié)構(gòu)化信息來源,對于 AI 代理而言,其“可讀性”至關(guān)重要。網(wǎng)絡(luò)信息不斷更新,使其成為新鮮信息的重要來源。然而,對于 AI 代理來說,瀏覽網(wǎng)頁并非易事,需要完成移動鼠標(biāo)光標(biāo)、點擊按鈕、填寫表格等復(fù)雜任務(wù)。
目前,AI 代理領(lǐng)域正迅速升溫,吸引了大型科技公司和創(chuàng)新型初創(chuàng)公司的紛紛入局:
OpenAI 的 Operator,于 2025 年 1 月發(fā)布,面向 ChatGPT Pro 訂閱用戶($200/ 月),專注于消費(fèi)級 Web 自動化
Convergence 的 Proxy,于 2024 年 12 月發(fā)布,英國初創(chuàng)公司,提供免費(fèi)試用(每天 5 次會話),或 $20/ 月的無限訪問
Google 的 Project Mariner,仍處于預(yù)覽測試階段,用戶需加入候補(bǔ)名單申請訪問
Anthropic 的 Computer Use,于 2024 年 10 月發(fā)布, 預(yù)計將很快發(fā)布更新
Microsoft 的 OmniParser V2,于 2025 年 2 月發(fā)布,是一個開源項目,用于將 UI 截圖轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),使 LLM 能夠更好地解析和交互網(wǎng)頁
然而,Magnus Müller 認(rèn)為,當(dāng)前大多數(shù) AI 代理依賴于基于計算機(jī)視覺的方法來“觀察”和瀏覽網(wǎng)頁,這種方法存在速度慢、成本高,且效果不穩(wěn)定的問題。
“許多代理依賴于視覺系統(tǒng),試圖通過屏幕截圖來理解網(wǎng)站,但這種方式常常出現(xiàn)問題?!彼忉尩?,“我們將網(wǎng)站轉(zhuǎn)化為代理能夠理解的結(jié)構(gòu)化內(nèi)容。這意味著我們可以以更低的成本重復(fù)執(zhí)行相同的任務(wù)?!?/p>
簡單來說,Browser Use 的核心技術(shù)是將每個網(wǎng)站轉(zhuǎn)化為大型語言模型能夠以確定性方式處理的結(jié)構(gòu)化文本。通過這種方式,AI 代理可以準(zhǔn)確理解每個網(wǎng)頁上的可用選項,從而更輕松地做出決策。這家初創(chuàng)公司聲稱,其技術(shù)能夠顯著提升 AI 代理的網(wǎng)頁瀏覽速度和 UI 交互的精確度。
Müller 回憶,他們對現(xiàn)有技術(shù)的深刻反思,催生了將網(wǎng)絡(luò)抓取與數(shù)據(jù)科學(xué)相結(jié)合,以提升 AI 代理網(wǎng)頁任務(wù)執(zhí)行能力的創(chuàng)新想法。這成為了 Browser Use 技術(shù)發(fā)展的最初起點。
最初,Browser Use 還只是一個周末實驗,聯(lián)合創(chuàng)始人 Gregor ?uni? 曾在 X 上分享道:“我們的初衷是探索大模型能否像人類一樣瀏覽網(wǎng)頁。令人驚喜的是,僅僅四天,我們就構(gòu)建了一個初始原型,并將其發(fā)布在了 Hacker News 上?!?/p>
?uni? 透露,這個想法最初源于一次午餐時的頭腦風(fēng)暴,但很快被他們視為值得一試的研究方向:“我們可以先構(gòu)建一個原型,放在 Hacker News 上,看看社區(qū)的反饋。” 沒想到,原型發(fā)布后獲得了熱烈反響,這促使兩位創(chuàng)始人迅速成立公司,幾個月后便通過 Y Combinator 加速器獲得了早期融資。
火爆似乎純屬偶然?!
Browser Use 目前有兩個版本,一個是 Cloud Version,相比 OpenAI 的 Operator($200/ 月),Browser Use 的定價僅為 $30/ 月。一個是開源版本,免費(fèi)并兼容多個 LLM 模型,包括 Gemini、Sonnet、Qwen 以及 DeepSeek-R1,并采用 MIT 許可。

有網(wǎng)友指出,這個項目僅有約 8000 行代碼。從 GitHub 來看,該項目主要采用 Python 編寫,其中 8.2% 的代碼為 JavaScript。例如,較長的服務(wù)文件 service.py 有 1239 行代碼,而用于構(gòu)建 DomTree 的文件,含 1072 行 JS 代碼。
Browser Use 在本質(zhì)上是將網(wǎng)站的按鈕和元素拆分成更易于智能體理解的“類文本”格式,這有助于智能體理解不同選項并自主做出決策。它能夠提取網(wǎng)站中的元素(按鈕、小部件等),讓 AI 模型與 Web 內(nèi)容交互。該工具可以管理多個瀏覽器選項卡,設(shè)置保存文件和執(zhí)行數(shù)據(jù)庫操作等,同時支持鼠標(biāo)與鍵盤輸入。
由于 Browser Use 基于網(wǎng)絡(luò)爬取,它的功能里還包括應(yīng)對爬蟲相關(guān)挑戰(zhàn)的部分。網(wǎng)站內(nèi)容的頻繁變動可能導(dǎo)致自動化腳本失效,而這通常是在問題發(fā)生后才被發(fā)現(xiàn)。與此同時,許多網(wǎng)站會采用防爬蟲措施,要求用戶更換 IP、解決驗證碼,并模擬人類行為以避免封禁。此外,使用 LLM 進(jìn)行網(wǎng)頁抓取時,還可能遇到速率限制、解析錯誤以及 API 密鑰管理等問題。而在執(zhí)行有價值的任務(wù)時,用戶通常需要頻繁登錄,輸入用戶名和密碼,這對許多人來說也是一個困擾。
為了解決這些問題,Browser Use 提供了代理輪換功能,幫助用戶避免 IP 被封禁,并支持持久會話,確保用戶僅需登錄一次即可持續(xù)使用。
他們的發(fā)布略晚于 OpenAI Operator,但根據(jù)他們的自述,Browser Use 在 WebVoyager 基準(zhǔn)測試中取得了 89.1% 的成功率,覆蓋了 586 項不同的網(wǎng)頁任務(wù),高于 OpenAI Operator 的 87%。

目前,這個開源項目已有 50,000 個 GitHub 星星,也是增長最快的開源 AI 項目之一。
值得注意的是,Browser Use 的走紅似乎也帶有一定的偶然性。
其中一次爆發(fā)式增長,是在 AI 智能體平臺 Manus 宣布推出的時候。當(dāng)時一篇關(guān)于 Manus 使用 Browser Use 的帖子在 X 上獲得了超 240 萬瀏覽量和大量轉(zhuǎn)發(fā)。Browser Use 成為 Manus 用于執(zhí)行各類任務(wù)的組合之一,例如點擊網(wǎng)站菜單和填寫表格。
這讓 Browser Use 的產(chǎn)品日均下載量從 3 月 3 日的約 5000 次增長至 3 月 10 日的 2.8 萬次,一周內(nèi)增長超過五倍。這次爆發(fā)式增長,使 Browser Use 迅速成為行業(yè)焦點。。
“那幾天簡直是瘋狂?!?uni?回憶道,“我們成為了 GitHub 上最熱門的代碼倉庫,下載量和用戶轉(zhuǎn)化率都達(dá)到了前所未有的高度?!?/p>
“我們的愿景是打造一個基礎(chǔ)層,讓開發(fā)者能夠在此之上構(gòu)建瀏覽器智能體。我們相信,到今年年底,Web 上的智能體數(shù)量將超過全球人口?!?uni?展望道。
這聽起來可能過于樂觀,但部分分析師預(yù)測,未來幾個月 AI 智能體的市場確實會迎來大幅增長。根據(jù) Research and Markets 公布的數(shù)據(jù),該行業(yè)有望在 2029 年達(dá)到 420 億美元。德勤則預(yù)計,到 2027 年,將有半數(shù)使用 AI 方案的企業(yè)部署 AI 智能體。
根據(jù) Felicis Ventures 投資人 Astasia Myers 的說法,該公司過去幾年來一直在積極關(guān)注 AI 智能體領(lǐng)域,而 Browser Use 似乎是擴(kuò)大該公司投資組合的絕佳機(jī)會。她強(qiáng)調(diào)稱,之所以決定出手資助,也是看中了 Browser Use 優(yōu)秀的創(chuàng)始團(tuán)隊及其開源優(yōu)先的指導(dǎo)思想。
Myers 在采訪中總結(jié)道,“我們認(rèn)為 Web AI 智能體將成為下一個真正有助于實現(xiàn)端到端自動化人工任務(wù)的前沿。Web AI 智能體將成為靜態(tài)預(yù)訓(xùn)練大模型之間的動態(tài)橋梁,幫助這些模型在不斷變化的數(shù)字環(huán)境中始終堅持以文本為學(xué)習(xí)中心?!?/p>
https://www.ycombinator.com/companies/browser-use
https://venturebeat.com/ai/the-rise-of-browser-use-agents-why-convergences-proxy-is-beating-openais-operator/
https://techcrunch.com/2025/03/23/browser-use-the-tool-making-it-easier-for-ai-agents-to-navigate-websites-raises-17m/
聲明:本文為 InfoQ 整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。
會議推薦
在 AI 大模型重塑軟件開發(fā)的時代,我們?nèi)绾伟盐兆兏铮咳绾瓮黄萍夹g(shù)邊界?4 月 10-12 日,QCon 全球軟件開發(fā)大會· 北京站 邀你共赴 3 天沉浸式學(xué)習(xí)之約,跳出「技術(shù)繭房」,探索前沿科技的無限可能。
本次大會將匯聚頂尖技術(shù)專家、創(chuàng)新實踐者,共同探討多行業(yè) AI 落地應(yīng)用,分享一手實踐經(jīng)驗,深度參與 DeepSeek 主題圓桌,洞見未來趨勢。
熱門跟貼