三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

瀏覽器自動化 2.0:LLM + Computer Vision 取代 XPath,RPA 行業被顛覆

你寫咗一條 Selenium script,用嚟每日自動登入供應商 portal 下載 Invoice。三個月後供應商改版,button 嘅 idbtn-download 變咗 download-btn,XPath 全部失效,個 script 即刻廢咗。呢個場景做 RPA 嘅人一定唔陌生。傳統瀏覽器自動化嘅核心假設係「DOM 結構係穩定嘅」,但現實係:每一間公司嘅網站都喺度不斷改,你永遠追唔切。而家有一個全新嘅方法——唔再依賴 DOM selector,而係俾 AI 用 Computer Vision「睇」個網頁,再用 LLM 判斷下一步要做咩。

從 Selector 到 Vision:一次根本嘅範式轉移

傳統 RPA 工具如 UiPath、Automation Anywhere、Selenium,核心機制係「定位元素」。你寫 //button[@id='submit'],工具就去 DOM tree 搵呢個節點,然後模擬 click。呢個方法有四十年歷史,但佢有個致命弱點:selector 同網站實際渲染之間存在語義斷層。網站改 CSS class、改 HTML 結構、甚至只係加咗個 A/B test variant,selector 就斷纜。

Skyvern 團隊喺 2025 年初拎出咗一組數字:WebVoyager benchmark 85.8%,WebBench 64.4% SOTA——呢個唔係實驗室結果,而係喺真實 cloud browser 環境、面對 452 個真實網站跑出嚟嘅。關鍵技術係咩?Planner-Actor-Validator 三重架構。Planner 將複雜任務拆細(例如「去 Amazon 買 iPhone 16、mon 貼同手機殼」拆成三個子任務),Actor 用 Vision LLM 睇頁面截圖嚟決定撳邊個掣,Validator 再確認動作係咪真係成功。呢種「睇到咩就做咩」嘅方式,完全繞過咗 XPath 嘅脆弱性。

點解呢個突破對 RPA 行業係顛覆性?

先講一個殘酷事實:傳統 RPA 嘅維護成本遠超開發成本。業界有個常見數字——維護一個 RPA bot 每年大約要花 initial development cost 嘅 50% 到 100%,原因正正就係 selector 不斷失效。UiPath 呢間公司市值一度超過 400 億美金,背後養住成千上萬嘅「CoE(Center of Excellence)」團隊,每日就係修補爛咗嘅 selector。

Vision-based automation 改變咗呢條經濟公式。Skyvern 用 screenshots + LLM 去理解頁面,網站點樣改 layout,只要粒掣仲係藍色、仲寫住 “Submit”,AI 就認得出。呢個令 RPA 嘅維護成本從 O(n) 變成接近 O(1)——唔再需要每次改版都派人入去睇 code。

更重要嘅係,呢個方法對「未見過嘅網站」完全 work。Skyvern 唔需要預先 training,你俾個 URL 同自然語言指令,佢就識自己 navigate。呢個能力對 scraper、data aggregation、大規模 form filling 呢類應用係 game-changer。想像你要從 100 個供應商 portal 下載 Invoice,傳統做法要每個 portal 寫一條 script;而家你只需要一句 prompt。

仲有咩局限?我哋要現實啲

講完優勢,都要講清楚而家嘅限制。WebBench 嘅 64.4% 話俾我哋知,Vision-based agent 仲有超過三分一嘅任務會 fail。最大嘅 failure mode 係「幻覺完成」——AI 以為自己撳咗 submit,但實際上彈咗個 captcha 出嚟阻住咗。第二個大問題係速度,Vision LLM 每次動作都要 scan 一次頁面截圖,latency 明顯高過傳統 selector 嘅毫秒級操作。

基礎設施亦係瓶頸。Skyvern 嘅 report 清楚指出,好多 agent failure 其實唔係 agent 本身問題,而係 proxy 被封、captcha 解唔到、Google Auth 偵測到係 bot。呢個意味住就算 AI 再聰明,你都要處理 bot detection 呢個對抗性問題。另外,Vision-based agent 用 token 嘅成本仍然偏高——每一步都要 call Vision LLM,累積落嚟可以比傳統 Selenium 貴 10-100 倍。

所以現實嘅結論係:Vision-based automation 唔會完全取代 selector-based approach,而係會同佢互補。對於網站結構穩定、需要高吞吐嘅場景,Playwright + XPath 仍然係最好嘅选择。但對於第三方網站、常改版嘅 portal、或者需要跨站點操作嘅場景,Vision-based agent 嘅維護成本優勢會隨時間愈來愈明顯。

開發者可以點樣把握呢個機會?

第一個行動點:玩熟 Skyvern 嘅 SDK。佢哋最近出咗 Python 同 TypeScript SDK,可以直接喺 Playwright 上面加一層 AI。你寫 page.click(prompt="Click the login button"),底層會 fallback 去 AI vision。呢個係漸進式採用嘅好方法——你唔需要一次過 rewrite 晒現有 script,可以逐個步驟 migrate。

第二個行動點:留意 MCP(Model Context Protocol)嘅發展。Skyvern 已經支援 MCP 做 LLM provider abstraction,意味住你可以換唔同嘅 Vision LLM 去 balance cost 同 accuracy。Claude 4.5 Sonnet 做 vision 又快又平,但複雜場景可能要 GPT-5 或者 Gemini 2.5 Pro。呢個 flexibility 喺 production 好重要。

第三個行動點:如果你係做 SaaS 或者 marketplace 嘅,諗下「agent-as-a-feature」。用戶俾一句自然語言就自動完成 browser task——呢個 UX 嘅躍進程度,等同從 command line 去到 GUI。你唔需要做一個通用 browser agent,專注一個垂直場景(例如 Invoice 下載、Job application、保險報價)已經可以做到好大嘅 product-market fit。

RPA 行業過去十年嘅故事係「用 automation 取代重複勞動」,但佢哋自己嘅 bot 維護本身亦變咗另一種重複勞動。LLM + Computer Vision 嘅出現,終於打破咗呢個 paradox。Selector 會死,但視覺理解唔會——因為人類都係咁樣用網頁嘅。