瀏覽器自動化 2.0：LLM + Computer Vision 取代 XPath，RPA 行業被顛覆

你寫咗一條 Selenium script，用嚟每日自動登入供應商 portal 下載 Invoice。三個月後供應商改版，button 嘅 id 由 btn-download 變咗 download-btn，XPath 全部失效，個 script 即刻廢咗。呢個場景做 RPA 嘅人一定唔陌生。傳統瀏覽器自動化嘅核心假設係「DOM 結構係穩定嘅」，但現實係：每一間公司嘅網站都喺度不斷改，你永遠追唔切。而家有一個全新嘅方法——唔再依賴 DOM selector，而係俾 AI 用 Computer Vision「睇」個網頁，再用 LLM 判斷下一步要做咩。

從 Selector 到 Vision：一次根本嘅範式轉移

傳統 RPA 工具如 UiPath、Automation Anywhere、Selenium，核心機制係「定位元素」。你寫 //button[@id='submit']，工具就去 DOM tree 搵呢個節點，然後模擬 click。呢個方法有四十年歷史，但佢有個致命弱點：selector 同網站實際渲染之間存在語義斷層。網站改 CSS class、改 HTML 結構、甚至只係加咗個 A/B test variant，selector 就斷纜。

Skyvern 團隊喺 2025 年初拎出咗一組數字：WebVoyager benchmark 85.8%，WebBench 64.4% SOTA——呢個唔係實驗室結果，而係喺真實 cloud browser 環境、面對 452 個真實網站跑出嚟嘅。關鍵技術係咩？Planner-Actor-Validator 三重架構。Planner 將複雜任務拆細（例如「去 Amazon 買 iPhone 16、mon 貼同手機殼」拆成三個子任務），Actor 用 Vision LLM 睇頁面截圖嚟決定撳邊個掣，Validator 再確認動作係咪真係成功。呢種「睇到咩就做咩」嘅方式，完全繞過咗 XPath 嘅脆弱性。

點解呢個突破對 RPA 行業係顛覆性？

先講一個殘酷事實：傳統 RPA 嘅維護成本遠超開發成本。業界有個常見數字——維護一個 RPA bot 每年大約要花 initial development cost 嘅 50% 到 100%，原因正正就係 selector 不斷失效。UiPath 呢間公司市值一度超過 400 億美金，背後養住成千上萬嘅「CoE（Center of Excellence）」團隊，每日就係修補爛咗嘅 selector。

Vision-based automation 改變咗呢條經濟公式。Skyvern 用 screenshots + LLM 去理解頁面，網站點樣改 layout，只要粒掣仲係藍色、仲寫住 “Submit”，AI 就認得出。呢個令 RPA 嘅維護成本從 O(n) 變成接近 O(1)——唔再需要每次改版都派人入去睇 code。

更重要嘅係，呢個方法對「未見過嘅網站」完全 work。Skyvern 唔需要預先 training，你俾個 URL 同自然語言指令，佢就識自己 navigate。呢個能力對 scraper、data aggregation、大規模 form filling 呢類應用係 game-changer。想像你要從 100 個供應商 portal 下載 Invoice，傳統做法要每個 portal 寫一條 script；而家你只需要一句 prompt。

仲有咩局限？我哋要現實啲

講完優勢，都要講清楚而家嘅限制。WebBench 嘅 64.4% 話俾我哋知，Vision-based agent 仲有超過三分一嘅任務會 fail。最大嘅 failure mode 係「幻覺完成」——AI 以為自己撳咗 submit，但實際上彈咗個 captcha 出嚟阻住咗。第二個大問題係速度，Vision LLM 每次動作都要 scan 一次頁面截圖，latency 明顯高過傳統 selector 嘅毫秒級操作。

基礎設施亦係瓶頸。Skyvern 嘅 report 清楚指出，好多 agent failure 其實唔係 agent 本身問題，而係 proxy 被封、captcha 解唔到、Google Auth 偵測到係 bot。呢個意味住就算 AI 再聰明，你都要處理 bot detection 呢個對抗性問題。另外，Vision-based agent 用 token 嘅成本仍然偏高——每一步都要 call Vision LLM，累積落嚟可以比傳統 Selenium 貴 10-100 倍。

所以現實嘅結論係：Vision-based automation 唔會完全取代 selector-based approach，而係會同佢互補。對於網站結構穩定、需要高吞吐嘅場景，Playwright + XPath 仍然係最好嘅选择。但對於第三方網站、常改版嘅 portal、或者需要跨站點操作嘅場景，Vision-based agent 嘅維護成本優勢會隨時間愈來愈明顯。

開發者可以點樣把握呢個機會？

第一個行動點：玩熟 Skyvern 嘅 SDK。佢哋最近出咗 Python 同 TypeScript SDK，可以直接喺 Playwright 上面加一層 AI。你寫 page.click(prompt="Click the login button")，底層會 fallback 去 AI vision。呢個係漸進式採用嘅好方法——你唔需要一次過 rewrite 晒現有 script，可以逐個步驟 migrate。

第二個行動點：留意 MCP（Model Context Protocol）嘅發展。Skyvern 已經支援 MCP 做 LLM provider abstraction，意味住你可以換唔同嘅 Vision LLM 去 balance cost 同 accuracy。Claude 4.5 Sonnet 做 vision 又快又平，但複雜場景可能要 GPT-5 或者 Gemini 2.5 Pro。呢個 flexibility 喺 production 好重要。

第三個行動點：如果你係做 SaaS 或者 marketplace 嘅，諗下「agent-as-a-feature」。用戶俾一句自然語言就自動完成 browser task——呢個 UX 嘅躍進程度，等同從 command line 去到 GUI。你唔需要做一個通用 browser agent，專注一個垂直場景（例如 Invoice 下載、Job application、保險報價）已經可以做到好大嘅 product-market fit。

RPA 行業過去十年嘅故事係「用 automation 取代重複勞動」，但佢哋自己嘅 bot 維護本身亦變咗另一種重複勞動。LLM + Computer Vision 嘅出現，終於打破咗呢個 paradox。Selector 會死，但視覺理解唔會——因為人類都係咁樣用網頁嘅。