三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

OpenToken 壓縮 74% token:AI coding 成本革命定短期套利?

OpenToken 壓縮 74% token:AI coding 成本革命定短期套利?

香港 developer 用 AI coding 一個月燒幾多錢?我身邊幾個獨立開發者,每人每月喺 Claude Code 同 Cursor 上花 80 到 200 美金。聽落唔算多,但如果你 run 緊 10 個 agent 做自動化、或者 team 入面有 20 個人日日用,條數就變成一盤生意級嘅開支。更核心嘅問題係:呢啲錢到底去咗邊?答案係——大部分都用咗嚟傳送「垃圾」。git diff 嘅 context hunk、npm install 嘅進度 log、ANSI escape code、重複出現嘅 error message——呢啲 noise 佔咗超過一半嘅 token,但對 LLM 嘅 reasoning 毫無貢獻。OpenToken 就係針對呢個荒謬現象而出現嘅工具。

35 層 filter 背後嘅工程哲學

OpenToken 唔係一個簡單嘅「壓縮工具」,而係一個整全嘅 output 處理引擎。佢 intercepts AI agent 同 shell 之間嘅所有工具輸出,經過 35 個壓縮 stage,每個 stage 都有 safety guard:如果壓縮後反而變大咗,就保留原始輸出。呢個「0-risk 原則」係成個 project 最聰明嘅設計決策——用戶唔需要驚漏嘢或者變形。

具體嚟講,佢做嘅嘢包括:pre-call rewrite(自動幫你加 --quiet-q flag)、ANSI stripping、thinking block 移除、JSON 清理、table whitespace 縮減、path 縮短、directory grouping、diff folding、log folding、重複行 collapse。仲有 LZ77 風格嘅 lossless token sequence compression(LTSC)同 LZW token substitution,對重複性高嘅 output 可以額外榨多 20-40%。

根據 woof100 嘅 benchmark 數據,OpenToken 喺 git diff、npm list、cargo build 呢類高噪 command 上達到 74-81% 嘅 token 壓縮率。一般 workflow 平均約 60%。對於一個每月 token consumption 達 5 千萬嘅 heavy user,呢個差距就係每月 $150+ 同 $50 嘅分別。

成本套利定結構性改變?

市面上已經有幾個同類工具——RTK(Rust binary CLI proxy)、QTK(OpenCode plugin)、Caveman(language mode prompt hack)、以及各 IDE 內建嘅 truncation。但它們嘅 approach 唔同:RTK 同 QTK 做 60-90% 壓縮但無 secrets redaction、無 progressive disclosure、無 reversible compression。Caveman 係用 prompt 引導 LLM 講少啲廢話,大概慳 75% 但只限 model response。

OpenToken 嘅差異化在於佢係一個「唔會偷步」嘅引擎。Progressive disclosure 先俾 summary,需要先再拎 full output。Reversible compression 用 semantic abbreviation 加上完整 recovery path。Cross-call dedup 防止同一段 output 喺同一個 session 入面被重複計費。Auto-tuning 會記錄每個 command family 嘅壓縮率,對 consistently low-yield 嘅 family 自動 skip heavy stage。

呢啲功能加埋,代表 OpenToken 唔係純粹嘅「token 套利工具」。套利係短期行為——API provider 改 pricing、model 改 context window 上限,你就死得。OpenToken 做嘅係結構性改變:重新定義 agent 同工具之間嘅溝通 protocol。

獨立開發者點樣 maximise 呢個機會

如果你係香港嘅 indie dev 或者細 team,我建議以下玩法:

第一,立即安裝,零成本試用。 npm i -g @mrgray17/opentoken 就搞掂,OpenCode plugin 會 auto-load,完全唔使 config。行一個星期,開 opentoken stats 睇吓自己慳咗幾多。

第二,留意 family 分佈。 唔同 command 嘅 compression ratio 可以差好遠。git 同 npm 通常慳最多,docker 同 make 次之。如果你慳得最多嘅係某個特定 family,可以針對性調整 workflow 設計——例如將頻繁 run 嘅 cargo build 包裝成 opentoken wrap cargo-build,進一步壓縮。

第三,唔好只睇 token 數,睇 context 質量。 Compression 嘅副作用係 noise 減少 = signal-to-noise ratio 提升。LLM 喺 cleaner input 下 reasoning 更快更準,呢個間接效益可能比直接慳錢更大。

第四,留意 ecosystem 動向。 OpenToken 嘅 MCP server 已經支援 Cursor、Windsurf、Claude Desktop、VS Code Copilot,意味住佢唔再局限於 OpenCode,而係成為一個 cross-platform 嘅 compression layer。如果 AI IDE 嘅 built-in compression 始終做唔好(目前 IDE 內建嘅 truncation 只有 20-30% 壓縮率),OpenToken 呢類第三方工具好可能變成標準配置。

真正嘅問題:呢個 market 有幾 sustainable?

Token compression 呢個 category 嘅結構性風險係:API provider 可以隨時自己落場。Anthropic、OpenAI 甚至 GitHub 要喺 server side 做 output compression 係技術上完全可行。一旦發生,OpenToken 嘅核心價值——cost saving——就會被 commoditise。

但呢個 scenario 假設咗一件事:API provider 想咁做。事實上,佢哋冇 incentive 去壓縮自己嘅 billing metric。Token 係佢哋嘅計費單位,幫你壓縮 = 幫你慳錢 = 自己減 revenue。呢個 conflict of interest 令第三方 compression engine 喺中短期內有生存空間。

長遠睇,OpenToken 嘅真正價值唔係慳錢,而係建立一個 agent-to-tool communication 嘅最佳實踐。35 層 pipeline、0-risk guarantee、cross-call dedup——呢啲係架構知識,唔係套利漏洞。就算未來 API provider 做咗 compression,呢套 design pattern 仍然係任何高效率 agent system 嘅 blueprint。

我嘅建議好直接: 今日就裝 OpenToken,用一個月,記錄實質節省。慳到嘅錢唔好當係利潤,而係 reinvest 落更多 agent 同 automation 實驗。因為呢個 category 嘅窗口期唔會永遠打開——但窗口期入面累積到嘅 workflow knowledge 係你可以帶走嘅。

Git diff 由 2,114 tokens 變 407 tokens。你仲等緊乜?