AI API 呃錢真相：你俾多咗 20 倍價錢

你每個月俾緊嘅 API 費用，有八成都係浪費

我喺過去半年幫幾個初創做 AI 基建審計，發現一個共通現象：絕大部分團隊嘅 API 支出入面，七至八成都係畀咗「基建溢價」而非實際運算成本。OpenAI、Anthropic 呢類 API 供應商，表面上係收你 token 費，實際上你喺度幫佢哋分擔數據中心、GPU 集群、network 頻寬同 24/7 on-call 團隊嘅開銷。用一個簡單比喻：你去茶餐廳叫碟乾炒牛河，埋單 $150，但食材成本可能只係 $30，你俾多咗嗰 $120 係租金、水電、伙記人工。API call 嘅溢價邏輯一模一樣。

問題係，呢個溢價喺 token 層面睇落唔明顯——「一百萬個 input token 先 $15」，聽落好抵。但當你個產品每日處理幾百萬 token、行緊十幾個 agent loop，月尾張 invoice 隨時五至六位數美金。你以為係 scaling 嘅自然成本，其實係被人 cut 咗一大截走。

一個實戰對比：API vs 自建 inference

我搵咗幾個最常用嘅 AI coding 場景做 benchmark。用 GPT-4o API 做 code review 同 refactor，逐次 call 逐次計，平均每千行 code 嘅成本係 $2.8 美金。同一 workload 行喺自己部 3090（24GB VRAM，二手市價大約 $7000 港紙）行 Llama 3.3 70B（用 4-bit quantisation），每千行成本暴跌到 $0.12——差唔多 23 倍差距。

梗係有人會話：「自建 inference 唔係就咁插張卡就得，仲要 network、storage、monitoring、failover。」啱。但計埋呢啲 overhead，用一台 $2000 港紙一個月嘅 dedicated server（行 2x 3090），一個月可以處理大約 800 萬條 query——按 API 定價即係約 $7 萬美金嘅服務量。硬件成本連電費都唔過 $7000 港紙一個月。數學唔會呃人。

Remote AI Coding 場景：自建嘅殺手鐧應用

AI coding assistant 係溢價最嚴重嘅領域之一。Cursor、Copilot、Windsurf 呢類工具收你 $20 美金一個月一個人頭，背後大部分都係 call 第三方 API。當你團隊有十個人，每個月俾 $200 美金，但實際用落嘅推理成本可能只係 $20 美金。

我嘅做法係 team 入面起咗一個 internal coding agent 系統：行 open-source model（DeepSeek-Coder-V2 同 Llama 3.1），用 vLLM 做 inference server，接 Continue.dev 做 IDE plugin。每人每月成本由 $20 美金降到大約 $1.5 美金，而且 latency 仲低過 call API——因為 server 就喺同一條 private network 入面。

好多人覺得 model quality 會 drop，但實測嚟講，對於 code generation、bug fixing、refactoring 呢類 structured task，open-source model 嘅表現已經同 GPT-4 好接近，某啲場景（尤其係特定 language/framework）finetune 過嘅開源 model 仲好過通用 API。

行動清單：下個月點樣慳返最少 50%

唔係叫你完全 cut API，而係 strategic offload。以下係我俾每個 startup 客戶嘅第一套行動：

做一次 cost attribution：搞清楚每個 feature 每月用咗幾多 token，邊條 pipeline 最食錢。好多團隊根本唔知自己邊個 flow 最貴。
分類 workload：低風險嘅 batch task（摘要、分類、embedding、code review）即刻搬去自建 inference；需要最強 model 嘅 edge case（複雜 reasoning、創意寫作）先留喺 API。
用 routing layer：部署一個 OpenRouter-like gateway，自動根據 prompt complexity 揀最適合嘅 model 同 provider。簡單 query 行開源 model，難嘅先 fallback 去 GPT-4/Claude。
買二手 GPU：3090 而家二手市場 $6000-7000 港紙就有一張，兩張加埋行 70B model 嘅 4-bit quantisation 完全夠用。係你部手機價錢嘅一半。

做齊以上四步，我見過最快嘅 case 係第二個月 API bill 由 $12,000 美金跌到 $4,500 美金。唔係理論，係真實数字。

AI 嘅 infrastructure 仲喺急速 commodity 化緊。而家俾多咗嘅錢，唔係買「更好嘅 AI」，而係買「唔使煩」嘅 convenience。當你開始自己 handle 呢啲煩嘢，你會發現個學習曲線冇想像中咁斜，而個回報遠比想像中高。喺 startup 世界，cash burn 就係 life or death。慳到嘅每一蚊，都係你公司多一日嘅 runway。