AI API 呃錢真相：你俾多咗 20 倍價錢

過去兩年，我每個月喺 AI API 嘅開銷穩定喺 US$200–400。Claude Sonnet 好用，GPT-4o 可靠，Gemini 1.5 Pro 長 context 稱手——直到我去認真計咗一條數：呢啲 API 嘅 markup 到底有幾高？

答案令人坐唔安穩。以 token 計算，主流 API 嘅定價普遍係自建推理成本嘅 8–20 倍。唔係 20%，係 20 倍。你以為俾緊「雲端算力錢」，其實大部份係俾緊「佢有 GPU 你冇」嘅稀缺溢價—而呢個稀缺，正正喺過去十二個月被開源社群同 cheap inference engine 徹底瓦解。

API 定價嘅三層溢價陷阱

先睇一組真實數字。以 Llama 3.1 70B 為例——能力大約對標 Claude Sonnet 4——如果經 Together AI 或 Groq 呢類 inference-as-a-service provider 去 call，每百萬 input token 大約 US$0.59–0.88，output 係 US$0.88–4.0。但如果自己喺一張 A100 或者兩張 3090 上跑 vLLM + FP8，成本可以直接壓到 US$0.05–0.10 每百萬 token。差距係 6–40 倍。

呢個溢價來自三層。第一層係 GPU hardware margin：雲端廠商喺 H100 嘅 markup 大約 30–50%。第二層係 inference engine markup：API provider 要 cover 佢哋嘅 routing、observability、multi-tenant scheduling，呢度再加 30–60%。第三層先係最致命嘅——模型 provider 嘅 margin。OpenAI、Anthropic 嘅主力模型利潤率估計超過 70%。佢哋賣嘅唔只係 compute，仲係「唔使煩」嘅 convenience，而呢種 convenience 標價係成本嘅 10 倍。

你可能會話：「十幾蚊美金一個月，冇所謂啦。」但如果你係用 AI 輔助寫 code 嘅獨立開發者，每日 call 數百次 API，一個月好易滾到 US$300–500。乘返三年，呢筆錢夠買一張 RTX 5090 再加一部 Mac Mini 行 local model。你用緊嘅唔係工具，係一條租約。

自建 Inference 嘅真實成本同痛位

好多人以為自建 inference 要好高技術門檻。兩年前係，但今日唔係。一張 24GB VRAM 嘅消費級 GPU（RTX 4090 / 3090）已經夠行 Llama 3.1 8B 甚至 Qwen 2.5 32B（4-bit quantized）。配合 vLLM、Ollama、llama.cpp 呢啲 engine，一個 docker compose up 就可以起出一個 OpenAI-compatible endpoint。你日常用緊嘅 Cursor、Continue.dev、Aider，全部可以指去自建 server。

真正嘅痛位唔係 setup，而係三樣嘢：可靠性、multi-tenancy、同 latency SLA。你嘅自建 server 冇 uptime guarantee，GPU 死咗你要自己搞。你一個人用就冇問題，但要 share 畀 team 用就需要考慮 concurrency 同 queue。Latency 方面，local inference 嘅 TTFT（time to first token）通常比 Groq 嗰類 fast engine 慢 2–3 倍，但對於 code completion 同 async task 來講完全 acceptable。

另一個好多人低估嘅成本係** electricity + cooling**。一張 450W 嘅 GPU 全日跑，一個月電費大約 US$50–80（香港電費計）。但即使加埋電費，自建依然比 API 慳 60–80%。

不過要講清楚：自建唔係所有場景都啱。如果你需要頻繁切換唔同 model、或者要 access GPT-4o 級別嘅多模態 vision capability，API 仍然有佢嘅價值。但對於純文字 code generation 同 structured output，開源模型嘅表現已經追到好近。

Remote AI Coding 嘅成本革命

呢度有個好多人忽略嘅 trend：Remote AI Coding 嘅 infrastructure 正處於一個類似 2015 年 AWS 同 on-prem 之間嘅 crossover point。

2015 年，Netflix 決定「all-in on cloud」之前，佢哋嘅 infra cost 係 on-prem 嘅 2.5 倍。佢哋揀 cloud 唔係因為平，而係因為 velocity。今日你用 AI API 都係同一道理——你俾多咗錢，但你換到「唔使管理 GPU driver、唔使煩 CUDA version、唔使半夜起身 reboot server」。

問題係：你呢個 velocity premium 值唔值 20 倍？

對於一個日活 500 人嘅 SaaS 產品入面嘅 AI feature，值。因為你每一分鐘 downtime 都流失收入。但對於一個獨立開發者每日寫 code 嘅 workflow，你根本唔需要 99.9% SLA。你只需要一個夠快、夠穩定、可以 run 到 12 小時唔 crash 嘅 local endpoint。

我過去三個月將主力 coding workflow 由 Claude API 轉去自建嘅 Llama 3.1 70B + Qwen 2.5 Coder 32B，每月 API cost 由 US$350 跌到 US$35（主要係留低一條 fallback 去 Gemini Flash 做 vision task）。節省超過 90%。 代價係：setup 花咗一個 weekend，同埋有時要等耐 1–2 秒 first token。冇咗。

行動指南：你可以點做

第一，audit 你嘅 API usage。去 OpenAI / Anthropic dashboard 睇你過去三個月嘅 spending，數一數有幾多 percentage 係純文字 generation。如果超過 60%，你就係「overpaying candidate」。

第二，揀一條 cheap fallback path。唔好全部 cutoff。留一個 API 做 vision / multimodal，其他 workload 搬去自建或者 cheap inference provider（Together AI / Groq / Fireworks 嘅定價比 OpenAI 平 3–5 倍，trade-off 係 model choice 少啲）。

第三，試水用 Ollama + Continue.dev。你而家用緊 VS Code / JetBrains 嘅 AI plugin 多數都 support 自建 endpoint。唔需要一個星期，一個下晝就試得到。

第四，考慮 hybrid architecture。Daily task 行 local model，複雜嘅 architecture decision 或者 refactoring call GPT-4o。咁樣你慳到錢之餘，關鍵 moment 仲有最強 model 做 backup。

AI 嘅成本結構仲未穩定。API provider 今日嘅定價包含大量實驗室 R&D subsidy 同 venture capital margin compression—呢個 window 唔會永遠 open。趁仲有得揀，建立你自己嘅 inference stack，唔好俾人收你 20 倍租金去用一個愈來愈 commodity 嘅資源。

GPU 係工具，唔係貴族俱樂部入場券。 開源社群已經拆咗道閘，你唯一要做嘅係行入去。