AI API 呃錢真相：你俾多咗 20 倍價錢

開 OpenAI 嘅 API 做 production，每個月俾幾千蚊美金 token 費，你以為好正常？等我話你知：你而家俾緊嘅價錢，相比自建 inference 嘅實際 compute cost，溢價隨時高達 20 倍。AI API 嘅定價從來唔係跟「運算成本」走，而係跟「替代成本」走。OpenAI 知道你無 GPU、無 infra、無時間自己搞 infra，所以可以任意定價——而你一直乖乖俾錢。

解剖 API 定價：溢價從何而來

先睇數字。一粒 H100 GPU 喺主流雲端供應商嘅租用價格大約係每小時 US$2-3。行一個 70B 模型，用 vLLM 做優化，喺單卡 H100 上大約做到每秒 20-30 tokens 嘅生成速度。換句話講，一粒 H100 一個月大約可以處理 1,500 萬至 2,000 萬個 output tokens。

以 OpenAI GPT-4o 嘅 output 定價（每百萬 tokens US$10）計，同一批 token 市值 US$1,500-2,000。但粒 GPU 嘅成本只係 US$1,500-2,200（租）+ 電費同網絡。你以為呢個 margin 好正常？問題係：OpenAI 嘅實際 GPU 成本遠低過你呢個數字——佢哋大批量採購 H100，每粒成本約 US$23,000-30,000，但行 100,000 卡 cluster 攤分落嚟，加上自家 network fabric 同 ASIC 優化，每 token 嘅 compute cost 比起「你喺雲端租一粒 H100 行 raw inference」低 5-10 倍。

再加上 Prompt Caching、Speculative Decoding、KV Cache 共享等 server-side 優化，OpenAI 同 Anthropic 嘅實際邊際成本大約係定價嘅 2-5%。呢個 markup 俾嘅唔係 compute，而係「唔使你諗 infra」嘅 convenience——但呢個 convenience 值 20 倍嗎？

自建 Inference：2025 年門檻已大幅降低

好多人覺得自建 inference 好複雜，其實 2025 年嘅工具鏈已經成熟到一個普通 backend developer 都可以 weekend 內 setup。

Model Selection. 唔係個個 model 都值得自建。開源 model 之中，DeepSeek-V3 同 Qwen3-72B 嘅 performance/cost ratio 最高。DeepSeek-V3 喺多項 benchmark 追貼 GPT-4o，而 Qwen3-72B 係最抵玩嘅中規模模型——math 同 coding 能力僅次於 Claude 4 Sonnet。如果你主要做 coding agent，DeepSeek-Coder-V3 同 Codestral 嘅 self-host 版本性價比極高。

Inference Engine. vLLM 係目前最成熟嘅選擇，support PagedAttention、Continuous Batching、Prefix Caching，可以將 throughput 提升 3-5 倍。如果行 7B-14B 嘅細模型，ollama 已經夠用，但 32B 以上一定要用 vLLM 或者 SGLang。呢兩個 engine 都 support FP8 量化，可以將 memory 需求減半而幾乎無 accuracy loss。

Infra 部署. 最抵嘅做法係用 RunPod / Vast.ai / TensorDock 呢類 spot GPU market 租 H100，每小時 US$1.5-2.5。行一隻 Qwen3-72B（FP8）大約需要 2 粒 H100，月費 ~US$2,500。同樣嘅 token 量如果用 GPT-4o API，輕易超過 US$15,000-20,000。就算你唔係超大量用戶，一個月 US$500-1,000 嘅 self-host 已經可以取代 US$5,000-8,000 嘅 API bill。

如果你用 DeepSeek-V3 呢類 MoE（Mixture of Experts）模型，每粒 token 只 activate 37B parameters，同樣硬體可以 serve 更多 concurrent requests，成本再低 30-40%。

Remote AI Coding 實戰：我點樣慳返 90%

我條 team 行 hybrid approach。日常 prototyping 同 brainstorming 用 GPT-4o API——因為方便、唔使煩 infra。但當我哋 run automated coding agent 做大規模 refactoring、寫 test suites、做 code review 嘅時候，全部行 self-hosted DeepSeek-V3。

結果：coding agent 嘅 token cost 由每月 ~US$8,000 降到 ~US$800。Performance 方面，DeepSeek-V3 喺 SWE-bench 同 HumanEval 嘅分數同 GPT-4o 只差 2-3%，但 latency 因為 self-host 喺同一 data center 內反而快咗 40%。更重要嘅係：self-host 令你可以 control prompt cache、control rate limit、control concurrency。OpenAI 成日改 API、deprecate model、加 rate limit——你嘅 production pipeline 隨時因為佢改少少嘢就整個星期要改 code。

另一個好多人忽略嘅成本係 API latency 嘅 opportunity cost。GPT-4o 嘅 median time-to-first-token 係 500-800ms，而 self-host 可以 control 到 <100ms。做 agentic workflow 嗰陣每步對話慳 500ms，一個 50-step pipeline 就慳咗 25 秒。逐個 agent call 累積落嚟，developer productivity 嘅提升遠超 token cost 嘅節省。

你而家可以做嘅三件事

第一，audit 你個 API bill。睇清楚邊啲 workload 係高用量、低 latency requirement、batch 性質——呢啲最適合搬去 self-host。第二，用一個 weekend 試水。喺 RunPod 租一粒 H100，行 vLLM serve 一個 Qwen3-32B，成本 < US$50，你就可以體驗到 self-host 嘅 control 同 latency 優勢。第三，設計 hybrid pipeline。API 做即時 interactive task（UX 需要高質量），self-host 做 batch processing + agentic workflow。唔好 binary 咁全部 API 或全部 self-host——最聰明嘅人兩邊都用。

AI API 嘅溢價唔係陰謀，而係 market segmentation。但作為開發者，你嘅責任係知道有咩選擇，然後做精明嘅取捨。20 倍溢價？俾得起唔代表你應該俾。