三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

AI API 呃錢真相:你俾多咗 20 倍價錢

開 OpenAI 嘅 API 做 production,每個月俾幾千蚊美金 token 費,你以為好正常?等我話你知:你而家俾緊嘅價錢,相比自建 inference 嘅實際 compute cost,溢價隨時高達 20 倍。AI API 嘅定價從來唔係跟「運算成本」走,而係跟「替代成本」走。OpenAI 知道你無 GPU、無 infra、無時間自己搞 infra,所以可以任意定價——而你一直乖乖俾錢。

解剖 API 定價:溢價從何而來

先睇數字。一粒 H100 GPU 喺主流雲端供應商嘅租用價格大約係每小時 US$2-3。行一個 70B 模型,用 vLLM 做優化,喺單卡 H100 上大約做到每秒 20-30 tokens 嘅生成速度。換句話講,一粒 H100 一個月大約可以處理 1,500 萬至 2,000 萬個 output tokens。

以 OpenAI GPT-4o 嘅 output 定價(每百萬 tokens US$10)計,同一批 token 市值 US$1,500-2,000。但粒 GPU 嘅成本只係 US$1,500-2,200(租)+ 電費同網絡。你以為呢個 margin 好正常?問題係:OpenAI 嘅實際 GPU 成本遠低過你呢個數字——佢哋大批量採購 H100,每粒成本約 US$23,000-30,000,但行 100,000 卡 cluster 攤分落嚟,加上自家 network fabric 同 ASIC 優化,每 token 嘅 compute cost 比起「你喺雲端租一粒 H100 行 raw inference」低 5-10 倍。

再加上 Prompt Caching、Speculative Decoding、KV Cache 共享等 server-side 優化,OpenAI 同 Anthropic 嘅實際邊際成本大約係定價嘅 2-5%。呢個 markup 俾嘅唔係 compute,而係「唔使你諗 infra」嘅 convenience——但呢個 convenience 值 20 倍嗎?

自建 Inference:2025 年門檻已大幅降低

好多人覺得自建 inference 好複雜,其實 2025 年嘅工具鏈已經成熟到一個普通 backend developer 都可以 weekend 內 setup。

Model Selection. 唔係個個 model 都值得自建。開源 model 之中,DeepSeek-V3 同 Qwen3-72B 嘅 performance/cost ratio 最高。DeepSeek-V3 喺多項 benchmark 追貼 GPT-4o,而 Qwen3-72B 係最抵玩嘅中規模模型——math 同 coding 能力僅次於 Claude 4 Sonnet。如果你主要做 coding agent,DeepSeek-Coder-V3 同 Codestral 嘅 self-host 版本性價比極高。

Inference Engine. vLLM 係目前最成熟嘅選擇,support PagedAttention、Continuous Batching、Prefix Caching,可以將 throughput 提升 3-5 倍。如果行 7B-14B 嘅細模型,ollama 已經夠用,但 32B 以上一定要用 vLLM 或者 SGLang。呢兩個 engine 都 support FP8 量化,可以將 memory 需求減半而幾乎無 accuracy loss。

Infra 部署. 最抵嘅做法係用 RunPod / Vast.ai / TensorDock 呢類 spot GPU market 租 H100,每小時 US$1.5-2.5。行一隻 Qwen3-72B(FP8)大約需要 2 粒 H100,月費 ~US$2,500。同樣嘅 token 量如果用 GPT-4o API,輕易超過 US$15,000-20,000。就算你唔係超大量用戶,一個月 US$500-1,000 嘅 self-host 已經可以取代 US$5,000-8,000 嘅 API bill。

如果你用 DeepSeek-V3 呢類 MoE(Mixture of Experts)模型,每粒 token 只 activate 37B parameters,同樣硬體可以 serve 更多 concurrent requests,成本再低 30-40%。

Remote AI Coding 實戰:我點樣慳返 90%

我條 team 行 hybrid approach。日常 prototyping 同 brainstorming 用 GPT-4o API——因為方便、唔使煩 infra。但當我哋 run automated coding agent 做大規模 refactoring、寫 test suites、做 code review 嘅時候,全部行 self-hosted DeepSeek-V3。

結果:coding agent 嘅 token cost 由每月 ~US$8,000 降到 ~US$800。Performance 方面,DeepSeek-V3 喺 SWE-bench 同 HumanEval 嘅分數同 GPT-4o 只差 2-3%,但 latency 因為 self-host 喺同一 data center 內反而快咗 40%。更重要嘅係:self-host 令你可以 control prompt cache、control rate limit、control concurrency。OpenAI 成日改 API、deprecate model、加 rate limit——你嘅 production pipeline 隨時因為佢改少少嘢就整個星期要改 code。

另一個好多人忽略嘅成本係 API latency 嘅 opportunity cost。GPT-4o 嘅 median time-to-first-token 係 500-800ms,而 self-host 可以 control 到 <100ms。做 agentic workflow 嗰陣每步對話慳 500ms,一個 50-step pipeline 就慳咗 25 秒。逐個 agent call 累積落嚟,developer productivity 嘅提升遠超 token cost 嘅節省。

你而家可以做嘅三件事

第一,audit 你個 API bill。睇清楚邊啲 workload 係高用量、低 latency requirement、batch 性質——呢啲最適合搬去 self-host。第二,用一個 weekend 試水。喺 RunPod 租一粒 H100,行 vLLM serve 一個 Qwen3-32B,成本 < US$50,你就可以體驗到 self-host 嘅 control 同 latency 優勢。第三,設計 hybrid pipeline。API 做即時 interactive task(UX 需要高質量),self-host 做 batch processing + agentic workflow。唔好 binary 咁全部 API 或全部 self-host——最聰明嘅人兩邊都用。

AI API 嘅溢價唔係陰謀,而係 market segmentation。但作為開發者,你嘅責任係知道有咩選擇,然後做精明嘅取捨。20 倍溢價?俾得起唔代表你應該俾。