三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

AI API 呃錢真相:你俾多咗 20 倍價錢

AI API 呃錢真相:你俾多咗 20 倍價錢

過去兩年,我每個月喺 AI API 嘅開銷穩定喺 US$200–400。Claude Sonnet 好用,GPT-4o 可靠,Gemini 1.5 Pro 長 context 稱手——直到我去認真計咗一條數:呢啲 API 嘅 markup 到底有幾高?

答案令人坐唔安穩。以 token 計算,主流 API 嘅定價普遍係自建推理成本嘅 8–20 倍。唔係 20%,係 20 倍。你以為俾緊「雲端算力錢」,其實大部份係俾緊「佢有 GPU 你冇」嘅稀缺溢價—而呢個稀缺,正正喺過去十二個月被開源社群同 cheap inference engine 徹底瓦解。

API 定價嘅三層溢價陷阱

先睇一組真實數字。以 Llama 3.1 70B 為例——能力大約對標 Claude Sonnet 4——如果經 Together AI 或 Groq 呢類 inference-as-a-service provider 去 call,每百萬 input token 大約 US$0.59–0.88,output 係 US$0.88–4.0。但如果自己喺一張 A100 或者兩張 3090 上跑 vLLM + FP8,成本可以直接壓到 US$0.05–0.10 每百萬 token。差距係 6–40 倍。

呢個溢價來自三層。第一層係 GPU hardware margin:雲端廠商喺 H100 嘅 markup 大約 30–50%。第二層係 inference engine markup:API provider 要 cover 佢哋嘅 routing、observability、multi-tenant scheduling,呢度再加 30–60%。第三層先係最致命嘅——模型 provider 嘅 margin。OpenAI、Anthropic 嘅主力模型利潤率估計超過 70%。佢哋賣嘅唔只係 compute,仲係「唔使煩」嘅 convenience,而呢種 convenience 標價係成本嘅 10 倍。

你可能會話:「十幾蚊美金一個月,冇所謂啦。」但如果你係用 AI 輔助寫 code 嘅獨立開發者,每日 call 數百次 API,一個月好易滾到 US$300–500。乘返三年,呢筆錢夠買一張 RTX 5090 再加一部 Mac Mini 行 local model。你用緊嘅唔係工具,係一條租約。

自建 Inference 嘅真實成本同痛位

好多人以為自建 inference 要好高技術門檻。兩年前係,但今日唔係。一張 24GB VRAM 嘅消費級 GPU(RTX 4090 / 3090)已經夠行 Llama 3.1 8B 甚至 Qwen 2.5 32B(4-bit quantized)。配合 vLLM、Ollama、llama.cpp 呢啲 engine,一個 docker compose up 就可以起出一個 OpenAI-compatible endpoint。你日常用緊嘅 Cursor、Continue.dev、Aider,全部可以指去自建 server。

真正嘅痛位唔係 setup,而係三樣嘢:可靠性、multi-tenancy、同 latency SLA。你嘅自建 server 冇 uptime guarantee,GPU 死咗你要自己搞。你一個人用就冇問題,但要 share 畀 team 用就需要考慮 concurrency 同 queue。Latency 方面,local inference 嘅 TTFT(time to first token)通常比 Groq 嗰類 fast engine 慢 2–3 倍,但對於 code completion 同 async task 來講完全 acceptable。

另一個好多人低估嘅成本係** electricity + cooling**。一張 450W 嘅 GPU 全日跑,一個月電費大約 US$50–80(香港電費計)。但即使加埋電費,自建依然比 API 慳 60–80%。

不過要講清楚:自建唔係所有場景都啱。如果你需要頻繁切換唔同 model、或者要 access GPT-4o 級別嘅多模態 vision capability,API 仍然有佢嘅價值。但對於純文字 code generation 同 structured output,開源模型嘅表現已經追到好近。

Remote AI Coding 嘅成本革命

呢度有個好多人忽略嘅 trend:Remote AI Coding 嘅 infrastructure 正處於一個類似 2015 年 AWS 同 on-prem 之間嘅 crossover point。

2015 年,Netflix 決定「all-in on cloud」之前,佢哋嘅 infra cost 係 on-prem 嘅 2.5 倍。佢哋揀 cloud 唔係因為平,而係因為 velocity。今日你用 AI API 都係同一道理——你俾多咗錢,但你換到「唔使管理 GPU driver、唔使煩 CUDA version、唔使半夜起身 reboot server」。

問題係:你呢個 velocity premium 值唔值 20 倍?

對於一個日活 500 人嘅 SaaS 產品入面嘅 AI feature,值。因為你每一分鐘 downtime 都流失收入。但對於一個獨立開發者每日寫 code 嘅 workflow,你根本唔需要 99.9% SLA。你只需要一個夠快、夠穩定、可以 run 到 12 小時唔 crash 嘅 local endpoint。

我過去三個月將主力 coding workflow 由 Claude API 轉去自建嘅 Llama 3.1 70B + Qwen 2.5 Coder 32B,每月 API cost 由 US$350 跌到 US$35(主要係留低一條 fallback 去 Gemini Flash 做 vision task)。節省超過 90%。 代價係:setup 花咗一個 weekend,同埋有時要等耐 1–2 秒 first token。冇咗。

行動指南:你可以點做

第一,audit 你嘅 API usage。去 OpenAI / Anthropic dashboard 睇你過去三個月嘅 spending,數一數有幾多 percentage 係純文字 generation。如果超過 60%,你就係「overpaying candidate」。

第二,揀一條 cheap fallback path。唔好全部 cutoff。留一個 API 做 vision / multimodal,其他 workload 搬去自建或者 cheap inference provider(Together AI / Groq / Fireworks 嘅定價比 OpenAI 平 3–5 倍,trade-off 係 model choice 少啲)。

第三,試水用 Ollama + Continue.dev。你而家用緊 VS Code / JetBrains 嘅 AI plugin 多數都 support 自建 endpoint。唔需要一個星期,一個下晝就試得到。

第四,考慮 hybrid architecture。Daily task 行 local model,複雜嘅 architecture decision 或者 refactoring call GPT-4o。咁樣你慳到錢之餘,關鍵 moment 仲有最強 model 做 backup。

AI 嘅成本結構仲未穩定。API provider 今日嘅定價包含大量實驗室 R&D subsidy 同 venture capital margin compression—呢個 window 唔會永遠 open。趁仲有得揀,建立你自己嘅 inference stack,唔好俾人收你 20 倍租金去用一個愈來愈 commodity 嘅資源。

GPU 係工具,唔係貴族俱樂部入場券。 開源社群已經拆咗道閘,你唯一要做嘅係行入去。