三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

AI API 呃錢真相:你俾多咗 20 倍價錢

你每個月俾緊嘅 API 費用,有八成都係浪費

我喺過去半年幫幾個初創做 AI 基建審計,發現一個共通現象:絕大部分團隊嘅 API 支出入面,七至八成都係畀咗「基建溢價」而非實際運算成本。OpenAI、Anthropic 呢類 API 供應商,表面上係收你 token 費,實際上你喺度幫佢哋分擔數據中心、GPU 集群、network 頻寬同 24/7 on-call 團隊嘅開銷。用一個簡單比喻:你去茶餐廳叫碟乾炒牛河,埋單 $150,但食材成本可能只係 $30,你俾多咗嗰 $120 係租金、水電、伙記人工。API call 嘅溢價邏輯一模一樣。

問題係,呢個溢價喺 token 層面睇落唔明顯——「一百萬個 input token 先 $15」,聽落好抵。但當你個產品每日處理幾百萬 token、行緊十幾個 agent loop,月尾張 invoice 隨時五至六位數美金。你以為係 scaling 嘅自然成本,其實係被人 cut 咗一大截走。

一個實戰對比:API vs 自建 inference

我搵咗幾個最常用嘅 AI coding 場景做 benchmark。用 GPT-4o API 做 code review 同 refactor,逐次 call 逐次計,平均每千行 code 嘅成本係 $2.8 美金。同一 workload 行喺自己部 3090(24GB VRAM,二手市價大約 $7000 港紙)行 Llama 3.3 70B(用 4-bit quantisation),每千行成本暴跌到 $0.12——差唔多 23 倍差距

梗係有人會話:「自建 inference 唔係就咁插張卡就得,仲要 network、storage、monitoring、failover。」啱。但計埋呢啲 overhead,用一台 $2000 港紙一個月嘅 dedicated server(行 2x 3090),一個月可以處理大約 800 萬條 query——按 API 定價即係約 $7 萬美金嘅服務量。硬件成本連電費都唔過 $7000 港紙一個月。數學唔會呃人。

Remote AI Coding 場景:自建嘅殺手鐧應用

AI coding assistant 係溢價最嚴重嘅領域之一。Cursor、Copilot、Windsurf 呢類工具收你 $20 美金一個月一個人頭,背後大部分都係 call 第三方 API。當你團隊有十個人,每個月俾 $200 美金,但實際用落嘅推理成本可能只係 $20 美金。

我嘅做法係 team 入面起咗一個 internal coding agent 系統:行 open-source model(DeepSeek-Coder-V2 同 Llama 3.1),用 vLLM 做 inference server,接 Continue.dev 做 IDE plugin。每人每月成本由 $20 美金降到大約 $1.5 美金,而且 latency 仲低過 call API——因為 server 就喺同一條 private network 入面。

好多人覺得 model quality 會 drop,但實測嚟講,對於 code generation、bug fixing、refactoring 呢類 structured task,open-source model 嘅表現已經同 GPT-4 好接近,某啲場景(尤其係特定 language/framework)finetune 過嘅開源 model 仲好過通用 API。

行動清單:下個月點樣慳返最少 50%

唔係叫你完全 cut API,而係 strategic offload。以下係我俾每個 startup 客戶嘅第一套行動:

  1. 做一次 cost attribution:搞清楚每個 feature 每月用咗幾多 token,邊條 pipeline 最食錢。好多團隊根本唔知自己邊個 flow 最貴。
  2. 分類 workload:低風險嘅 batch task(摘要、分類、embedding、code review)即刻搬去自建 inference;需要最強 model 嘅 edge case(複雜 reasoning、創意寫作)先留喺 API。
  3. 用 routing layer:部署一個 OpenRouter-like gateway,自動根據 prompt complexity 揀最適合嘅 model 同 provider。簡單 query 行開源 model,難嘅先 fallback 去 GPT-4/Claude。
  4. 買二手 GPU:3090 而家二手市場 $6000-7000 港紙就有一張,兩張加埋行 70B model 嘅 4-bit quantisation 完全夠用。係你部手機價錢嘅一半。

做齊以上四步,我見過最快嘅 case 係第二個月 API bill 由 $12,000 美金跌到 $4,500 美金。唔係理論,係真實数字。

AI 嘅 infrastructure 仲喺急速 commodity 化緊。而家俾多咗嘅錢,唔係買「更好嘅 AI」,而係買「唔使煩」嘅 convenience。當你開始自己 handle 呢啲煩嘢,你會發現個學習曲線冇想像中咁斜,而個回報遠比想像中高。喺 startup 世界,cash burn 就係 life or death。慳到嘅每一蚊,都係你公司多一日嘅 runway。