AI API 定價泡沫:你俾緊嘅錢大半係 infra premium
Anthropic 毛利率超過 70%,但佢哋嘅 API 定價每個月仍然喺度蠶食開發者嘅利潤。呢個數字意味住咩?你每俾 $100 俾 Claude API,有 $70 以上直接落入 Anthropic 嘅利潤池,得嗰 $30 左右真正用喺模型運算本身。問題係:你幾時見過一個行業,供應商賺 70% margin,但客戶仲覺得俾得合理?答案係從未——除咗 AI API 市場。你俾緊嘅錢,大部份唔係為咗 GPU 運算,而係為咗「唔使自己搞 infrastructure」呢個 premium。
七成利潤率背後嘅成本迷霧
要理解呢個 pricing bubble 有幾誇張,首先要拆解 API 定價嘅構成。以 Claude 3.5 Sonnet 為例,input $3/M tokens、output $15/M tokens。Anthropic 公開嘅毛利率喺 70-75% 之間,意味住 direct cost 只佔定價嘅 25-30%。呢個 direct cost 包括推理 GPU 折舊、電力、網絡頻寬,仲有分攤嘅模型訓練成本。
問題係 training cost 嘅攤分機制極唔透明。Anthropic 同 OpenAI 各自燒咗幾十億美金 training 下一代模型,呢筆錢自然要透過 API 定價收回來。但從客戶角度睇,你俾嘅 $/M tokens 入面,有幾多用嚟 amortize 佢哋嘅訓練開支,完全係黑箱。更矛盾嘅係,模型蒸餾同量化技術越嚟越成熟,smaller model 嘅能力已經逼近 frontier model,但 API 定價並冇跟住成本結構同步下降。LLaMA 3 405B 自建嘅 inference cost 可以做到低於 $0.5/M tokens,但同等級別嘅閉源 API 仍然收緊 $10-20/M tokens——呢個 20-40 倍嘅溢價,就係 pure infra premium。
另一個隱藏成本係 vendor lock-in。一旦你嘅產品深度整合咗某間 API 嘅 function calling、tool use、system prompt 行為,遷移成本極高。呢個 switching cost 俾咗 API provider 持續加價嘅底氣。佢哋知你唔會輕易走,所以逐年 squeeze margin。
Infra Premium 入面包含咗啲乜
你俾嘅 infra premium 大致分為五項。第一係 auto-scaling GPU cluster。API provider 要維持全球數萬張 GPU 嘅池,隨時應付你嘅 traffic spike。第二係 multi-region redundancy,確保即使 us-east-1 死咗,你嘅 request 可以 failover 去 eu-west-1。第三係 latency SLA——佢哋要保證 first token latency 喺某個 threshold 以下,呢個需要複雜嘅 routing 同預熱機制。第四係 security compliance,SOC 2、HIPAA、GDPR,每張 cert 都係錢。第五就係「唔使自己請人」嘅 convenience premium。
但對於香港嘅 startup 同獨立開發者嚟講,呢五項入面好多你根本唔需要。你做一個 MVP、一個 side project、或者一個 internal tool,你唔需要 multi-region failover,唔需要 sub-100ms latency SLA,唔需要 SOC 2。你只需要一個 reliable 嘅推理端點,可以 handle 每日幾百到幾千個 request。為咗呢啲你唔需要嘅 enterprise feature,你每個月俾緊 5-10 倍嘅溢價。
仲有一個殘酷事實:API provider 嘅 pricing 係 cross-subsidise 嘅。大客戶(銀行、保險、跨國企業)要求嚴格嘅 SLA 同支援,而呢啲 infrastructure overhead 係由所有客戶——包括你——共同承擔。換句話講,你作為獨立開發者,每個月喺度 subsidize 緊 JPMorgan 嘅 compliance engineer 人工同 Goldman Sachs 嘅 dedicated support team。
SGLang 同開源自建方案嘅成本革命
SGLang 呢類 open-source inference engine 徹底改變咗成本結構。佢核心嘅 RadixAttention 算法可以自動重用 KV cache,做到跨 request 嘅 prefix caching,喺大量 prompt 有共同 prefix 嘅場景下(例如 chatbot system prompt、RAG context),throughput 提升 3-5 倍。加上 continuous batching、FP8 量化、paged attention,同樣一張 A10G(24GB VRAM,月租約 $300-400),可以 serve 到原本需要 $2000-3000 API 費用嘅 workload。
實際數字:一個 typical RAG chatbot,每日處理 10,000 個 query,每個 query 約 2K input + 500 output tokens。用 Claude API 每月約 $4,500。用 SGLang + Llama 3 70B(INT4 quant)行喺兩張 A10G 上,GPU 月租約 $700,加埋 networking 同 storage,total cost under $1,000。成本削減超過 80%。如果用量更大,用 SGLang + Llama 3 405B(FP8 quant)行喺八張 A100 上,定點成本約 $5,000/月,但同等 quality 嘅 API 成本超過 $50,000/月。
工具鏈已經成熟到一個地步:vLLM、SGLang、TGI 三個 major engine 都支持 OpenAI-compatible API,你嘅 code 完全唔使改,只係將 endpoint URL 同 API key 換成自建 server 嘅地址。配合 BentoML、Dstack、RunPod 等部署平台,十幾分鐘就可以拉起一個 production-grade 嘅推理端點。
你應該點樣做
唔係所有 workload 都啱自建。你要根據自己嘅 usage pattern 做 decision。Rule of thumb:每月 API spend 低於 $500,繼續用 API,慳返啲時間寫 code。每月 $500-$5,000,開始認真睇 SGLang/vLLM,用 cheap GPU(A10G/L40S)serve open-source model。每月超過 $5,000,自建係必須,而且要開始 invest 喺 infra 同 optimization。
第二個建議:行 hybrid strategy。用自建 server 做日常 inference,保留 API 做 fallback 同 hard case。SGLang 嘅 Automatic Router 已經可以根據 prompt complexity 自動喺自建 model 同 API 之間切換,簡單 query 行低成本 self-host,複雜推理先 call Claude/GPT。咁樣平均成本可以再砍 30-50%。
最後,唔好 underestimates switching cost。今日開始就用 open-source model 做 prototyping,確保你嘅 code abstract 咗 model provider layer。用 LiteLLM、OpenRouter 或者自己寫一個 thin wrapper,令你未來可以隨時切換 provider 或者轉 self-host。呢個 flexibility 就係你對抗 infra premium 嘅最大武器。AI API 定價泡沫唔會自動爆破——但要有人主動去刺穿佢。