香港 AI 團隊的 infra 省錢攻略
香港搞 AI,最大嘅 bottleneck 唔係 talent,係 infra 成本。企圖買 H100 集群要等半年以上,仲要俾溢價;租雲端 GPU,A100 80G 每小時收你 US$3-5,一個月閒閒地三四萬港幣。對於得幾個人的香港 startup,呢個數字直接判死刑。但過去半年 infra 層有兩個開源項目值得留意:Mesh-LLM 同 LMCache。佢哋嘅核心邏輯好直接——唔需要用超貴嘅 GPU 砌大集群,而係用軟件層嘅技巧,將你手頭嗰幾張平民卡(RTX 3090、4090、甚至舊嘅 Tesla T4)嘅效能壓到極限。
Mesh-LLM:將舊 GPU 變成推理集群
Mesh-LLM 係一個 Rust 寫嘅分散式推理引擎,核心理念係將多部機嘅 GPU 同 memory pool 埋一齊,對外暴露一條 OpenAI-compatible API。你 office 有兩部 PC,各插一張 RTX 3090($7,000 人仔有交易),裝上 mesh-llm,佢哋會自動組成一個 mesh。當你需要跑一條 query,mesh 會判斷張 model 擺喺邊部機跑、定係拆開 layer 分散落唔同機度行——呢個就係 Skippy stage splits:將一個大 model 斬件,每部機負責幾層,stage-0 做完傳俾 stage-1,結果串返埋一齊。72B 嘅 Qwen 模型,本來一張 24GB VRAM 嘅卡根本 load 唔到,但切開四份分落四張 3090,照行可也。
對香港團隊而言最實用嘅係 private mesh。你唔需要公開節點,只需要一個 invite token,團隊可以自己起 private mesh,所有 traffic 行內部網絡。本地 latency 低、冇雲端 egress 費用,而且 Mesh-LLM 用 Nostr 做 discovery protocol,唔經中央 server,無第三方程式可以 intercept。仲有一個好嘢:佢嘅 Mixture-of-Agents gateway 可以將同一條 prompt 同時送去 mesh 入面唔同 model,然後自動仲裁最佳答案。即係你可以用一個細 model 做 simple query,大 model 做複雜 reasoning,mesh 自動幫你 assignment。
LMCache:長對話嘅隱藏成本炸彈
第二個殺手級工具係 LMCache。如果你有 deploy 過 RAG 系統或者 multi-turn chatbot,你會發現越傾越慢、越傾越貴。原因係 LLM inference 最大嘅 bottleck 唔係 compute,係 KV cache——每次 generation 都要讀寫之前所有 token 嘅 key-value 向量。條對話有 10,000 tokens,KV cache 佔十幾 GB VRAM;每次 prefill 階段要重新計算晒成條 context,GPU 時間同 latency 直線上升。
LMCache 嘅做法係將 KV cache 分層儲存:GPU > CPU RAM > SSD > 甚至 S3,然後用 zero-copy、NIXL、GDS 等技術加速跨層讀寫。當一條 query 帶住之前嘅 context 嚟,LMCache 會 check 呢段 KV cache 係咪已經存在(唔單止 prefix match,係任意位置嘅 reuse),命中嘅話直接從 CPU memory 甚至 disk 拉返嚟,跳過 prefill。根據佢哋嘅 benchmark,配合 vLLM 使用,TTFT(time-to-first-token)可以降低 3-10 倍,GPU cycle 節省 3-10 倍。
對於中小型團隊,呢個 improvement 嘅實際意義係:你本來要 8 張卡先撐得住嘅 concurrent user load,而家可能 2-3 張就得;或者同一張卡可以做多幾倍嘅 request。以一張 RTX 4090 約 $20,000 港紙計,一年電費約 $3,000;比起租雲端同等效能(約每月 $8,000 起),半年就回本。
實戰組合拳:mesh + cache + 策略選卡
實際部署可以咁樣組合:用 4 張 RTX 3090 做 Mesh-LLM 推理節點(成本約 $28,000),每張 24GB VRAM,四張合共 96GB,夠 run 大部分 open model。Mesh-LLM 背後接 vLLM 做 inference engine,vLLM 再 plug LMCache 做 KV cache offloading。你嘅 app 或 agent 只需要 call localhost:9337/v1,背後就係一個自動調度、自帶 KV cache 加速嘅私有 AI 集群。
選卡方面,同價位下多卡好過單張勁卡:一張 A100 80G 要十幾萬港幣(仲要排隊買),同等價錢可以買到 4-6 張二手 3090(24G x 6 = 144GB VRAM)。Mesh-LLM 嘅 stage split 令你可以 run 本來裝唔落單卡嘅 model,而 LMCache 減少重複計算,令同一批卡 serve 更多 users。香港電力貴,但 RTX 3090 TDP 350W,六張全載都係 2.1kW,比起租雲端,每月電費 + 冷氣成本大概 $3,000-$4,000,仍然低過 cloud GPU 一個數量級。
做定唔做,自己揀
香港做 AI 嘅好處係 hardware supply chain 相對暢通,二手市場活躍,淘寶、carousell 都可以低價執到 3090。劣勢係空間細、熱量大,要考慮散熱同電掣限制。但如果你係獨立開發者或者 3-5 人團隊,呢個組合絕對值得試。建議行動點:今個月試起一個 Mesh-LLM private mesh(起碼兩部機,行 docker compose),加 LMCache 行幾日 benchmark,對比 cloud API latency 同 throughput。數據會講真話——好多時候本地 infra 嘅成本係 cloud 嘅 10-20%,latency 更低。AI 唔係有錢佬嘅專利,香港細團隊一樣可以玩得起。