三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

共享算力係咪下一個 Airbnb?Mesh-LLM 同分散式 GPU 嘅可能性

共享算力係咪下一個 Airbnb?Mesh-LLM 同分散式 GPU 嘅可能性

人人都想買 GPU,但大部分時間 GPU 喺度做緊乜?乜都冇做。數據中心嘅 GPU 利用率低到嚇親人——根據業界估算,平均空轉率超過七成。你屋企打機嗰張 RTX 5090,一日有 20 個鐘係 idle。呢個係一個荒謬嘅資源錯配:一邊廂開發者排隊等雲端 GPU 兼俾緊天價,另一邊廂全世界有幾百萬張卡喺度曬太陽。

GPU 空轉:被忽略嘅沉默成本

先認清一個數字:全球 AI 運算需求每幾個月翻一倍,但 GPU 供應遠遠追唔上。AWS、GCP 嘅 A100 同 H100 貴到離譜,仲要排期。與此同時,consumer GPU 嘅裝機量驚人——Steam 硬件調查顯示,RTX 4090 用戶超過 50 萬。假設每張卡每日平均用 4 個鐘跑遊戲或者 AI 工作,剩低 20 個鐘就係 pure waste。用電費計,一張 450W 嘅卡 idle 一年浪費超過 200 美金電費。如果得一半用戶願意 share 閒置算力,呢個市場潛在供應量大過任何單一雲端廠商。

問題係:點解冇人成功做過?早期嘗試好似 Golem 同 iExec 太 technical,用戶體驗差,而且用 blockchain 搞得 latency 好高。但 Mesh-LLM 嘅 approach 唔同——佢唔係叫你為咗賺幾蚊搞到部機慢晒,而係將分散式 GPU pool 變成一個 seamless 嘅推理後端。

Mesh-LLM:分散式推理嘅 Airbnb 時刻

Mesh-LLM 嘅核心 insight 好簡單:你部機有 spare VRAM,我部機都有,我哋連埋一齊就可以跑一個本來要 A100 80GB 先行到嘅模型。佢用 Skippy stage splits 將模型層數拆開,每部機負責幾個 layers,然後 pipe 住做 inference。對外暴露嘅係 OpenAI-compatible API——即係你本來用緊嘅 LangChain、LlamaIndex、任何 tool 都可以 zero-migration 轉過來。

呢個同 Airbnb 嘅邏輯一模一樣:Airbnb 冇起過一間酒店,佢只係將全世界空置嘅房間連接起來。Mesh-LLM 都冇起過 GPU 數據中心,佢只係將全世界 idle 嘅 GPU 連接起來。關鍵係撮合成本要夠低、信任機制要夠簡單。Airbnb 用 payment hold 加 review system 解決信任問題;Mesh-LLM 用 cryptographic attestation 加去中心化驗證確保運算結果正確。

更重要嘅係 price discovery。雲端 GPU 定價由幾間巨頭控制,溢價極高。共享算力市場一旦形成,價格應該由供需決定——高峰期貴、離峰期平。你半夜瞓覺部機 idle,自動出租俾人跑 inference,朝早睇住賺咗幾蚊,呢個體驗同 Airbnb 業主睇住 booking 完全一樣。

SGLang 點解係關鍵拼圖

分散式推理嘅最大挑戰係效率。Mesh-LLM 負責 distributed orchestration,但實際 inference engine 夠唔夠快先係 bottleneck。SGLang 呢度登場——佢嘅 RadixAttention 技術可以智能複用 KV Cache,將推理吞吐量推到比 vLLM 仲快。多模態支援令佢可以 handle LLM 加 Vision 嘅 unified pipeline。

對於分散式場景,SGLang 嘅 efficiency 直接影響經濟模型。每一毫秒嘅 latency 節省,等於同一班 GPU 可以 serve 更多 request、賺更多錢。Mesh-LLM 如果冇一個高效嘅 inference backend,分散式只會係慢上加慢。SGLang 提供咗 production-grade 嘅 serving layer,令到分散式推理嘅 latency 可以同集中式數據中心 compete。佢哋嘅組合——Mesh-LLM 做 orchestration、SGLang 做 execution——係目前開源社群最接近生產就緒嘅分散式推理 stack。

現實瓶頸:仲未爆嘅原因

講咗咁多願景,都要面對現實。分散式 GPU 推理有三大死穴。

第一係 network bandwidth。跨機傳 model weights 同 activations 需要極高頻寬,一般家用 broadband upload 得 10 到 50 Mbps,根本餵唔飽 GPU。Mesh-LLM 用 Skippy 盡量減少 cross-node 傳輸,但物理限制喺度。解決方案係 edge-to-edge 嘅 peer-to-peer 連接——如果 contributor 同 consumer 喺同一 ISP,latency 可以低好多。第二係 trust。你點知對方嘅卡冇被篡改、冇俾人落咗 backdoor?Mesh-LLM 嘅 cryptographic attestation 係起步,但離真正 battle-tested 仲有好遠路。第三係 incentive design。早期貢獻者點解要參與?空轉 GPU 賺嘅錢可能一日得幾毫子,動機唔夠。Airbnb 早期都面對呢個問題——但 GPU 租賃嘅單位經濟學同 Airbnb 唔同:你出租間房一晚可以賺幾百蚊,但你出租張 GPU 一晚可能得幾蚊。要 scaling,必須要等到 demand 大過 supply,令價格上升到有意義嘅水平。

你應該點做

唔好等佢成熟先參與。如果你係 developer:而家裝個 Mesh-LLM node 貢獻你 idle 嘅 GPU,你係幫緊個 network 累積 supply,將來 network effect 起咗你嘅回報係早期參與者溢價。如果你係 startup founder:留意呢個 infra layer 嘅機會——共享算力之上可以起嘅嘢多過你想象,例如 decentralized fine-tuning、model routing marketplace。如果你只係 investor:mark 低呢個 category,2026 至 2027 年一定會有一兩間公司跑出。

分散式 GPU 唔會取代 AWS,但佢會創造一個全新嘅 market tier——好似 Airbnb 冇消滅酒店,但創造咗一個龐大嘅 home stay 市場。問題係:你係做早期業主,定係等 Uber 出現先識搭的士?