三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

P2P 算力 + Local AI:你部閒置電腦其實係金礦

你部枱底嘅 RTX 3090,每日有 22 個鐘係 idle 嘅。同一個城市入面,有一萬個 developer 排緊隊等 OpenAI API response,每個月夾埋俾緊幾十萬蚊 inferencing 費用。呢個唔係資源短缺問題,係資源錯配問題——而 Mesh-LLM 呢類去中心化推理平台,正正就係嚟解決呢個 mismatch。

過去兩年我哋見證咗一個奇怪現象:一邊廂 GPU 價格炒到上天,另一邊廂大量 consumer GPU 每日超過 80% 時間喺度曬太陽。data centre 嘅 A100 租金每小時幾蚊美金,但你屋企張 RTX 4090 嘅推理能力其實同 A100 嘅 FP16 性能相差唔到一個數量級。問題唔係硬件唔夠,係我哋仲未有一套好嘅 market mechanism 去將呢啲碎片化算力整合起嚟。

Mesh-LLM:你張 display card 都可以係 SaaS

Mesh-LLM 嘅做法好直接:將一堆 consumer GPU 通過 network 串連成一個分散式推理 cluster,然後對外提供 OpenAI-compatible API。呢個唔係新 concept——當年 SETI@home 就做過類似嘅 crowdsourced computing。但 Mesh-LLM 嘅突破在於兩點:第一,佢支援 Skippy stage splits,即係可以將一個超大模型拆散、分佈喺唔同機器上面 run,解決咗 single node 裝唔落大模型嘅問題;第二,佢嘅 API 同 OpenAI 兼容,即係你用開嘅 langchain、llamaindex、甚至 cursor 呢啲工具,可以無縫轉過去。

呢個 model 嘅經濟意義係乜?想像一個 marketplace:你張 RTX 4090 喺夜晚 idle 嘅時候,可以透過 Mesh-LLM 接入一個 global inferencing pool,然後按 token 收費。作為對比,OpenAI GPT-4o 嘅 inferencing 成本大約係每 million token $2.50 到 $10 不等。如果你用 local GPU 做 inference,電費成本大概係每 million token $0.10 到 $0.50(視乎電價同模型大小)。中間嘅差價,就係你嘅利潤空間。

當然,香港嘅電費係一個現實障礙。中電同港燈嘅住宅電價大約係每度 $1.2 到 $1.8,相比深圳嘅 $0.6、台灣嘅 $0.7 高出接近三倍。但你唔需要 24/7 嚟跑——peak hour 賣 capacity,off-peak 做自己嘢,或者專注喺 batch processing 呢類 time-insensitive workload。現實係:就算電費貴一倍,只要張卡係閒置嘅,邊際成本其實接近零。你嘅 real competition 唔係 data centre,係「乜都唔做」——而呢個 comparison,consumer GPU 永遠贏。

Tiny-vLLM:唔好淨係買 token,要明原理

Mesh-LLM 解決咗 supply side 嘅問題,但作為 developer,你仲需要理解 inferencing 背後發生緊乜事。呢個就係 Tiny-vLLM 嘅價值所在。

Tiny-vLLM 係一個用 C++ 同 CUDA 由頭寫到落尾嘅 LLM inference engine。個 project 嘅 README 本身就係一份教材——作者刻意將每一個 optimization 步驟都拆解成獨立嘅 lesson,從 memory layout、KV cache management、quantization,一路講到 speculative decoding。佢嘅靈感來自 llama.cpp 早期嘅時代,但加入咗大量 documentation 同 mental model,令到你唔需要睇 source code 都可以重建成個 project。

點解呢個對你嚟講咁重要?因為 AI 行業正經歷一個「抽象化陷阱」:越高層嘅工具(LangChain、AutoGen、各種 agent framework)越容易令你忘記底層嘅物理限制。當你唔了解 inferencing 嘅 cost structure——邊部分係 memory-bound、邊部分係 compute-bound、quantization 點樣影響 latency——你根本就冇辦法 optimise 你嘅 system。

學 Tiny-vLLM 俾你三個具體好處:第一,你可以自己 estimate inference cost,唔需要 rely on cloud provider 嘅 pricing page;第二,你可以為特定 workload 定制 model serving 策略,例如 batch size 同 tensor parallelism 嘅取捨;第三,當你嘅 application 需要低 latency 或高 throughput 嘅時候,你可以自己 tune engine 而唔係等 vendor 出 update。呢啲 skill 喺 Mesh-LLM 呢類 platform 上面會變成直接嘅 competitive advantage——你唔單止係算力 provider,你係懂 infrastructure 嘅算力 provider,呢個 premium 可以差好遠。

Codehamr 同 Local-First 嘅哲學:唔好俾人 lock-in

講到呢度,你可能已經留意到一條主線:Mesh-LLM 將 inferencing 從 closed API 解放出嚟,Tiny-vLLM 將推理知識從 black box 解放出嚟。而 Codehamr 呢個 local-first Go coding agent,就將 agent 本身從 cloud 解放出嚟。

Codehamr 好簡單——四個 slash command、一個 deterministic GYSD loop、完。冇 API key 需要,冇 telemetry,冇 SaaS subscription。你 clone、你 build、你用。呢種設計哲學喺 2026 年嘅 AI 生態入面顯得特別珍貴,因為主流趨勢係將一切推向 cloud;而每一次你去用一個 cloud AI service,你都喺度累積 switching cost——由 prompt library 到 fine-tune 嘅 adapter 到 custom pipeline,全部同 vendor bound。

Local-first 嘅 AI tooling 代表一個更可持續嘅 path:你擁有你嘅 infrastructure,你擁有你嘅 data,你擁有你嘅 workflow。Mesh-LLM 俾你做算力 provider,Tiny-vLLM 俾你 understanding,Codehamr 俾你 ownership。三個加埋,就係一個完整嘅 stack——唔需要靠任何 big tech company 都可以 run 到自己嘅 AI pipeline。

呢個唔係 ideological 嘅選擇,而係 strategic 嘅選擇。當你可以用 local GPU 做到 80% cloud inferencing 嘅效能而成本係十分之一嘅時候,唔咁做就係 competitive disadvantage。尤其喺香港呢個市場——我哋嘅優勢係快、係靈活、係唔怕 dirty hands。呢種 local-first 嘅 mindset 同香港嘅創業文化係天然吻合嘅。

香港開發者嘅具體行動點

講咗咁多,具體可以做乜?

第一步,如果你有閒置 GPU,去裝 Mesh-LLM 同 llama.cpp,試下喺 local network 起一個自己用嘅推理 endpoint。唔使諗賺錢住,先感受下 latency、throughput、同你張卡嘅上限。用 nvidia-smi 睇住 GPU utilization,你會發現平時你張卡嘅 compute power 有幾多係浪費咗。

第二步,clone Tiny-vLLM 嘅 repo,跟住佢個 README 由頭行一次。唔使全部 code 都睇得明;重點係理解 inferencing pipeline 嘅 bottleneck 喺邊。之後你去用任何 inferencing platform 嘅時候,你就會知道邊啲問題係 infrastructure 嘅限制、邊啲係可以自己改善嘅。

第三步,開始思考一個 niche:香港/亞洲市場有冇啲 inferencing workload 係主流 platform 做唔好嘅?Cantonese TTS?繁簡混合嘅 text processing?特定行業嘅 domain model?呢啲就係你可以透過 Mesh-LLM 去 serve 嘅高利潤 niche。

最後一步係長線策略:將你 accumulated 嘅 inferencing knowledge 變成一種 service。唔係傳統嘅 consulting,而係 operator model——你 maintain 一個 niche inferencing endpoint,charge usage fee。你嘅競爭優勢唔係 GPU hardware,而係你對特定 workload 嘅 optimization knowledge:quantization scheme、batch strategy、prompt pre-processing。呢啲嘢 cloud provider 做唔到咁細緻,但你可以。

P2P 算力加 local AI 唔係 futurism,係 right now 嘅機會。香港電費貴?係。但 idle GPU 嘅機會成本更高。而最大嘅風險唔係電費,係你嘅競爭對手已經開始跑緊。