P2P 算力 + Local AI：你部閒置電腦其實係金礦

你部枱底嘅 RTX 3090，每日有 22 個鐘係 idle 嘅。同一個城市入面，有一萬個 developer 排緊隊等 OpenAI API response，每個月夾埋俾緊幾十萬蚊 inferencing 費用。呢個唔係資源短缺問題，係資源錯配問題——而 Mesh-LLM 呢類去中心化推理平台，正正就係嚟解決呢個 mismatch。

過去兩年我哋見證咗一個奇怪現象：一邊廂 GPU 價格炒到上天，另一邊廂大量 consumer GPU 每日超過 80% 時間喺度曬太陽。data centre 嘅 A100 租金每小時幾蚊美金，但你屋企張 RTX 4090 嘅推理能力其實同 A100 嘅 FP16 性能相差唔到一個數量級。問題唔係硬件唔夠，係我哋仲未有一套好嘅 market mechanism 去將呢啲碎片化算力整合起嚟。

Mesh-LLM：你張 display card 都可以係 SaaS

Mesh-LLM 嘅做法好直接：將一堆 consumer GPU 通過 network 串連成一個分散式推理 cluster，然後對外提供 OpenAI-compatible API。呢個唔係新 concept——當年 SETI@home 就做過類似嘅 crowdsourced computing。但 Mesh-LLM 嘅突破在於兩點：第一，佢支援 Skippy stage splits，即係可以將一個超大模型拆散、分佈喺唔同機器上面 run，解決咗 single node 裝唔落大模型嘅問題；第二，佢嘅 API 同 OpenAI 兼容，即係你用開嘅 langchain、llamaindex、甚至 cursor 呢啲工具，可以無縫轉過去。

呢個 model 嘅經濟意義係乜？想像一個 marketplace：你張 RTX 4090 喺夜晚 idle 嘅時候，可以透過 Mesh-LLM 接入一個 global inferencing pool，然後按 token 收費。作為對比，OpenAI GPT-4o 嘅 inferencing 成本大約係每 million token $2.50 到 $10 不等。如果你用 local GPU 做 inference，電費成本大概係每 million token $0.10 到 $0.50（視乎電價同模型大小）。中間嘅差價，就係你嘅利潤空間。

當然，香港嘅電費係一個現實障礙。中電同港燈嘅住宅電價大約係每度 $1.2 到 $1.8，相比深圳嘅 $0.6、台灣嘅 $0.7 高出接近三倍。但你唔需要 24/7 嚟跑——peak hour 賣 capacity，off-peak 做自己嘢，或者專注喺 batch processing 呢類 time-insensitive workload。現實係：就算電費貴一倍，只要張卡係閒置嘅，邊際成本其實接近零。你嘅 real competition 唔係 data centre，係「乜都唔做」——而呢個 comparison，consumer GPU 永遠贏。

Tiny-vLLM：唔好淨係買 token，要明原理

Mesh-LLM 解決咗 supply side 嘅問題，但作為 developer，你仲需要理解 inferencing 背後發生緊乜事。呢個就係 Tiny-vLLM 嘅價值所在。

Tiny-vLLM 係一個用 C++ 同 CUDA 由頭寫到落尾嘅 LLM inference engine。個 project 嘅 README 本身就係一份教材——作者刻意將每一個 optimization 步驟都拆解成獨立嘅 lesson，從 memory layout、KV cache management、quantization，一路講到 speculative decoding。佢嘅靈感來自 llama.cpp 早期嘅時代，但加入咗大量 documentation 同 mental model，令到你唔需要睇 source code 都可以重建成個 project。

點解呢個對你嚟講咁重要？因為 AI 行業正經歷一個「抽象化陷阱」：越高層嘅工具（LangChain、AutoGen、各種 agent framework）越容易令你忘記底層嘅物理限制。當你唔了解 inferencing 嘅 cost structure——邊部分係 memory-bound、邊部分係 compute-bound、quantization 點樣影響 latency——你根本就冇辦法 optimise 你嘅 system。

學 Tiny-vLLM 俾你三個具體好處：第一，你可以自己 estimate inference cost，唔需要 rely on cloud provider 嘅 pricing page；第二，你可以為特定 workload 定制 model serving 策略，例如 batch size 同 tensor parallelism 嘅取捨；第三，當你嘅 application 需要低 latency 或高 throughput 嘅時候，你可以自己 tune engine 而唔係等 vendor 出 update。呢啲 skill 喺 Mesh-LLM 呢類 platform 上面會變成直接嘅 competitive advantage——你唔單止係算力 provider，你係懂 infrastructure 嘅算力 provider，呢個 premium 可以差好遠。

Codehamr 同 Local-First 嘅哲學：唔好俾人 lock-in

講到呢度，你可能已經留意到一條主線：Mesh-LLM 將 inferencing 從 closed API 解放出嚟，Tiny-vLLM 將推理知識從 black box 解放出嚟。而 Codehamr 呢個 local-first Go coding agent，就將 agent 本身從 cloud 解放出嚟。

Codehamr 好簡單——四個 slash command、一個 deterministic GYSD loop、完。冇 API key 需要，冇 telemetry，冇 SaaS subscription。你 clone、你 build、你用。呢種設計哲學喺 2026 年嘅 AI 生態入面顯得特別珍貴，因為主流趨勢係將一切推向 cloud；而每一次你去用一個 cloud AI service，你都喺度累積 switching cost——由 prompt library 到 fine-tune 嘅 adapter 到 custom pipeline，全部同 vendor bound。

Local-first 嘅 AI tooling 代表一個更可持續嘅 path：你擁有你嘅 infrastructure，你擁有你嘅 data，你擁有你嘅 workflow。Mesh-LLM 俾你做算力 provider，Tiny-vLLM 俾你 understanding，Codehamr 俾你 ownership。三個加埋，就係一個完整嘅 stack——唔需要靠任何 big tech company 都可以 run 到自己嘅 AI pipeline。

呢個唔係 ideological 嘅選擇，而係 strategic 嘅選擇。當你可以用 local GPU 做到 80% cloud inferencing 嘅效能而成本係十分之一嘅時候，唔咁做就係 competitive disadvantage。尤其喺香港呢個市場——我哋嘅優勢係快、係靈活、係唔怕 dirty hands。呢種 local-first 嘅 mindset 同香港嘅創業文化係天然吻合嘅。

香港開發者嘅具體行動點

講咗咁多，具體可以做乜？

第一步，如果你有閒置 GPU，去裝 Mesh-LLM 同 llama.cpp，試下喺 local network 起一個自己用嘅推理 endpoint。唔使諗賺錢住，先感受下 latency、throughput、同你張卡嘅上限。用 nvidia-smi 睇住 GPU utilization，你會發現平時你張卡嘅 compute power 有幾多係浪費咗。

第二步，clone Tiny-vLLM 嘅 repo，跟住佢個 README 由頭行一次。唔使全部 code 都睇得明；重點係理解 inferencing pipeline 嘅 bottleneck 喺邊。之後你去用任何 inferencing platform 嘅時候，你就會知道邊啲問題係 infrastructure 嘅限制、邊啲係可以自己改善嘅。

第三步，開始思考一個 niche：香港／亞洲市場有冇啲 inferencing workload 係主流 platform 做唔好嘅？Cantonese TTS？繁簡混合嘅 text processing？特定行業嘅 domain model？呢啲就係你可以透過 Mesh-LLM 去 serve 嘅高利潤 niche。

最後一步係長線策略：將你 accumulated 嘅 inferencing knowledge 變成一種 service。唔係傳統嘅 consulting，而係 operator model——你 maintain 一個 niche inferencing endpoint，charge usage fee。你嘅競爭優勢唔係 GPU hardware，而係你對特定 workload 嘅 optimization knowledge：quantization scheme、batch strategy、prompt pre-processing。呢啲嘢 cloud provider 做唔到咁細緻，但你可以。

P2P 算力加 local AI 唔係 futurism，係 right now 嘅機會。香港電費貴？係。但 idle GPU 嘅機會成本更高。而最大嘅風險唔係電費，係你嘅競爭對手已經開始跑緊。