2026 AI 架構大亂鬥：Post-Transformer 時代點部署？

引言：Attention Is All You Need——但係唔夠

2026 年仲嗌「Attention Is All You Need」嘅人，大概仲未望過真正 production 環境個 cost column。Transformer 統治咗成個 NLP 時代，由 BERT 到 GPT-4 都係佢嘅變奏，但去到某個 scale，self-attention 嘅 O(n²) complexity 係一條物理天花。你逐個 token 同每個之前嘅 token 做 attention，sequence length 一拉長，compute budget 就炸——呢個唔係 optimisation 問題，係 computational geometry 問題。

同期冒出嚟嘅替代架構：SSM（State Space Models）以 Mamba 為代表，MoE（Mixture of Experts）用 sparse activation 改寫 efficiency 嘅定義，仲有 Hyena 呢類用 implicit convolution 做 substitution 嘅新派。每一條路線都聲稱自己係 transformer killer，但現實係——2026 年嘅最佳實踐，唔係揀邊個贏，而係點樣溝埋一齊用。

Mamba 同 State Space Models：高效但有限制

SSM 嘅核心 insight 好優雅：用一個連續嘅 state space representation 取代離散嘅 attention matrix。Mamba 將呢個概念推到極致，做到 O(n) 嘅 inference complexity，意味住你可以處理 100K、1M token 嘅 context window 而唔使炸 GPU memory。對於我呢類做 real-time streaming 應用嘅 developer 嚟講，呢個係 game changer——你終於可以喺 edge device 上面 run 到長 context 嘅模型，而唔使 cut sequence 或者用 sliding window 偷雞。

但係凡事有代價。SSM 喺長期依賴嘅捕捉上，始終同 full attention 有差距。實測出嚟嘅結果係：在 retrieval 同埋 long-range reasoning 任務上，純 Mamba 模型會比同等 size 嘅 Transformer 差 3-5%。唔係話唔用得，而係你要清楚知道 trade-off。你寫一個聊天 bot，用戶講完一句嘢你 immediately 回應，SSM 嘅 latency advantage 完全 cover 到任何 quality 嘅微小損失。但你做 document-level QA，要從 500 頁 PDF 入面抽一個具體事實出嚟，pure SSM 就會開始露餡。

所以業界嘅方向已經好明顯：將 SSM 同 attention 層混合。Jamba 呢類模型就係典型例子——每隔幾層插入一次 attention layer，其他用 SSM，既保留長 context 嘅效率，又唔會失去關鍵嘅 recall 能力。呢個 hybrid 思維，其實先係 2026 年嘅真 normal。

MoE：Sparsity 嘅蜜糖同陷阱

MoE（Mixture of Experts）嘅故事又有另一層趣味。原本佢係一種 scaling 技術：將一個大模型拆成若干個「專家」sub-network，每條 input 只 activate 其中一部分。咁你就可以訓練一個總共 1T 參數嘅模型，但每次 inference 只用 100B，compute cost 同 100B dense model 差唔多。聽落好完美，係咪？

現實係：MoE 嘅 training instability 同 load balancing 問題，過去兩年令唔少團隊頭痛到飛起。你以為專家會自然學到唔同 domain，但實際上好容易出現「collapse」——全部 token 都 routing 去同一兩個專家，其他專家廢咗。Router 嘅 training 本身就係一個非微分嘅難題，要用 auxiliary loss 同 top-k gating 去勉強湊合。

仲有一個 infrastructure 層面嘅硬傷：MoE 嘅 sharding 同通信 overhead 比 dense model 大好多。你 deploy 一個 dense 7B 模型可能兩張 A100 搞得掂，但一個 MoE 7B（雖然總參數可能係 30B）需要更複雜嘅 parallel strategy，cross-device communication 可以令實際 throughput 跌返落嚟。尤其係你做 real-time inference，每多一次 all-reduce 就多幾毫秒 latency，呢啲嘢喺香港呢類高密度數據中心環境仲勉強 manage 到，但 edge 部署就幾乎唔使諗。

聰明嘅做法係：MoE 適合做 training 階段嘅 efficiency booster，inference 階段反而要考慮 distillation 返做 dense model。DeepSeek 嘅做法就係一個好示範——train 時用 MoE 慳錢，deploy 時用 routed distillation 將 knowledge 壓返落一個 manageable dense model。呢種「train-time scaling，inference-time pruning」嘅策略，先係真正 production-ready 嘅思維。

Hyena 同 Convolutional 替代：被低估嘅第三條路

相比 Mamba 同 MoE 嘅討論度，Hyena 呢類 implicit convolution 架構似乎被低估咗。佢嘅核心設計係用 learnable convolution filter 取代 attention，做到 sub-quadratic complexity 之餘，仲保留咗某種程度嘅 translation equivariance，對處理音頻、時間序列呢類結構化數據特別有利。

我最欣賞 Hyena 嘅地方係佢嘅數學 formulation 夠乾淨。相比 Mamba 需要連續 ODE solver 或者 SSM 嘅 discretization，Hyena 用 Hadamard product 同 FFT 就可以 express 晒成個 operation，對 hardware utilisation 嚟講更友善。實測話畀我哋知，喺相同 FLOP budget 下，Hyena 嘅 throughput 可以比同等 size Transformer 高 2-3 倍，尤其係長 sequence 場景。

不過 Hyena 嘅 adoption 仲未成氣候，主要原因係佢同現有 Transformer ecosystem 嘅兼容性問題。你嘅 training infra、serving framework、甚至 quantization 工具全部都係為 Transformer 設計，要轉一個全新嘅 operator 意味住你要重寫成個 stack。呢個 adoption cost 對 startup 嚟講太高，所以目前行 Hyena 嘅多數係有大 infra team 嘅 labs 或者特定 domain（音頻、bioinformatics）嘅 niche players。

對於我哋呢啲獨立開發者同細團隊，最實際嘅策略係等主流 framework 將呢啲新架構抽象化。如果 Hugging Face Transformers 同 vLLM 正式 support Mamba 同 Hyena 做 first-class citizen，到時先真正玩得過。

結語：Hybrid 策略先係唯一出路

2026 年嘅 AI 架構戰局，唔係揀贏家嘅遊戲，而係做 integration 嘅遊戲。Transformer 唔會死，但都唔會繼續做唯一主角。你見最近出嘅幾個頂級模型——Gemini 2.0、Claude 4、甚至開源嘅 Reka Core——全部都係不同程度嘅 hybrid：attention + SSM + MoE 甚至加上 sparse autoencoder，根據任務特徵動態調配 compute budget。

對我哋香港 developer 嚟講，實際行動建議好簡單：

唔好再 purist：唔好因為覺得「Transformer 先係真 AI」而唔肯試新架構。production 環境睇 latency、cost、質量三個 metric，hybrid 往往係最優解。
投資喺 abstraction layer：用 vLLM、TGI、或者自己寫嘅 lightweight inference wrapper，俾你將來換 backbone 時唔使重寫成條 pipeline。2026 年仲 hardcode 死某一種 architecture 係自殺。
專注 domain-specific optimisation：General 模型嘅 benchmark 搶住跑係大公司先做嘅嘢。你嘅優勢係知道自己個 specific use case 係 streaming、retrieval、定 creative generation，然後先決定邊種架構佔主導。

Post-Transformer 時代唔係嚟緊，係已經到咗。你嘅 architecture decision 今日做錯，聽日 infra cost 就俾你顏色睇。喺香港呢個 high-cost、high-efficiency 嘅環境，每一蚊 compute 都要用得其所。