2026 AI 架構大亂鬥:Post-Transformer 時代點部署?
引言:Attention Is All You Need——但係唔夠
2026 年仲嗌「Attention Is All You Need」嘅人,大概仲未望過真正 production 環境個 cost column。Transformer 統治咗成個 NLP 時代,由 BERT 到 GPT-4 都係佢嘅變奏,但去到某個 scale,self-attention 嘅 O(n²) complexity 係一條物理天花。你逐個 token 同每個之前嘅 token 做 attention,sequence length 一拉長,compute budget 就炸——呢個唔係 optimisation 問題,係 computational geometry 問題。
同期冒出嚟嘅替代架構:SSM(State Space Models)以 Mamba 為代表,MoE(Mixture of Experts)用 sparse activation 改寫 efficiency 嘅定義,仲有 Hyena 呢類用 implicit convolution 做 substitution 嘅新派。每一條路線都聲稱自己係 transformer killer,但現實係——2026 年嘅最佳實踐,唔係揀邊個贏,而係點樣溝埋一齊用。
Mamba 同 State Space Models:高效但有限制
SSM 嘅核心 insight 好優雅:用一個連續嘅 state space representation 取代離散嘅 attention matrix。Mamba 將呢個概念推到極致,做到 O(n) 嘅 inference complexity,意味住你可以處理 100K、1M token 嘅 context window 而唔使炸 GPU memory。對於我呢類做 real-time streaming 應用嘅 developer 嚟講,呢個係 game changer——你終於可以喺 edge device 上面 run 到長 context 嘅模型,而唔使 cut sequence 或者用 sliding window 偷雞。
但係凡事有代價。SSM 喺長期依賴嘅捕捉上,始終同 full attention 有差距。實測出嚟嘅結果係:在 retrieval 同埋 long-range reasoning 任務上,純 Mamba 模型會比同等 size 嘅 Transformer 差 3-5%。唔係話唔用得,而係你要清楚知道 trade-off。你寫一個聊天 bot,用戶講完一句嘢你 immediately 回應,SSM 嘅 latency advantage 完全 cover 到任何 quality 嘅微小損失。但你做 document-level QA,要從 500 頁 PDF 入面抽一個具體事實出嚟,pure SSM 就會開始露餡。
所以業界嘅方向已經好明顯:將 SSM 同 attention 層混合。Jamba 呢類模型就係典型例子——每隔幾層插入一次 attention layer,其他用 SSM,既保留長 context 嘅效率,又唔會失去關鍵嘅 recall 能力。呢個 hybrid 思維,其實先係 2026 年嘅真 normal。
MoE:Sparsity 嘅蜜糖同陷阱
MoE(Mixture of Experts)嘅故事又有另一層趣味。原本佢係一種 scaling 技術:將一個大模型拆成若干個「專家」sub-network,每條 input 只 activate 其中一部分。咁你就可以訓練一個總共 1T 參數嘅模型,但每次 inference 只用 100B,compute cost 同 100B dense model 差唔多。聽落好完美,係咪?
現實係:MoE 嘅 training instability 同 load balancing 問題,過去兩年令唔少團隊頭痛到飛起。你以為專家會自然學到唔同 domain,但實際上好容易出現「collapse」——全部 token 都 routing 去同一兩個專家,其他專家廢咗。Router 嘅 training 本身就係一個非微分嘅難題,要用 auxiliary loss 同 top-k gating 去勉強湊合。
仲有一個 infrastructure 層面嘅硬傷:MoE 嘅 sharding 同通信 overhead 比 dense model 大好多。你 deploy 一個 dense 7B 模型可能兩張 A100 搞得掂,但一個 MoE 7B(雖然總參數可能係 30B)需要更複雜嘅 parallel strategy,cross-device communication 可以令實際 throughput 跌返落嚟。尤其係你做 real-time inference,每多一次 all-reduce 就多幾毫秒 latency,呢啲嘢喺香港呢類高密度數據中心環境仲勉強 manage 到,但 edge 部署就幾乎唔使諗。
聰明嘅做法係:MoE 適合做 training 階段嘅 efficiency booster,inference 階段反而要考慮 distillation 返做 dense model。DeepSeek 嘅做法就係一個好示範——train 時用 MoE 慳錢,deploy 時用 routed distillation 將 knowledge 壓返落一個 manageable dense model。呢種「train-time scaling,inference-time pruning」嘅策略,先係真正 production-ready 嘅思維。
Hyena 同 Convolutional 替代:被低估嘅第三條路
相比 Mamba 同 MoE 嘅討論度,Hyena 呢類 implicit convolution 架構似乎被低估咗。佢嘅核心設計係用 learnable convolution filter 取代 attention,做到 sub-quadratic complexity 之餘,仲保留咗某種程度嘅 translation equivariance,對處理音頻、時間序列呢類結構化數據特別有利。
我最欣賞 Hyena 嘅地方係佢嘅數學 formulation 夠乾淨。相比 Mamba 需要連續 ODE solver 或者 SSM 嘅 discretization,Hyena 用 Hadamard product 同 FFT 就可以 express 晒成個 operation,對 hardware utilisation 嚟講更友善。實測話畀我哋知,喺相同 FLOP budget 下,Hyena 嘅 throughput 可以比同等 size Transformer 高 2-3 倍,尤其係長 sequence 場景。
不過 Hyena 嘅 adoption 仲未成氣候,主要原因係佢同現有 Transformer ecosystem 嘅兼容性問題。你嘅 training infra、serving framework、甚至 quantization 工具全部都係為 Transformer 設計,要轉一個全新嘅 operator 意味住你要重寫成個 stack。呢個 adoption cost 對 startup 嚟講太高,所以目前行 Hyena 嘅多數係有大 infra team 嘅 labs 或者特定 domain(音頻、bioinformatics)嘅 niche players。
對於我哋呢啲獨立開發者同細團隊,最實際嘅策略係等主流 framework 將呢啲新架構抽象化。如果 Hugging Face Transformers 同 vLLM 正式 support Mamba 同 Hyena 做 first-class citizen,到時先真正玩得過。
結語:Hybrid 策略先係唯一出路
2026 年嘅 AI 架構戰局,唔係揀贏家嘅遊戲,而係做 integration 嘅遊戲。Transformer 唔會死,但都唔會繼續做唯一主角。你見最近出嘅幾個頂級模型——Gemini 2.0、Claude 4、甚至開源嘅 Reka Core——全部都係不同程度嘅 hybrid:attention + SSM + MoE 甚至加上 sparse autoencoder,根據任務特徵動態調配 compute budget。
對我哋香港 developer 嚟講,實際行動建議好簡單:
- 唔好再 purist:唔好因為覺得「Transformer 先係真 AI」而唔肯試新架構。production 環境睇 latency、cost、質量三個 metric,hybrid 往往係最優解。
- 投資喺 abstraction layer:用 vLLM、TGI、或者自己寫嘅 lightweight inference wrapper,俾你將來換 backbone 時唔使重寫成條 pipeline。2026 年仲 hardcode 死某一種 architecture 係自殺。
- 專注 domain-specific optimisation:General 模型嘅 benchmark 搶住跑係大公司先做嘅嘢。你嘅優勢係知道自己個 specific use case 係 streaming、retrieval、定 creative generation,然後先決定邊種架構佔主導。
Post-Transformer 時代唔係嚟緊,係已經到咗。你嘅 architecture decision 今日做錯,聽日 infra cost 就俾你顏色睇。喺香港呢個 high-cost、high-efficiency 嘅環境,每一蚊 compute 都要用得其所。