後 Transformer 時代仲有咩可能？從 Attention 作者呼籲睇下一代 AI 架構方向（entries: Post-Transformer debate）💡

2025年，〈Attention Is All You Need〉八位作者之中有七位聯名發表論文，公開呼籲學界唔好再沉迷 Transformer。呢篇論文唔係提出新架構，而係一個時代嘅句號——佢哋親手寫低：Attention 係一個有用嘅元件，但唔應該係全部。消息傳出當日，我喺 Twitter 上見到唔少人用「背叛」「自我推翻」嚟形容，但如果你有跟開呢幾年嘅架構演化，你會知道呢個根本唔係背叛，而係科學家嘅誠實。Transformer 統治咗八年，由 NLP 打到電腦視覺、由語言模型打到多模態，但佢嘅根本缺陷——二次方計算複雜度、固定長度嘅 context window 限制、以及難以真正理解長程依賴——從來都未消失，只係被 scale 嘅魔力暫時遮蓋住。

從 Quadratic 到 Linear：SSM 嘅崛起唔係偶然

如果話 2024 年係 Mamba 年，2025 年就係 SSM（State Space Model）全面開花嘅一年。Transformer 嘅核心問題在於 self-attention 嘅計算量隨序列長度呈二次方增長——處理 128K tokens 嘅成本遠超 32K 嘅四倍，而唔係四倍。呢個唔單止係成本問題，仲係 scaling law 嘅結構性天花板。Albert Gu 同 Tri Dao 嘅 Mamba 系列直接挑戰呢個假設，用選擇性狀態空間模型將計算複雜度降至線性，而且喺語言建模嘅 perplexity 上已經可以同同等規模嘅 Transformer 匹敵。

但我要講嘅重點唔係邊個模型 score 高啲。更重要嘅係 SSM 代表咗一種思考範式嘅轉變：我哋唔再需要畀模型「記住」成個歷史——佢只需要一個壓縮得好嘅狀態向量，然後不斷更新。呢個諗法其實更接近人腦：你唔會每秒鐘 replay 你人生嘅每一幀畫面去理解當前發生嘅事，而係靠一個持續更新嘅內部表徵。我認為呢個先係真正嘅效率革命，而唔係單純嘅架構優化。

Hybrid 架構：現實世界唔需要 purity

有趣嘅係，2025年最大規模嘅 production 系統——包括 Anthropic 嘅 Claude 同 Google 嘅 Gemini——都唔係 pure SSM 或者 pure Transformer，而係 hybrid。呢點好值得香港嘅創業者思考。學術界鍾意「純粹」嘅解決方案：純 Attention、純 SSM、純 MoE。但現實世界嘅 constraints 係唔同嘅：你嘅 infra 已經為 Transformer 優化咗、你嘅團隊熟悉 attention 嘅 debug 方式、你嘅客戶唔關心你用咩架構——佢哋只關心 latency、cost、同 output quality。

呢度有一個具體嘅 insight：唔好追求架構上嘅 purity，要追求成本效益曲線上面嘅最優點。Mamba 同 Attention 嘅 hybrid——例如 Jamba 或者 Samba——唔係因為理論上優雅，而係因為實務上 work。Transformer 擅長嘅係「回憶」：佢可以精準噉從 context 入面提取資訊；SSM 擅長嘅係「壓縮」：佢可以用極少嘅運算捕捉長程趨勢。兩者結合，你先可以喺有限嘅計算預算下最大化模型能力。呢個 lesson 唔止 apply 去 AI 架構，apply 去任何技術決策。

Entries 嘅真正意義：架構多樣性嘅回歸

我喺標題用咗「entries」呢個 term，係因為我覺得而家嘅 debate 唔係一場 race（比賽），而係一場 entries（參賽入圍）。唔會有一個「winner-takes-all」嘅架構，而係多條路線並行發展。除咗 SSM，仲有幾條值得留意嘅路線：

BitNet 同佢嘅後續工作探索 1-bit 權重，證明 LLM 可以用極低精度運算達到可接受嘅表現。呢個對於 edge deployment 同降低推理成本有革命性意義——如果一個模型可以喺 CPU 上以接近 ASIC 嘅效率運行，成個 deployment landscape 會改變。

仲有基於 liquid neural networks 嘅架構——Ramin Hasani 嘅團隊展示咗點樣用微分方程控制嘅連續時間模型去實現比 Transformer 更細、更可解釋嘅系統。呢條路線喺 robotics 同 time-series 特別有潛力，因為本質上就係為咗處理連續數據流而設計。

另一方面，Google 嘅 Titans 架構提出咗一個巧妙嘅 compromise：將記憶分為三層——短期（attention）、長期（neural memory）、永久（參數化知識）。呢個 layer cake 嘅概念將 Transformer 嘅 context window 問題用工程手段繞過，而唔係從零推翻。

作為創業者，你應該點樣準備？

講完技術，我想講返實際行動。我見到太多 startup 喺架構選擇上犯咗兩個極端：一個係盲目跟風最新 paper，另一個係過度保守死守 Transformer。以下係我嘅建議：

第一，唔好喺呢個 moment 綁死任何單一架構。如果你緊 build 緊 foundation model 或者 heavy inference pipeline，確保你嘅 training 同 serving infra 係架構 agnostic 嘅。用抽象層隔開模型定義同執行，咁樣當新架構成熟時，你可以低成本遷移。

第二，關注 inference efficiency 多過 training efficiency。2023-2024 年嘅 narrative 係「train 一個好嘅 model」，但 2025-2026 年嘅戰場係 inference。SSM 嘅真正優勢唔係訓練快，而係推理嗰陣 memory 同 compute 嘅節省——呢個直接 translate 去做 product 時嘅單位經濟效益。

第三，作為香港團隊，你哋有個獨特優勢：你哋冇矽谷嗰種「必須用最新最勁嘅基建」嘅包袱。你可以用 hybrid 架構喺有限嘅 GPU 資源下做到同級嘅效果——唔係因為你技術特別勁，而係因為你選擇咗更有效率嘅路徑。

Transformer 唔會喺短期內消失，正如 CNN 至今仍然喺 computer vision 入面有角色。但方向已經明確咗：下一個十年嘅 AI 架構將會係多元化嘅、混合嘅、而且更注重效率多過純粹規模。呢場 entries 嘅贏家，唔係最靚嘅架構，而係最識得喺現實 constraint 下發揮創意嘅團隊。