三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

後 Transformer 時代仲有咩可能?從 Attention 作者呼籲睇下一代 AI 架構方向(entries: Post-Transformer debate)💡

後 Transformer 時代仲有咩可能?從 Attention 作者呼籲睇下一代 AI 架構方向(entries: Post-Transformer debate)💡

2025年,〈Attention Is All You Need〉八位作者之中有七位聯名發表論文,公開呼籲學界唔好再沉迷 Transformer。呢篇論文唔係提出新架構,而係一個時代嘅句號——佢哋親手寫低:Attention 係一個有用嘅元件,但唔應該係全部。消息傳出當日,我喺 Twitter 上見到唔少人用「背叛」「自我推翻」嚟形容,但如果你有跟開呢幾年嘅架構演化,你會知道呢個根本唔係背叛,而係科學家嘅誠實。Transformer 統治咗八年,由 NLP 打到電腦視覺、由語言模型打到多模態,但佢嘅根本缺陷——二次方計算複雜度、固定長度嘅 context window 限制、以及難以真正理解長程依賴——從來都未消失,只係被 scale 嘅魔力暫時遮蓋住。

從 Quadratic 到 Linear:SSM 嘅崛起唔係偶然

如果話 2024 年係 Mamba 年,2025 年就係 SSM(State Space Model)全面開花嘅一年。Transformer 嘅核心問題在於 self-attention 嘅計算量隨序列長度呈二次方增長——處理 128K tokens 嘅成本遠超 32K 嘅四倍,而唔係四倍。呢個唔單止係成本問題,仲係 scaling law 嘅結構性天花板。Albert Gu 同 Tri Dao 嘅 Mamba 系列直接挑戰呢個假設,用選擇性狀態空間模型將計算複雜度降至線性,而且喺語言建模嘅 perplexity 上已經可以同同等規模嘅 Transformer 匹敵。

但我要講嘅重點唔係邊個模型 score 高啲。更重要嘅係 SSM 代表咗一種思考範式嘅轉變:我哋唔再需要畀模型「記住」成個歷史——佢只需要一個壓縮得好嘅狀態向量,然後不斷更新。呢個諗法其實更接近人腦:你唔會每秒鐘 replay 你人生嘅每一幀畫面去理解當前發生嘅事,而係靠一個持續更新嘅內部表徵。我認為呢個先係真正嘅效率革命,而唔係單純嘅架構優化。

Hybrid 架構:現實世界唔需要 purity

有趣嘅係,2025年最大規模嘅 production 系統——包括 Anthropic 嘅 Claude 同 Google 嘅 Gemini——都唔係 pure SSM 或者 pure Transformer,而係 hybrid。呢點好值得香港嘅創業者思考。學術界鍾意「純粹」嘅解決方案:純 Attention、純 SSM、純 MoE。但現實世界嘅 constraints 係唔同嘅:你嘅 infra 已經為 Transformer 優化咗、你嘅團隊熟悉 attention 嘅 debug 方式、你嘅客戶唔關心你用咩架構——佢哋只關心 latency、cost、同 output quality。

呢度有一個具體嘅 insight:唔好追求架構上嘅 purity,要追求成本效益曲線上面嘅最優點。Mamba 同 Attention 嘅 hybrid——例如 Jamba 或者 Samba——唔係因為理論上優雅,而係因為實務上 work。Transformer 擅長嘅係「回憶」:佢可以精準噉從 context 入面提取資訊;SSM 擅長嘅係「壓縮」:佢可以用極少嘅運算捕捉長程趨勢。兩者結合,你先可以喺有限嘅計算預算下最大化模型能力。呢個 lesson 唔止 apply 去 AI 架構,apply 去任何技術決策。

Entries 嘅真正意義:架構多樣性嘅回歸

我喺標題用咗「entries」呢個 term,係因為我覺得而家嘅 debate 唔係一場 race(比賽),而係一場 entries(參賽入圍)。唔會有一個「winner-takes-all」嘅架構,而係多條路線並行發展。除咗 SSM,仲有幾條值得留意嘅路線:

BitNet 同佢嘅後續工作探索 1-bit 權重,證明 LLM 可以用極低精度運算達到可接受嘅表現。呢個對於 edge deployment 同降低推理成本有革命性意義——如果一個模型可以喺 CPU 上以接近 ASIC 嘅效率運行,成個 deployment landscape 會改變。

仲有基於 liquid neural networks 嘅架構——Ramin Hasani 嘅團隊展示咗點樣用微分方程控制嘅連續時間模型去實現比 Transformer 更細、更可解釋嘅系統。呢條路線喺 robotics 同 time-series 特別有潛力,因為本質上就係為咗處理連續數據流而設計。

另一方面,Google 嘅 Titans 架構提出咗一個巧妙嘅 compromise:將記憶分為三層——短期(attention)、長期(neural memory)、永久(參數化知識)。呢個 layer cake 嘅概念將 Transformer 嘅 context window 問題用工程手段繞過,而唔係從零推翻。

作為創業者,你應該點樣準備?

講完技術,我想講返實際行動。我見到太多 startup 喺架構選擇上犯咗兩個極端:一個係盲目跟風最新 paper,另一個係過度保守死守 Transformer。以下係我嘅建議:

第一,唔好喺呢個 moment 綁死任何單一架構。如果你緊 build 緊 foundation model 或者 heavy inference pipeline,確保你嘅 training 同 serving infra 係架構 agnostic 嘅。用抽象層隔開模型定義同執行,咁樣當新架構成熟時,你可以低成本遷移。

第二,關注 inference efficiency 多過 training efficiency。2023-2024 年嘅 narrative 係「train 一個好嘅 model」,但 2025-2026 年嘅戰場係 inference。SSM 嘅真正優勢唔係訓練快,而係推理嗰陣 memory 同 compute 嘅節省——呢個直接 translate 去做 product 時嘅單位經濟效益。

第三,作為香港團隊,你哋有個獨特優勢:你哋冇矽谷嗰種「必須用最新最勁嘅基建」嘅包袱。你可以用 hybrid 架構喺有限嘅 GPU 資源下做到同級嘅效果——唔係因為你技術特別勁,而係因為你選擇咗更有效率嘅路徑。

Transformer 唔會喺短期內消失,正如 CNN 至今仍然喺 computer vision 入面有角色。但方向已經明確咗:下一個十年嘅 AI 架構將會係多元化嘅、混合嘅、而且更注重效率多過純粹規模。呢場 entries 嘅贏家,唔係最靚嘅架構,而係最識得喺現實 constraint 下發揮創意嘅團隊。