後 Transformer 時代：Attention Is All You Need 作者自己推翻自己，架構之爭對你有咩影響？ (entry: post-transformer) 🔥💡

Transformer 統治 AI 世界八年之後，一個弔詭嘅事實浮出水面：寫出 “Attention Is All You Need” 嘅八位作者，已經全部離開 Google，無一個繼續死守 Transformer。佢哋各自創辦嘅公司——Adept AI、Essential AI、Character.ai、Sakana AI——無一例外正在探索 Transformer 以外嘅路徑。當創造者自己都選擇離開，你係咪仲要將全部賭注押喺一個正在被超越嘅架構上？

作者叛逃之後：Transformer 嘅創造者們去咗邊

2017 年嗰篇改寫 AI 歷史嘅論文，八位共同作者嘅命運係一個強烈信號。Ashish Vaswani 同 Niki Parmar 創立了 Adept AI，做緊 agent 產品，背後用嘅模型架構已經唔係 pure Transformer。Noam Shazeer 創立 Character.ai，雖然仲用 Transformer，但佢哋喺推理效率上做咗大量架構層面嘅改造。Llion Jones 在日本創立 Sakana AI，研究方向係「進化嘅深度學習」，嘗試用 evolutionary algorithm 自動發現新嘅神經網路架構——佢哋最近發表嘅論文直接挑戰 Transformer 嘅核心假設。

Illia Polosukhin 創立了 NEAR Protocol——對，你冇睇錯，佢直接轉行做 blockchain。Aidan Gomez 創立 Cohere，Jakob Uszkoreit 去咗 Inceptive（生物科技 + AI），Łukasz Kaiser 加入 OpenAI。呢個 pattern 好清楚：Transformer 嘅發明者們用行動話俾我哋知，呢個架構唔係終點，而係起點。佢哋全部喺尋找更有效嘅替代方案。

新架構大混戰：Mamba、RWKV、xLSTM 點樣顛覆遊戲規則

2024 年至 2026 年，AI 架構領域出現咗一場前所未有嘅百花齊放。最矚目嘅係 Mamba——由 CMU 嘅 Albert Gu 同 Tri Dao 提出嘅 State Space Model（SSM）。Mamba 嘅核心突破係做到同 Transformer 一樣好甚至更好嘅語言理解能力，但運算複雜度從 O(n²) 降到 O(n)。呢個唔係小修小改，而係數量級嘅顛覆。對於 run production 嘅開發者嚟講，Mamba 意味住同樣嘅預算可以處理 10 倍長嘅上下文，或者同樣嘅上下文只需要 10% 嘅 compute。

RWKV 帶嚟另一個有趣嘅方向：將 RNN 嘅線性複雜度同 Transformer 嘅訓練並行能力結合。佢唔係 Attention，而係一種叫做「Receptance Weighted Key Value」嘅機制。對於邊際成本好敏感嘅 indie developer 嚟講，RWKV 嘅最大賣點係你甚至可以用 CPU 來做 inference——唔需要 GPU。

Sepp Hochreiter 本人——LSTM 嘅發明者——喺 2024 年發表咗 xLSTM，直接衝返嚟挑戰 Transformer。佢嘅論點好直接：Transformer 嘅 quadratic attention 根本上係 inefficient，而改進版 LSTM 可以做到同等能力但更高效。呢個某程度上係一次「回歸經典」，但也證明咗業界對新架構嘅渴求已經到咗一個臨界點。

對香港開發者同創業者嘅具體影響

講到呢度你可能會問：關我咩事？好簡單，架構之爭直接影響你條 budget 同條 product roadmap。

如果你係做 AI SaaS startup，Transformer 嘅運算成本係你 burn rate 嘅最大元兇之一。Mamba 或者 RWKV 嘅出現意味住你而家有更低成本嘅選擇。特別係做長文檔處理（法律合約、醫療記錄、金融報告）嘅團隊，Mamba 嘅線性複雜度俾到你以前 Transformer 俾唔到嘅上下文長度。

如果你係做 edge device 或 mobile AI，Transformer 嘅記憶體佔用一直係死症。而家 xLSTM 同 Mamba 嘅輕量化版本可以喺手機上 run 到以前要 cloud 先 run 到嘅模型。呢個打開咗一個全新嘅 product category——真正嘅 on-device AI agent。

如果你係獨立開發者，而家係最佳時機去學習同實驗新架構。Transformer 嘅生態雖然成熟（HuggingFace、vLLM、TGI 全部 support Transformer），但 Mamba 同 RWKV 嘅 tooling 正喺度急速成熟。早期 adopt 嘅優勢係——當競爭對手仲喺度同 GPU cost 搏鬥，你已經用 1/10 嘅成本做到一樣嘅嘢。

唔好再將「Attention Is All You Need」當聖經

Transformer 係一個 brilliant breakthrough，但佢唔係 final answer。八位作者嘅路徑已經話俾我哋知：進步來自質疑主流，而非盲從主流。如果你嘅技術棧仲係死死跟住三年前嘅最佳實踐，你唔係 in good company——你係 in slow company。

具體行動建議：

今個月至少試玩一個非 Transformer 模型（Mamba、RWKV、或 xLSTM）
用你嘅實際 dataset 做 A/B benchmark，唔好信 paper 嘅 benchmark
留意 inferencing cost 嘅下降趨勢，重新計算你條 unit economics
Follow 架構論文（follow Albert Gu、Tri Dao、同各大 lab），唔好剩係 follow application layer

後 Transformer 時代唔係理論問題，而係你聽朝起身要落嘅 decision。做好準備，因為成本下降同能力上升嘅組合，正正係 disruptive innovation 嘅最佳土壤。