AI 數學研究時代來了：DeepMind Agent 解 Erdos 難題

2026 年 2 月，DeepMind 團隊發表咗兩篇重磅論文，詳細披露咗一個叫 Aletheia 嘅數學研究 Agent。呢個 Agent 做咗一件以前冇人覺得 AI 可以做到嘅事： autonomously 掃描咗 Bloom 嘅 Erdős Conjectures 數據庫入面 700 條開放難題，並且自己解咗其中 4 條——唔係中學奧數嗰種有標準答案嘅題，係 Paul Erdős 生前亦都解唔到、掛住獎金嘅真·研究級數學問題。其中一條 Erdős-1051，Aletheia 唔單止自己解咗，佢嘅解法仲幫到數學家推廣出一個更一般嘅定理，最終變成一篇正式嘅研究論文（BKKKZ26）。如果你覺得 AI 只係停留在「識寫詩、識畫圖」嘅層面，呢個消息應該會令你重新審視而家嘅技術水位。

從 IMO 金牌到真·數學研究，個 threshold 過咗

先還原個 timeline。2025 年 7 月，Gemini Deep Think 喺 International Mathematical Olympiad 拎到金牌——呢度有個重要嘅 nuance：唔係「接近金牌」，係正式金牌水準，Gold-medal standard。幾個月之後，同一模型喺 ICPC 世界總決賽再拎到類似成績。呢兩個 benchmark 嘅意義在於：AI 已經能夠處理 需要真正推理嘅結構化問題，而唔係 pattern matching。

但 IMO 同真實數學研究之間存在一條巨大嘅鴻溝。IMO 問題係人為設計嘅 puzzle，理論上幾個鐘頭內有解，而且解法用到嘅知識範圍有限。研究級數學係 open-ended：你可能要啃幾十篇 paper、跨越幾個唔同嘅 subfield、試幾個月先知道條路行唔通。DeepMind 嘅 Aletheia 就係為咗跨越呢條鴻溝而設計嘅。佢嘅架構係一個 loop：Generator 產生候選證明 → Verifier 用 natural language 檢查漏洞 → 如果有問題就 Reviser 修改，或者成個推倒重來。關鍵係佢會 admit failure——呢點好重要，因為研究數學嘅本質就係不斷試錯。

結果？喺 IMO-ProofBench Advanced 上，Aletheia 由 2025 年 7 月版本嘅約 60% 推到 2026 年 1 月版本嘅 90%，而且 scaling law 繼續 hold——inference-time compute 愈多，分數愈高。更重要嘅係，呢條 scaling law 喺 PhD-level 嘅 FutureMath Basic benchmark 上亦都成立，由 0% 推到接近 40%。呢個唔係 linear improvement，係 paradigm shift。

Erdos 問題唔係象徵意義——佢哋係真嘅硬骨頭

Paul Erdős 係 20 世紀最多產嘅數學家之一，佢生前提出咗上千條猜想，好多到而家都未解。佢出名鍾意用 monetary rewards 嚟激勵人解題，金額由幾十到幾千美金不等。Bloom 嘅 Erdos Conjectures 數據庫將呢啲問題系統化，變成一個可供 AI 掃描嘅結構化數據集。

Aletheia 嘅成果係咁樣分類嘅：Level 0（完全自主）包括 Erdős-652、654、1040——呢三條由 AI 自己搞掂，數學家只係做驗證。Level 1（自主，但有 significant novelty）係 Erdős-1051，呢條嘅解法仲衍生出一篇正式嘅合作論文。Level 2（可發表質素）就包括多篇有人類+AI 協作嘅 paper，例如計算 arithmetic geometry 入面 eigenweights 嘅結構常數——呢篇 Feng26 係完全由 AI 生成嘅研究論文，冇任何人類干預。

呢度有個好重要嘅 insight：AI 唔係取代數學家，係大幅降低咗探索嘅 marginal cost。以前一條開放難題，你可能要花幾個月甚至幾年先敢試。而家數學家可以叫 Aletheia 先跑一轉，睇下有冇可能嘅 approach，再決定值唔值得自己落場。呢個 workflow 同軟件開發入面用 AI 做 boilerplate code generation 本質上一樣——只不過呢度嘅「boilerplate」係 lemmas 同 candidate proofs。

AlphaEvolve、Scout 同 Math Puzzle：Agent 生態開始成形

除咗 Aletheia，DeepMind 過去一年仲 release 咗幾個相關嘅成果。AlphaEvolve 係一個 powered by Gemini 嘅 coding agent，專攻 algorithm design——佢喺 Bruhat intervals 嘅研究入面建議咗一個 permutation pattern，數學家跟住呢個 pattern 先意識到背後嘅 general structure，最終寫成一篇正式嘅數學論文。呢個案例展示咗一個新嘅研究模式：AI propose → 人類 mathematician 理解同 generalize → 共同 publish。

另一邊廂，DeepMind 嘅 Scout 項目喺 Math Puzzle 層面都做咗唔少進展，特別係 puzzle 嘅 combinatorial search 同 constraint satisfaction 問題。呢啲能力雖然未去到 Aletheia 嘅 level，但佢哋代表咗一條 pipeline：puzzle → structured reasoning → formal proof。當愈來愈多呢類 task-specific agent 出現，數學研究嘅 infrastructure 會慢慢被重寫。

對開發者嚟講，呢個趨勢嘅啟示係：Agentic workflow 唔係 hype，係 real。Aletheia 嘅核心架構——Generate → Verify → Revise loop——同我哋寫 code 用嘅 test-driven development 極度相似。如果呢個 pattern 喺數學呢個最 hardcore 嘅 reasoning domain work，咁喺其他 domain（法律分析、金融建模、系統架構設計）只會更快落地。香港嘅 startup 團隊應該留意：open source 層面已經有類似嘅 agent framework（LangGraph、CrewAI、AutoGen），部署呢類 iterative reasoning agent 嘅 barrier 愈來愈低。

面對呢個拐點，創業者同開發者應該點做

好，講完宏觀趨勢，講啲具體行動點。

第一，認真對待「AI agent 作為 reasoning 夥伴」呢個概念。而家好多團隊用 LLM 仲停留喺「chatbot + RAG」嘅階段——問一個問題，等一個答案。Aletheia 嘅設計話畀我哋知，真正嘅 agent 係 iterative、self-correcting、可以 admit failure 嘅。如果你嘅 product 涉及到複雜嘅 decision-making（例如合約審查、供應鏈優化、投資策略），諗下點樣引入呢種 generate-verify-revise loop，而唔係一次性 output。

第二，留意 inference-time compute scaling 嘅商業意義。OpenAI 嘅 o1/o3、Gemini Deep Think 呢類「慢思考」模型正在改變 cost structure。問題愈難，你願意花嘅 compute 愈多，output quality 就會愈高。呢個意味住：以前因為 reasoning quality 唔夠而唔可以用 AI 解決嘅問題，而家變到 feasible。對於做 niche B2B SaaS 嘅香港團隊，呢個係好大嘅機會——你嘅競爭對手可能仲用緊即答模式。

第三，Bloom Erdos Conjectures 數據庫嘅案例教訓我哋：domain-specific benchmark + 結構化數據係解鎖 AI 能力嘅關鍵。如果你嘅 startup 想做 AI 落地，第一個 step 唔係 train 一個大模型，係將你 domain 入面嘅問題結構化、benchmarkable。Aletheia 之所以 work，係因為 Erdos 問題已經被 Thomas Bloom 整理成一個 machine-readable 嘅數據庫。你有冇為你個行業做過類似嘅嘢？

最後，唔好低估 open source 生態嘅追趕速度。DeepMind 將 Aletheia 嘅 prompts、outputs、同 interaction cards 全部 open source 咗（github.com/google-deepmind/superhuman）。呢個意味住你唔需要自己 train 一個 Gemini Deep Think，你可以用呢個 pattern 去優化你喺 open source model 上面嘅 reasoning pipeline。而家 LLM 嘅 reasoning capability 已經到咗一個 threshold，差嘅只係應用層面嘅 engineering 同 domain adaptation。

總結

Paul Erdős 生前常說，數學家嘅工作係「證明同猜想嘅無限遊戲」。而家 AI 第一次真正加入咗呢個遊戲。Aletheia 解咗 4 條 Erdos 難題，發表咗一篇完全自主嘅研究論文，仲幫人類數學家突破咗幾個 bottleneck——呢啲唔係 demo，係已發表、已驗證嘅成果。對香港嘅開發者同創業者嚟講，呢個訊號好清晰：AI 唔再只係 content generator，佢變成咗 reasoning engine。你嘅 product 同 workflow 準備好未？