三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

AI 數學研究時代來了:DeepMind Agent 解 Erdos 難題

AI 數學研究時代來了:DeepMind Agent 解 Erdos 難題

2026 年 2 月,DeepMind 團隊發表咗兩篇重磅論文,詳細披露咗一個叫 Aletheia 嘅數學研究 Agent。呢個 Agent 做咗一件以前冇人覺得 AI 可以做到嘅事: autonomously 掃描咗 Bloom 嘅 Erdős Conjectures 數據庫入面 700 條開放難題,並且自己解咗其中 4 條——唔係中學奧數嗰種有標準答案嘅題,係 Paul Erdős 生前亦都解唔到、掛住獎金嘅真·研究級數學問題。其中一條 Erdős-1051,Aletheia 唔單止自己解咗,佢嘅解法仲幫到數學家推廣出一個更一般嘅定理,最終變成一篇正式嘅研究論文(BKKKZ26)。如果你覺得 AI 只係停留在「識寫詩、識畫圖」嘅層面,呢個消息應該會令你重新審視而家嘅技術水位。

從 IMO 金牌到真·數學研究,個 threshold 過咗

先還原個 timeline。2025 年 7 月,Gemini Deep Think 喺 International Mathematical Olympiad 拎到金牌——呢度有個重要嘅 nuance:唔係「接近金牌」,係正式金牌水準,Gold-medal standard。幾個月之後,同一模型喺 ICPC 世界總決賽再拎到類似成績。呢兩個 benchmark 嘅意義在於:AI 已經能夠處理 需要真正推理嘅結構化問題,而唔係 pattern matching。

但 IMO 同真實數學研究之間存在一條巨大嘅鴻溝。IMO 問題係人為設計嘅 puzzle,理論上幾個鐘頭內有解,而且解法用到嘅知識範圍有限。研究級數學係 open-ended:你可能要啃幾十篇 paper、跨越幾個唔同嘅 subfield、試幾個月先知道條路行唔通。DeepMind 嘅 Aletheia 就係為咗跨越呢條鴻溝而設計嘅。佢嘅架構係一個 loop:Generator 產生候選證明 → Verifier 用 natural language 檢查漏洞 → 如果有問題就 Reviser 修改,或者成個推倒重來。關鍵係佢會 admit failure——呢點好重要,因為研究數學嘅本質就係不斷試錯。

結果?喺 IMO-ProofBench Advanced 上,Aletheia 由 2025 年 7 月版本嘅約 60% 推到 2026 年 1 月版本嘅 90%,而且 scaling law 繼續 hold——inference-time compute 愈多,分數愈高。更重要嘅係,呢條 scaling law 喺 PhD-level 嘅 FutureMath Basic benchmark 上亦都成立,由 0% 推到接近 40%。呢個唔係 linear improvement,係 paradigm shift。

Erdos 問題唔係象徵意義——佢哋係真嘅硬骨頭

Paul Erdős 係 20 世紀最多產嘅數學家之一,佢生前提出咗上千條猜想,好多到而家都未解。佢出名鍾意用 monetary rewards 嚟激勵人解題,金額由幾十到幾千美金不等。Bloom 嘅 Erdos Conjectures 數據庫將呢啲問題系統化,變成一個可供 AI 掃描嘅結構化數據集。

Aletheia 嘅成果係咁樣分類嘅:Level 0(完全自主)包括 Erdős-652、654、1040——呢三條由 AI 自己搞掂,數學家只係做驗證。Level 1(自主,但有 significant novelty)係 Erdős-1051,呢條嘅解法仲衍生出一篇正式嘅合作論文。Level 2(可發表質素)就包括多篇有人類+AI 協作嘅 paper,例如計算 arithmetic geometry 入面 eigenweights 嘅結構常數——呢篇 Feng26 係完全由 AI 生成嘅研究論文,冇任何人類干預。

呢度有個好重要嘅 insight:AI 唔係取代數學家,係大幅降低咗探索嘅 marginal cost。以前一條開放難題,你可能要花幾個月甚至幾年先敢試。而家數學家可以叫 Aletheia 先跑一轉,睇下有冇可能嘅 approach,再決定值唔值得自己落場。呢個 workflow 同軟件開發入面用 AI 做 boilerplate code generation 本質上一樣——只不過呢度嘅「boilerplate」係 lemmas 同 candidate proofs。

AlphaEvolve、Scout 同 Math Puzzle:Agent 生態開始成形

除咗 Aletheia,DeepMind 過去一年仲 release 咗幾個相關嘅成果。AlphaEvolve 係一個 powered by Gemini 嘅 coding agent,專攻 algorithm design——佢喺 Bruhat intervals 嘅研究入面建議咗一個 permutation pattern,數學家跟住呢個 pattern 先意識到背後嘅 general structure,最終寫成一篇正式嘅數學論文。呢個案例展示咗一個新嘅研究模式:AI propose → 人類 mathematician 理解同 generalize → 共同 publish。

另一邊廂,DeepMind 嘅 Scout 項目喺 Math Puzzle 層面都做咗唔少進展,特別係 puzzle 嘅 combinatorial search 同 constraint satisfaction 問題。呢啲能力雖然未去到 Aletheia 嘅 level,但佢哋代表咗一條 pipeline:puzzle → structured reasoning → formal proof。當愈來愈多呢類 task-specific agent 出現,數學研究嘅 infrastructure 會慢慢被重寫。

對開發者嚟講,呢個趨勢嘅啟示係:Agentic workflow 唔係 hype,係 real。Aletheia 嘅核心架構——Generate → Verify → Revise loop——同我哋寫 code 用嘅 test-driven development 極度相似。如果呢個 pattern 喺數學呢個最 hardcore 嘅 reasoning domain work,咁喺其他 domain(法律分析、金融建模、系統架構設計)只會更快落地。香港嘅 startup 團隊應該留意:open source 層面已經有類似嘅 agent framework(LangGraph、CrewAI、AutoGen),部署呢類 iterative reasoning agent 嘅 barrier 愈來愈低。

面對呢個拐點,創業者同開發者應該點做

好,講完宏觀趨勢,講啲具體行動點。

第一,認真對待「AI agent 作為 reasoning 夥伴」呢個概念。而家好多團隊用 LLM 仲停留喺「chatbot + RAG」嘅階段——問一個問題,等一個答案。Aletheia 嘅設計話畀我哋知,真正嘅 agent 係 iterative、self-correcting、可以 admit failure 嘅。如果你嘅 product 涉及到複雜嘅 decision-making(例如合約審查、供應鏈優化、投資策略),諗下點樣引入呢種 generate-verify-revise loop,而唔係一次性 output。

第二,留意 inference-time compute scaling 嘅商業意義。OpenAI 嘅 o1/o3、Gemini Deep Think 呢類「慢思考」模型正在改變 cost structure。問題愈難,你願意花嘅 compute 愈多,output quality 就會愈高。呢個意味住:以前因為 reasoning quality 唔夠而唔可以用 AI 解決嘅問題,而家變到 feasible。對於做 niche B2B SaaS 嘅香港團隊,呢個係好大嘅機會——你嘅競爭對手可能仲用緊即答模式。

第三,Bloom Erdos Conjectures 數據庫嘅案例教訓我哋:domain-specific benchmark + 結構化數據係解鎖 AI 能力嘅關鍵。如果你嘅 startup 想做 AI 落地,第一個 step 唔係 train 一個大模型,係將你 domain 入面嘅問題結構化、benchmarkable。Aletheia 之所以 work,係因為 Erdos 問題已經被 Thomas Bloom 整理成一個 machine-readable 嘅數據庫。你有冇為你個行業做過類似嘅嘢?

最後,唔好低估 open source 生態嘅追趕速度。DeepMind 將 Aletheia 嘅 prompts、outputs、同 interaction cards 全部 open source 咗(github.com/google-deepmind/superhuman)。呢個意味住你唔需要自己 train 一個 Gemini Deep Think,你可以用呢個 pattern 去優化你喺 open source model 上面嘅 reasoning pipeline。而家 LLM 嘅 reasoning capability 已經到咗一個 threshold,差嘅只係應用層面嘅 engineering 同 domain adaptation。

總結

Paul Erdős 生前常說,數學家嘅工作係「證明同猜想嘅無限遊戲」。而家 AI 第一次真正加入咗呢個遊戲。Aletheia 解咗 4 條 Erdos 難題,發表咗一篇完全自主嘅研究論文,仲幫人類數學家突破咗幾個 bottleneck——呢啲唔係 demo,係已發表、已驗證嘅成果。對香港嘅開發者同創業者嚟講,呢個訊號好清晰:AI 唔再只係 content generator,佢變成咗 reasoning engine。你嘅 product 同 workflow 準備好未?