DeepMind 用 AI agent 解開 9 道 Erdos 數學題:科研 automation 嘅未來已嚟? (entry: DeepMind agent) 💡
如果你仲覺得 AI 只係識得幫你寫電郵、生成圖像、或者抄幾行 boilerplate code,咁 DeepMind 上星期公佈嘅結果應該會令你重新思考。一個由大型語言模型驅動嘅 AI agent,系統性地解開了 9 道來自 Erdős 研究所嘅經典數學問題——唔係計算題,而係真正需要創造性思維、構造性證明、甚至係組合數學中困擾人類研究者多年嘅開放式難題。呢個唔係「AI 做咗人哋嘅功課」,而係 AI 開始做「人哋唔知點做」嘅嘢。
從「計數機」到「解題者」:AI 在數學定位上嘅根本轉變
傳統上,電腦喺數學入面嘅角色不外乎兩種:一是高速運算嘅計數機,做 numeric computation;二是符號運算嘅輔助工具,好似 Mathematica 或者 Maple 咁。呢啲工具好有用,但它們嘅本質係「被動嘅」——你俾咗演算法,佢先會行。用軟件工程嘅術語講,呢啲系統係 deterministic,output 完全由 input 同程式邏輯決定。
DeepMind 呢個 agent 嘅突破性在於,佢唔再係被動執行指令,而係主動探索解題路徑。用技術術語嚟講,呢個系統結合了大型語言模型嘅語義理解能力同強化學習嘅決策框架。畀咗一條 Erdős 問題之後,agent 會自己嘗試唔同嘅數學變換、構造反例、提出猜想、然後驗證。行唔通嘅路就 backtrack,搵到線索就深入挖掘——呢個過程同人類數學家做研究嘅方式極度相似。
更重要嘅係,呢個 agent 唔係靠 memorization 去做題。Erdős 問題之所以出名,正正係因為佢哋設計精巧、唔容易靠死記硬背或者 pattern matching 去解決。每一題都需要獨特嘅 insight。當 agent 能夠喺呢個層面上成功,意味住我哋見到嘅唔係「更大嘅數據庫」,而係「嶄新嘅推理能力」。
尤其值得留意嘅係 agent 嘅「策略遷移」能力——佢喺解某一類問題時學到嘅解題策略,能夠應用喺看似唔關連嘅另一類問題上。呢種橫向遷移,一直以嚟被認為係人類智慧嘅重要標誌,而家 AI 開始展現類似嘅特質。
九道題目背後:Erdős 問題點解對 AI 特別有意義
Paul Erdős 係二十世紀最傳奇嘅數學家之一,一生寫咗大約 1500 篇論文,同超過 500 位合作者聯名發表。佢最出名嘅其中一個貢獻,就係佢提出嘅大量開放式問題——呢啲問題通常表面睇落簡單,甚至中學生都明到題目講乜,但係解決起來就需要極深嘅數學洞察。
Erdős 問題嘅呢個特性,令到佢哋成為測試 AI 數學推理能力嘅完美基準。一般嘅數學 benchmark,好似 GSM8K 或者 MATH,測試嘅係已知解法嘅問題——模型理論上可以從訓練數據入面見過類似做法。但 Erdős 問題嘅設計本身就係「冇見過嘅」,每一題都需要從基本原則出發構造解法。
DeepMind 揀選嘅 9 道問題涵蓋咗數論、組合數學、圖論同機率論幾個範疇。其中一題係關於整數序列嘅構造問題:對於任意正整數 n,能否構造一個 n 項嘅整數序列,使得所有連續子序列嘅總和都係完全平方數?呢類問題嘅難處在於,你唔只係要證明存在性,仲要實際俾出構造方法。Agent 嘅解法用咗中國剩餘定理同二次剩餘嘅巧妙組合——呢個唔係暴力搜尋可以搵到嘅答案,而係真正嘅數學創造。
另一題有關 Ramsey 理論嘅問題亦值得一提。Ramsey 數嘅計算本身就係出名難嘅問題,agent 喺呢題上展現咗極強嘅抽象能力:佢唔係直接計算 Ramsey 數(呢個基本上唔可行),而係通過對稱性分析同 graph coloring 嘅 invariant 嚟構造反例,從而證明某個 Ramsey 數嘅下界。
對我哋呢啲唔係全職數學家嘅人嚟講,更重要嘅教訓係:AI 可以喺「結構化創造」嘅領域發揮作用。數學證明嚴格遵守邏輯規則,呢個 property 令到數學成為 automation 嘅理想目標——但同時,真正嘅數學研究又充滿咗直覺、審美同創造力,呢啲一直被認為係 AI 難以觸及嘅領域。DeepMind 呢個結果向我哋證明,呢條界線比我哋想像中模糊。
科研 automation 嘅下一步:對開發者同創業者嘅啟示
講到呢度你可能會問:「AI 解到數學問題,同我寫 code 或者做 startup 有咩關係?」答案係:非常有關。
首先,呢個結果直接衝擊咗一個核心假設:創造性工作係人類嘅最後堡壘。數學研究一直以嚟被視為人類智力活動嘅頂峰——連數學家都可以被 automation,咁仲有咩工種係安全嘅?呢個問題本身可能太簡單化,但背後嘅趨勢好清晰:任何涉及「符號操作 + 邏輯推理 + 創造性探索」嘅工作,最終都會被 AI 重塑。
對香港同台灣嘅開發者同創業者嚟講,呢個趨勢意味住幾件事。
第一,AI 作為「研究助理」嘅時代已經到咗。如果你嘅 startup 做緊任何需要深入技術分析嘅領域——例如生物信息學、材料科學、密碼學、或者供應鏈最佳化——你而家可以將大量嘅探索性研究工作外判俾 AI agent。佢唔會取代你嘅 domain expertise,但會大幅壓縮你由「問題」到「解決方案」嘅週期。
第二,呢個結果暗示咗一個更重要嘅命題:如果 AI 可以解數學問題,咁佢好快就可以更有效地 debug、重構代碼、或者做系統設計。數學證明同寫高品質軟體之間有驚人嘅相似性:兩者都需要將複雜問題分解成可控嘅子問題、需要考慮 edge case、需要構造性嘅解決方案。當 DeepMind 嘅 agent 可以系統性探索解題空間嘅時候,想像一下同樣嘅方法應用喺 codebase 分析或者架構設計上。
第三,呢個代表咗一個全新嘅創業方向:AI-native 嘅科研工具。而家嘅實驗室管理軟件、論文管理系統、或者統計分析工具,全部都係「被動式」嘅——你要俾 input 佢先做嘢。但係想像一個「主動式」嘅科研 agent:佢會自動分析你嘅實驗數據、提出新假設、設計驗證實驗、甚至寫好論文嘅初稿。呢個唔係科幻小說,而係未來 3-5 年就會出現嘅產品。
唔好只係做觀察者:你可以點樣把握呢個趨勢
講到尾,技術進步本身唔重要,重要嘅係你點回應。我成日同朋友講,AI 時代最大嘅風險唔係被取代,而係做一個 passive observer——等人哋做好咗產品你先用,等人哋搵到 business model 你先跟。
對於香港同台灣嘅讀者,我有三個具體建議。
第一,開始用 AI agent 做你日常工作中最難嗰部分。唔好淨係用嚟寫 cover letter 或者做 summary。搵一個你而家要花幾個鐘甚至幾日先搞得掂嘅技術問題,然後迫自己用 AI agent 去解決。呢個過程會令你理解到 AI 目前嘅能力邊界喺邊——呢個知識本身就有好高嘅價值。
第二,留意 DeepMind 呢類系統嘅開放原始碼版本。DeepMind 嘅 infrastructure 可能好封閉,但學術界同開源社群好快就會有類似嘅數學推理框架出嚟。OpenAI 嘅 o1 模型都已經展現咗類似嘅 chain-of-thought reasoning 能力。早啲熟悉呢啲工具,等到佢哋成熟嘅時候你已經有幾百個鐘嘅 hands-on 經驗。
第三,如果你係創業者,認真考慮「科研 automation」呢個賽道。我見到好幾個有趣嘅方向:垂直領域嘅 AI research agent(例如專注於藥物設計或者材料科學嘅)、數學教育領域嘅 AI tutor(能夠真正引導學生思考、而唔係俾答案嗰種)、以及為學術機構提供嘅 research workflow automation 工具。呢啲全部係 huge market,而競爭仲未白熱化。
DeepMind 呢個結果唔單止係一篇學術論文,而係一個訊號:科研 automation 已經由概念驗證進入實用階段。對我哋香港嘅創業者同開發者嚟講,問題唔係「AI 會唔會取代我」,而係「我點樣用 AI 做我一個人做唔到嘅嘢」。Erdős 生前講過一句名言:「Another roof, another proof」——數學家應該要不斷合作、不斷喺新嘅地方落腳。而家,我哋多咗一個新嘅合作夥伴,佢叫做 AI。