AI 數學家來了：幾百美元解一道難題，你嘅科研成本從此不同

香港 startup 圈成日掛喺嘴邊嘅係「單位經濟學」（unit economics）—— CAC 幾多、LTV 幾多、幾時 breakeven。呢套思維幾乎冇人套落科研度。一條困擾咗數學界幾十年嘅開放問題，傳統上嘅「成本」係一個 PhD 學生花三個月到三年嘅時間，連 stipend 加 institutional overhead，大概五萬到十五萬美金。DeepMind 嘅 Aletheia 喺 2026 年頭做咗一件事，呢件事嘅意義遠超過學術界嘅範疇：佢用幾百到一千美金嘅推理成本， autonomously 解咗 Paul Erdős 嘅開放數學問題，成果仲發表咗正式論文。你冇聽錯——一條人類數學家花咗幾十年搞唔掂嘅問題，一部 AI agent 用少過一部 MacBook 嘅錢搞掂咗。呢個唔係效率提升，而係成本結構嘅地質斷層式改變。

成本斷層：從 PhD 到 API，差距兩個數量級

先還原個 timeline。2026 年 2 月，DeepMind 發表 Aletheia 嘅重磅論文。呢個 AI agent 唔係好似 ChatGPT 咁等你問佢先答——佢係 autonomous 嘅 research agent，自己 scan 咗 Thomas Bloom 嘅 Erdős Conjectures 數據庫入面超過 700 條開放問題，評估每條嘅難度同自己嘅能力邊界，然後揀咗 4 條嚟解。結果係：4 條完全自主解出，其中一條（Erdős-1051）嘅解法仲衍生出一篇正式嘅數學論文（BKKKZ26），已經被學界接受同發表。

𠵱家計一計條數。一個數學 PhD 喺美國嘅平均年薪大概七萬美金，連 benefits、lab space、administration overhead，一年實際成本十到十二萬。一條難嘅開放問題，由 understanding 到 exploration 到試錯到寫 proof，正常要半年到一年。就算係最順利嘅情況，最低成本都要幾萬蚊美金。Aletheia 每條問題嘅 inference cost——即係行 Gemini Deep Think 嘅 compute 成本——根據 DeepMind 公佈嘅 scaling law 同目前 API pricing 推算，Level 0 問題大約數百到一千美金。Level 1 問題，好似 Erdős-1051 呢類需要 significant novelty 嘅，大概幾千美金。

呢個差距唔係 10%，唔係 50%，係兩個數量級——成本跌咗 99%。如果你將呢個邏輯由數學推到其他科研領域，你會見到一個翻天覆地嘅變化：以前因為成本太高而唔值得探索嘅研究方向，而家全部變得 feasible。生物信息學嘅蛋白質摺疊預測、材料科學嘅晶體結構搜索、密碼學嘅安全協議驗證——呢啲領域傳統上要靠 grant funding 養住成個 team 先做得起，而家一個人加一部 laptop 加 API credit 就夠。

仲有一個更深層嘅 point：成本結構嘅改變唔單止影響「平咗」，而係改變咗「乜嘢值得做」。經濟學有個概念叫「induced innovation」——當某種 input 嘅價格暴跌，會催生全新嘅應用類別。以前 PhD-level reasoning 嘅價格係十萬美金一個單位，你唔會用佢嚟做 exploratory 嘅研究，因為失敗咗成本太高。但當 marginal cost 跌到幾百美金，你可以同時 run 幾十個 agent 去探索幾十個方向，然後只保留有成果嗰啲。呢種「parallel exploration」嘅模式，喺人類科研世界係冇可能嘅——你唔可以請 50 個 PhD 做同一件事，然後炒咗 49 個。但喺 AI 世界，呢個係 default operating mode。

三層槓桿：點解科研成本會跌得咁癲

成本結構嘅改變唔係因為「GPU 平咗」或者「model size 細咗」咁表面，而係三層槓桿疊加嘅結果。每一層單獨睇都係 evolutionary improvement，但疊埋一齊就係 disruptive change。

第一層：推理即勞動力——時間嘅線性擴張。傳統科研嘅 bottleneck 永遠係人類專家嘅時間。一個數學家一日最多認真思考三到五個小時，其餘時間用喺文獻閱讀、email、meeting、煮飯、休息。AI agent 嘅推理可以 24/7 不間斷運行，而且 DeepMind 發現咗一個關鍵嘅 scaling law：inference-time compute 嘅投入同 output quality 幾乎呈線性關係。Aletheia 喺 IMO-ProofBench Advanced 上面由 60% 解題率推到 90%，靠嘅就係增加推理時間——由幾分鐘推到幾小時。呢個 scaling law 喺人類世界係唔可行嘅：你唔可以叫一個數學家「諗耐啲」就令佢解題能力由 60% 升到 90%。人類有疲勞、有 bias、有 cognitive load 嘅上限。AI 冇呢啲限制。呢個意味住「思考」作為一種生產要素，佢嘅供應彈性突然變得接近無限。

第二層：試錯成本趨近於零——放棄嘅心理門檻消失。人類數學家試一個解題方向，可能要花兩星期睇文獻、做手稿計算、寫 intermediate lemma，先發現條路行唔通。呢個過程唔單止花時間，仲有 psychological sunk cost——「我已經花咗咁多精力，唔捨得放棄」，呢個 bias 令數學家成日喺死胡同入面浪費更多時間。Aletheia 嘅 Generate → Verify → Revise loop 喺幾分鐘內就可以試一個方向、由 symbolic engine 發現邏輯漏洞、然後推倒重來。佢唔會沮喪、唔會 bias、唔會因為「已經花咗兩星期」而唔捨得放棄。呢個「低成本試錯」係科研 automation 最被低估嘅價值——好多數學 breakthrough 唔係因為天才嘅一擊即中，而係因為試嘅方向夠多，偶然撞到一條通嘅路。Aletheia 將呢個「試」嘅成本從「幾星期」降到「幾分鐘」，嘅效率提升直接轉化為更多嘅 solved problems。

第三層：零機構 overhead——去中心化科研成為可能。請一個 PhD 唔淨係出糧咁簡單。你要搵 funding、寫 grant proposal、等 approval、買設備、管理等 bureaucratic 嘢。呢啲 overhead 可以佔總成本嘅 30-50%，仲未計學術界嘅 politics 同 collaboration 嘅 coordination cost。AI agent 嘅 marginal cost 就係電費加 API call——冇 grant application、冇 IRB approval、冇 department meeting、冇 annual review。對於香港嘅 startup 同獨立開發者嚟講，呢個意味住你唔需要係 university 或者 research institute，都可以做前沿嘅研究。你唔需要申請幾百萬嘅 grant，你只需要一個 AWS account 同一張信用卡。

呢三層槓桿疊加嘅效果唔係 1+1+1=3，而係乘數效應。推理時間無限（第一層）× 試錯成本趨零（第二層）× 零 overhead（第三層）= 科研效率嘅指數級增長。

9 條問題嘅經濟學：從 Aletheia 到 AlphaEvolve 到 Scout

到而家為止，DeepMind 嘅 agent 生態（Aletheia + AlphaEvolve + Scout）加埋已經 autonomously 解咗 9 條 Erdős 嘅開放問題。呢個數字值得停一停，因為背後嘅經濟學好有啟發性。

先拆解呢個 agent 生態係點運作。Aletheia 係 prover，專攻 Generate → Verify → Revise 嘅證明循環。AlphaEvolve 係一個 powered by Gemini 嘅 evolutionary coding agent，專攻 algorithm design——佢喺 Bruhat intervals 嘅研究中建議咗一個 permutation pattern，數學家跟住呢個 pattern 先意識到背後嘅 general structure，最終寫成正式論文。Scout 係另一個通用數學 agent，用「自主選題」機制 scan 咗 Bloom 數據庫，揀咗一條關於超圖 Ramsey 數嘅問題嚟解，成果被頂級數學期刊接受。

呢個生態嘅關鍵 insight 係：單一 agent 嘅能力有限，但多 agent 協作嘅產出係乘數效應。AlphaEvolve 發現嘅結構令 Scout 可以更快評估相關問題嘅難度，Scout 嘅 proof 技巧反過來提升咗 Aletheia 嘅 verification pipeline。呢個 modular 架構同我哋寫 microservice 嘅直覺完全一致——唔係造一個全能嘅 monolithic model，而係造一個互相強化嘅 specialist agent 生態。

講返成本。呢 9 條問題嘅總 inference cost，我根據 DeepMind 公佈嘅數據保守估計喺兩萬到五萬美金之間——大概等於一個 PhD 學生三個月嘅 stipend。但你得到嘅係 9 個已驗證嘅數學結果，當中包括一條衍生出正式論文嘅 breakthrough。如果係傳統模式，呢 9 條問題由唔同團隊研究，總成本可能要幾百萬美金，仲未計大部分嘗試會失敗。

更重要嘅係成本曲線嘅形狀。Aletheia 嘅 scaling law 仲未 plateau——由 2025 年 7 月到 2026 年 1 月，PhD-level 嘅 FutureMath Basic benchmark 由 0% 推到接近 40%，仲係急速上升緊。呢個意味住下一批問題嘅平均成本只會更低。當愈來愈多 domain-specific 嘅問題被結構化（好似 Bloom 嘅 Erdős 數據庫），AI 嘅效率只會進一步提升。呢個唔係一個線性趨勢，而係 exponential——每六個月，同樣嘅錢可以解到 double 嘅問題。

另一個值得留意嘅係 Open Source 層面嘅追趕速度。DeepMind 已經將 Aletheia 嘅 prompts、outputs、interaction cards open source 咗（github.com/google-deepmind/superhuman）。市面上嘅 open source model（Llama 4、Qwen 3、DeepSeek V4）嘅 reasoning capability 過去六個月急追，如果你而家開始 build agentic workflow 嘅 domain expertise，六個月後當 infrastructure 成熟，你已經有 competitive moat。

呢個唔止係數學問題——你嘅機會窗口

講到呢度，你可能會諗：「我又唔係做數學 research，關我咩事？」好有關，而且唔係理論上嘅關，係實質商業機會嗰種關。

第一，呢個 pattern 會快速擴散到其他 domain。Aletheia 之所以 work，關鍵原因係 Erdős 問題已經被 Thomas Bloom 整理成 machine-readable 嘅結構化數據庫——每條問題有 formal statement、known partial results、相關文獻，仲有 difficulty rating。呢個 infrastructure 將「AI 研究數學」嘅 barrier 由極高降到 feasible。任何 domain 只要有類似嘅結構化問題庫，就可以行同樣嘅 agentic workflow。你個行業有冇？冇？咁就係你嘅機會——建立 domain-specific 嘅問題庫，然後用 AI agent 去解。呢個可以係一個全新嘅 B2B SaaS 品類。想像一下：一個 for 專利律師嘅 prior art search agent、一個 for 藥廠嘅分子設計 agent、一個 for 金融合規嘅監管推理 agent。佢哋嘅底層引擎可能一樣，但 domain-specific 嘅問題庫同 evaluation benchmark 就係你嘅 moat。

第二，推理成本下降解鎖咗 previously infeasible 嘅應用場景。之前因為 reasoning quality 唔夠而唔可以用 AI 解決嘅問題——合約審查入面嘅邏輯漏洞檢測、供應鏈 optimisation 嘅組合爆炸、投資決策嘅多因子推理、甚至係 codebase 入面嘅 algorithm correctness verification——而家全部變得 feasible。你唔需要 train 一個新 model，你需要嘅係 design 一個可以花更多 compute 去諗深啲嘅 agent loop。Aletheia 嘅 Generate → Verify → Revise，直接對應 TDD 嘅 Red → Green → Refactor。呢個 pattern 可以應用喺任何需要「generate solution → verify correctness → revise」嘅場景。

第三，香港嘅 structure advantage。香港嘅 startup ecosystem 一向擅長 B2B 同跨境應用。AI 科研工具呢個品類，天然適合香港——我哋有普通法體系（合約 AI 嘅 testing ground）、有國際金融中心（金融推理 agent 嘅試點）、有連接中國大陸同東南亞嘅網絡（數據同人才）。當矽谷嘅 startup 集中做「general AI assistant」，香港嘅 startup 可以專攻「domain-specific reasoning agent」，呢個 niche 啱啱好 fit 我哋嘅規模同優勢。

Erdős 生前最出名嘅習慣係用 monetary rewards 嚟激勵人解題——幾十到幾千美金，視乎難度。佢大概冇諗過，幾十年後，解佢啲問題嘅唔係人類數學家，而係一個由 Google 訓練嘅 AI agent，而成本仲平過佢當年嘅 reward。科研嘅單位經濟學已經永遠改變咗。問題唔係「AI 會唔會取代科學家」，而係「你用唔用得起呢個新嘅科研成本結構」。如果你嘅答案係「用得起」，咁而家就係開始嘅時候——開一個 API account、揀一個你 domain 嘅問題、試吓用 agent loop 去解。成本可能只係你半日嘅 freelance rate，但學到嘅嘢會改變你對未來十年嘅判斷。