廣東話 AI 語音合成大突破
香港開發者一直被當成二等公民。唔係講緊政治,係講緊科技基建——尤其係 AI 語音合成呢個領域。過去十年,英文 TTS 發展到幾可亂真,普通話有百度阿里華為撐住,唯獨廣東話長期處於「有聲出但冇人聽得明」嘅尷尬狀態。直到最近,形勢終於逆轉。VoxCPM2 同 edge-tts 兩個免費工具,將廣東話 TTS 嘅質素推到一個前所未有嘅水平,而呢個突破對香港創作者同開發者嘅意義,遠超「把聲似唔似」咁簡單。
點解廣東話咁耐做唔好?
首先要明白一個殘酷事實:AI 語音合成嘅質素,同訓練數據嘅數量同質素直接掛鉤。廣東話雖然有八千萬使用者,但網上公開嘅高質素錄音數據少得可憐。英文有 Librivox、Common Voice 等大規模開源語料庫,普通話有 AISHELL、DataBaker,而廣東話?連個似樣嘅開源數據集都數唔出幾個。數據唔夠,模型就唔會好,呢個係死結。
另一個問題係廣東話本身嘅語言特性。九聲六調、入聲韻尾、文白異讀——呢啲對 TTS 模型嚟講係 disaster。早期嘅廣東話 TTS 聽落似機械人讀急口令,升調降調亂晒龍,俾人笑話「把聲好假」。市場細自然冇 big tech 肯投資,結果形成惡性循環:質素差→用家唔用→冇收入→冇資源改善。
仲有就係技術路線嘅問題。傳統嘅拼接式 TTS(concatenative synthesis)靠錄音師逐個音節錄,廣東話有成千個音節組合,成本高到離譜。參數式 TTS 質素又唔夠。結果香港創作者焗住用 Google Translate 嗰把生硬到嚇親人嘅廣東話,或者索性放棄,直接用普通話或英文把聲就算數。
VoxCPM2:開源社群嘅反擊
VoxCPM2 嘅出現係一個轉捩點。呢個由開源社群訓練嘅模型,採用咗當代最先進嘅神經網絡架構——基於 VITS2 嘅改良版,結合 improved duration prediction 同 stochastic duration decoding。講人話即係:佢生成嘅語音自然度遠遠拋離之前所有開源方案。
最令人驚喜嘅係 VoxCPM2 對廣東話聲調嘅處理。佢用咗一個細心設計嘅韻律建模機制,能夠準確捕捉廣東話九声嘅細微變化。實測之下,佢生成嘅句子唔單止聲調準確,連語流中嘅連讀變調、輕聲呢啲自然語言特徵都處理得幾好。對於 podcast、audiobook、語音助手呢啲場景,VoxCPM2 已經達到「可接受」甚至「良好」嘅水平。
而且佢係 free、open-source、可以 self-hosted。對於香港嘅 indie developer 同 content creator 嚟講,呢個意味住零成本就可以喺自己嘅 product 入面加入高質素嘅廣東話語音功能。冇 API 費用,冇 rate limit,冇 vendor lock-in。呢種自由度係之前從來未出現過嘅。
edge-tts:Microsoft 嘅意外禮物
edge-tts 係另一個驚喜。佢本質上係一個將 Microsoft Edge 瀏覽器內置嘅 TTS API 包裝成 command-line tool 嘅開源專案。而 Microsoft 嘅 TTS 引擎喺廣東話方面嘅表現,老實講,比好多專門做語音合成嘅初創公司仲要好。
Microsoft 嘅優勢在於佢哋有大量嘅數據同計算資源。Azure Speech Service 背後嘅模型經過大規模多語言訓練,廣東話只係其中一個受益者。edge-tts 嘅廣東話語音自然度極高,聽落幾乎似真人錄音。佢仲支援 SSML(Speech Synthesis Markup Language),俾開發者精細控制語速、音調、停頓——對於製作專業級內容嚟講好重要。
最大嘅賣點係 free。任何有 Edge 瀏覽器嘅人都可以免費使用,唔使俾 Azure API 嘅昂貴費用。對於預算有限嘅香港 startups 同 creators 嚟講,呢個簡直係天降甘露。雖然 Microsoft 隨時可以改政策收緊呢個入口,但至少而家呢個窗口係開緊嘅。
對香港創作者嘅實際意義
呢兩個工具嘅出現,對香港嘅內容生態有深遠影響。首先,podcast 製作成本大幅下降。以前想做廣東話 podcast,最靚仔嘅 workflow 都係請人錄音、剪輯、後製,一集最少幾百蚊成本。用 TTS 生成,雖然唔係完美,但對於內容為本嘅節目(比如財經分析、科技新聞),聽眾其實好快就會習慣 synthentic voice,尤其係如果內容本身有價值。
其次,教育科技係一個大場景。廣東話有聲書、語言學習 app、兒童故事,全部都需要大量語音內容。以前呢啲嘢嘅製作成本極高,導致香港嘅 edtech 產品無論喺質素仲係數量上都遠遠落後。而家只要有 text,就可以 generate 到自然嘅廣東話語音,成個成本結構徹底改變。
第三,無障礙工具。對於視障人士或者讀寫障礙者嚟講,高質素嘅 screen reader 係必需品。之前香港嘅無障礙科技發展緩慢,好大程度係因為語言支援唔夠。而家免費 TTS 工具嘅質素達到可用水平,開發者可以更容易整出真正幫到人嘅工具。
行動建議
如果你係香港開發者,而家就應該開始玩呢兩個工具。VoxCPM2 適合需要 self-hosted、唔想依賴第三方嘅場景;edge-tts 適合快速 prototyping、追求最高語音自然度嘅場景。兩者唔係零和遊戲,你可以同時用。
具體建議:用 edge-tts 做內容生成嘅主力(因為質素最好),同時喺背景用 VoxCPM2 訓練自己嘅 fine-tune 模型,針對你產品嘅特定場景做優化。留意 edge-tts 嘅可用性可能有變,所以長遠應該建立自己嘅 TTS pipeline,而 VoxCPM2 就係呢個方向嘅最佳起點。
廣東話科技生態嘅 bottleneck 從來都唔係人才或創意,而係基建。TTS 係其中一塊關鍵拼圖。而家呢塊拼圖終於到位,仲要係免費嘅。做唔做啲嘢出嚟,就睇你啦。