粵語 TTS 大爆發：30 種語言的開源引擎終於支援廣東話，香港創作者有咩機會？

香港創作者面對一個尷尬現實：廣東話內容嘅市場夠大（全球八千萬人講），但語音科技永遠 lag 三年。普通話 TTS 十年前就做到自然，廣東話要到 2024 年先有勉強用得嘅方案，仲要唔係逐字收費就係音質爛到似機械人。直到五日前。

OpenBMB 放咗 VoxCPM2 出街，Apache 2.0，免費商用，30 種語言真係包粵語同四川話。兩億參數，直接出 48kHz，RTF 0.3。呢個數字對開發者嚟講只有一個意思：廣東話 TTS 嘅 cost curve 斷咗。

開源引擎嘅 Game Changer：VoxCPM2 做咗啲咩

VoxCPM2 嘅技術選擇好有意思。佢哋 skip 咗 tokenizer，直接用 diffusion autoregressive 出連續語音表示。呢個決定嘅直接效果係：粵語入聲尾、變調、文白異讀呢啲傳統 TTS 死穴，憑空消失咗。因為唔使將聲音拆成離散 token，自然唔会有「tokenizer 唔識處理 -k 尾」嘅問題。

兩百萬小時訓練數據，7B 嘅 MiniCPM-4 做 backbone — 唔好被呢啲數字嚇親，重點係佢嘅 Voice Design 功能。以前你要搵一個講特定語氣嘅廣東話配音員，逐個錄音室 book。而家用文字就可以 create 一把新聲：男性、三十歲、柔和、有少少 smile。唔使 reference audio。仲有 Controllable Cloning，俾你 10 秒錄音 clone 一把聲，再調情感同節奏。

對於香港開發者，最實際嘅係 Ultimate Cloning：俾 reference audio 加文字稿，模型會無縫延續，忠實保留細節。意思係你可以錄一段廣東話 intro，然後 model 自動繼續讀晒成篇文，語氣一致。

批咗 Apache 2.0，代表你可以任意商用。唔使分潤、唔使 credits、唔使驚 API 突然加價。

由 Engine 到 Product：OmniVoice Studio 嘅 practical layer

Engine 再好，都要有工具先用得到。OmniVoice Studio 呢個 project 值得留意，唔係因為佢嘅技術（雖然 646 語言聲音克隆好癲），而係佢將 TTS 變成一個普通人用到嘅 workflow。

直接講重點：你俾條 YouTube URL 佢，佢會自動轉錄、翻譯、重配音、export MP4。全世界嘅 Cantonese content creator 最缺嘅就係呢條 pipeline。香港 Youtuber 拍英文片，自動出廣東話版；Netflix 劇集 Fansubbing Group，自動配粵語 voiceover；Podcast 錄音，自動出文字稿再出多語言音頻版。

OmniVoice 仲有 MCP Server，即係你可以叫 Claude 寫好篇 blog，然後同一句 prompt 叫佢用指定聲線讀出嚟。呢種 AI-native workflow 先係真正生產力突破。

佢支援 macOS、Windows、Linux，全部 local run，零 API key。對於香港開發者，呢個意味住你可以將佢 embed 入自己 product，而唔使擔心 user data 送上雲端 — 尤其係處理語音內容涉及私隱嘅場景（醫療、法律、金融），local 方案係唯一出路。

香港創作者嘅三個具體機會

第一：粵語有聲書頻道

全球 audiobook 市場 2026 年預計突破 250 億美元。香港有聲書 content 極度稀缺 — 唔係因為冇人寫書，而係因為錄音成本太高。VoxCPM2 + OmniVoice 嘅組合直接打倒呢個限制。你拎一篇專欄、一本已版權到期嘅書、甚至 Medium 文章，用 Voice Design 創建一把專業 narrator 聲線，批量產出有聲內容。成本近乎零。上架 Spotify、Apple Books、Google Podcast。呢個唔係未來，係即刻做得嘅嘢。

第二：本地化 dubbing 服務

香港做國際生意，成日要出多語言 content。傳統做法：搵配音員逐句錄。OmniVoice 嘅影片配音功能令你可以一條片出十個語言版本。而且因為係 local，你可以 fine-tune 粵語嘅語氣去到好自然 — 商務片要正式 tone，遊戲片要活潑 tone，教學片要耐心 tone。以前要三個配音員，而家一個 model switch tone 就得。

第三：社群聲音產品

香港嘅即時通訊文化好勁（Signal、WhatsApp、Telegram 全部 heavy use），但 voice message 係一次性消費。如果有一個 app 可以將你嘅 voice message 自動整理成 podcast、或者將長語音自動 summarise 再 TTS 出 summary，呢啲 product 喺香港社群有天然 adoption 優勢。VoxCPM2 嘅 RTF 0.3 代表 latency 夠低做到 real-time 體驗。

小心嘅嘢

Open source TTS 唔係 magic bullet。VoxCPM2 嘅 2B 參數雖然 impressive，但 RTF 0.3 係喺 RTX 4090 上面跑嘅結果。一般人用 consumer GPU 或者 CPU 會慢好多。OmniVoice Studio 有 auto offload（≤8GB VRAM 自動 fallback），但 quality 會有 trade-off。

另一個係 licensing 問題。VoxCPM2 係 Apache 2.0，但 OmniVoice 用 FSL-1.1-ALv2 — Functional Source License，商用有限制，要睇清楚條款先。另外，如果你用 Ultimate Cloning 去 clone 一個真人嘅聲而冇 consent，法律風險係你嘅。

最後，品質。廣東話有九聲六調，加上口語書面語混合、英文借詞穿插，VoxCPM2 處理呢啲情況去到幾自然，仲要睇社群實測。Open source 嘅好處係 improvement cycle 快 — 有問題，開個 issue，幾個禮拜就有 patch。

即刻可以做嘅三件事

一、拉 VoxCPM2 落嚟試 Voice Design：去 huggingface 揾 openbmb/VoxCPM2，開個 notebook，create 一把粵語 narrator 聲。五分鐘就見到效果。

二、裝 OmniVoice Studio：跟 README 裝 desktop app，俾條 YouTube link 佢試配音功能。最直接體驗成條 pipeline 嘅方法。

三、plan 你嘅第一個粵語 audio product：不論係有聲書、dubbing service 定 voice app，而家成本 barrier 已經跌到接近零。問題唔係「做唔做到」，而係「做啲咩」。諗清楚你嘅 audience 想要咩聲音內容，然後 weekend project 就可以 launch。

香港嘅 Cantonese content 市場一直都喺度，只係 infrastructure 唔夠成熟。而家 infrastructure 到了。你嘅第一條 Cantonese audio feed，今日就可以開始。