粵語 TTS 大爆發:30 種語言的開源引擎終於支援廣東話,香港創作者有咩機會?
香港創作者面對一個尷尬現實:廣東話內容嘅市場夠大(全球八千萬人講),但語音科技永遠 lag 三年。普通話 TTS 十年前就做到自然,廣東話要到 2024 年先有勉強用得嘅方案,仲要唔係逐字收費就係音質爛到似機械人。直到五日前。
OpenBMB 放咗 VoxCPM2 出街,Apache 2.0,免費商用,30 種語言真係包粵語同四川話。兩億參數,直接出 48kHz,RTF 0.3。呢個數字對開發者嚟講只有一個意思:廣東話 TTS 嘅 cost curve 斷咗。
開源引擎嘅 Game Changer:VoxCPM2 做咗啲咩
VoxCPM2 嘅技術選擇好有意思。佢哋 skip 咗 tokenizer,直接用 diffusion autoregressive 出連續語音表示。呢個決定嘅直接效果係:粵語入聲尾、變調、文白異讀呢啲傳統 TTS 死穴,憑空消失咗。因為唔使將聲音拆成離散 token,自然唔会有「tokenizer 唔識處理 -k 尾」嘅問題。
兩百萬小時訓練數據,7B 嘅 MiniCPM-4 做 backbone — 唔好被呢啲數字嚇親,重點係佢嘅 Voice Design 功能。以前你要搵一個講特定語氣嘅廣東話配音員,逐個錄音室 book。而家用文字就可以 create 一把新聲:男性、三十歲、柔和、有少少 smile。唔使 reference audio。仲有 Controllable Cloning,俾你 10 秒錄音 clone 一把聲,再調情感同節奏。
對於香港開發者,最實際嘅係 Ultimate Cloning:俾 reference audio 加文字稿,模型會無縫延續,忠實保留細節。意思係你可以錄一段廣東話 intro,然後 model 自動繼續讀晒成篇文,語氣一致。
批咗 Apache 2.0,代表你可以任意商用。唔使分潤、唔使 credits、唔使驚 API 突然加價。
由 Engine 到 Product:OmniVoice Studio 嘅 practical layer
Engine 再好,都要有工具先用得到。OmniVoice Studio 呢個 project 值得留意,唔係因為佢嘅技術(雖然 646 語言聲音克隆好癲),而係佢將 TTS 變成一個普通人用到嘅 workflow。
直接講重點:你俾條 YouTube URL 佢,佢會自動轉錄、翻譯、重配音、export MP4。全世界嘅 Cantonese content creator 最缺嘅就係呢條 pipeline。香港 Youtuber 拍英文片,自動出廣東話版;Netflix 劇集 Fansubbing Group,自動配粵語 voiceover;Podcast 錄音,自動出文字稿再出多語言音頻版。
OmniVoice 仲有 MCP Server,即係你可以叫 Claude 寫好篇 blog,然後同一句 prompt 叫佢用指定聲線讀出嚟。呢種 AI-native workflow 先係真正生產力突破。
佢支援 macOS、Windows、Linux,全部 local run,零 API key。對於香港開發者,呢個意味住你可以將佢 embed 入自己 product,而唔使擔心 user data 送上雲端 — 尤其係處理語音內容涉及私隱嘅場景(醫療、法律、金融),local 方案係唯一出路。
香港創作者嘅三個具體機會
第一:粵語有聲書頻道
全球 audiobook 市場 2026 年預計突破 250 億美元。香港有聲書 content 極度稀缺 — 唔係因為冇人寫書,而係因為錄音成本太高。VoxCPM2 + OmniVoice 嘅組合直接打倒呢個限制。你拎一篇專欄、一本已版權到期嘅書、甚至 Medium 文章,用 Voice Design 創建一把專業 narrator 聲線,批量產出有聲內容。成本近乎零。上架 Spotify、Apple Books、Google Podcast。呢個唔係未來,係即刻做得嘅嘢。
第二:本地化 dubbing 服務
香港做國際生意,成日要出多語言 content。傳統做法:搵配音員逐句錄。OmniVoice 嘅影片配音功能令你可以一條片出十個語言版本。而且因為係 local,你可以 fine-tune 粵語嘅語氣去到好自然 — 商務片要正式 tone,遊戲片要活潑 tone,教學片要耐心 tone。以前要三個配音員,而家一個 model switch tone 就得。
第三:社群聲音產品
香港嘅即時通訊文化好勁(Signal、WhatsApp、Telegram 全部 heavy use),但 voice message 係一次性消費。如果有一個 app 可以將你嘅 voice message 自動整理成 podcast、或者將長語音自動 summarise 再 TTS 出 summary,呢啲 product 喺香港社群有天然 adoption 優勢。VoxCPM2 嘅 RTF 0.3 代表 latency 夠低做到 real-time 體驗。
小心嘅嘢
Open source TTS 唔係 magic bullet。VoxCPM2 嘅 2B 參數雖然 impressive,但 RTF 0.3 係喺 RTX 4090 上面跑嘅結果。一般人用 consumer GPU 或者 CPU 會慢好多。OmniVoice Studio 有 auto offload(≤8GB VRAM 自動 fallback),但 quality 會有 trade-off。
另一個係 licensing 問題。VoxCPM2 係 Apache 2.0,但 OmniVoice 用 FSL-1.1-ALv2 — Functional Source License,商用有限制,要睇清楚條款先。另外,如果你用 Ultimate Cloning 去 clone 一個真人嘅聲而冇 consent,法律風險係你嘅。
最後,品質。廣東話有九聲六調,加上口語書面語混合、英文借詞穿插,VoxCPM2 處理呢啲情況去到幾自然,仲要睇社群實測。Open source 嘅好處係 improvement cycle 快 — 有問題,開個 issue,幾個禮拜就有 patch。
即刻可以做嘅三件事
一、拉 VoxCPM2 落嚟試 Voice Design:去 huggingface 揾 openbmb/VoxCPM2,開個 notebook,create 一把粵語 narrator 聲。五分鐘就見到效果。
二、裝 OmniVoice Studio:跟 README 裝 desktop app,俾條 YouTube link 佢試配音功能。最直接體驗成條 pipeline 嘅方法。
三、plan 你嘅第一個粵語 audio product:不論係有聲書、dubbing service 定 voice app,而家成本 barrier 已經跌到接近零。問題唔係「做唔做到」,而係「做啲咩」。諗清楚你嘅 audience 想要咩聲音內容,然後 weekend project 就可以 launch。
香港嘅 Cantonese content 市場一直都喺度,只係 infrastructure 唔夠成熟。而家 infrastructure 到了。你嘅第一條 Cantonese audio feed,今日就可以開始。