三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

廣東話內容創作革命:開源 TTS 零成本出高質粵語片

廣東話內容創作革命:開源 TTS 零成本出高質粵語片

廣東話有 8500 萬人使用,每條粵語 YouTube 片背後都係血汗——撰稿、錄音、NG、剪輯,搞足半日。但你寫好稿、按個掣就有 AI 幫你讀?呢個唔係未來,係而家。

Big Tech 嘅盲點,開源嘅契機

粵語係全球第 19 大語言,母語者多過意大利文、韓文。但 ElevenLabs 支援 29 種語言,冇粵語。OpenAI TTS 有 6 種,冇粵語。Google Cloud TTS 有粵語,但質素機械感重、語調奇怪。

唔係技術問題,係商業問題。粵語數據唔少,但清洗標註成本高,回報率唔夠普通話或英文高。開源模型唔需要滿足 shareholders,只需要滿足用家。VoxCPM2 證明了高質素粵語 TTS 唔係技術難題,係優先級問題。

VoxCPM2 實測:免費做到幾好?

VoxCPM2 係神經網絡語音合成模型,支援零樣本語音克隆。俾一段 5-10 秒參考錄音,佢就學識你把聲。我用 RTX 3090 實測,安裝用 Docker,第一次 infer 約 30 秒 warm-up,之後每 100 字約 5-8 秒。

質素遠超 Google TTS,接近 ElevenLabs 英文水準。粵語九聲六調處理自然,冇咗「鬼佬講粵語」嘅怪異感。地道詞彙如「踎低起身見頭暈」偶有瑕疵,但 YouTube 旁白、Podcast 完全收貨。最大突破係語調——句子有返正常高低抑揚,唔似以前咁平舖直敘。

OmniVoice Studio:文字到影片 Pipeline

單有 TTS 唔夠,你需要完整 pipeline。OmniVoice Studio 整合咗 TTS 生成、字幕同步、語音克隆、批量處理。

Workflow:貼稿、選聲、生成、輸出。我用 2000 字地道飲食文測試——深水埗掃街到中環 fine dining,生成約 3 分鐘,準確率 95% 以上。「咖喱魚蛋」「絲襪奶茶」「避風塘炒蟹」全部讀得正確。一條片嘅生產時間由 3-4 小時縮短到 30-45 分鐘,效率提升 5 倍。

香港 Creator 嘅戰略機會

第一,門檻大幅降低。以前要錄音室同靚咪,而家只要一部電腦同識打字。第二,量產成為可能,一日出 3-5 條高質素片。第三,多語言擴展——同一篇文可以出粵語 YouTube、普通話小紅書、英文 LinkedIn。

未來 12 個月會見到一批全新粵語頻道湧現,靠開源工具加 AI 嘅獨立創作者。先入場嘅人會攞到最大紅利。

行動建議

而家做四件事:下載 VoxCPM2 用 Docker 起 local instance;錄 10 秒粵語錄音做 reference;試生成 500 字旁白;出一條片放 YouTube。成本零,風險零,但你可能係第一批用呢個技術嘅粵語 creator。開源 TTS 唔係取代人聲,係將內容創作自動化,等你專注喺最緊要嘅嘢——內容本身同洞察。