粵語 TTS 大爆發：VoxCPM2 開源引擎支援廣東話，香港創作者的機會

TL;DR

VoxCPM2 係 OpenBMB 出品嘅開源 TTS 引擎，2B 參數，訓練數據超過 200 萬小時，支援 30 種語言包括粵語，Apache 2.0 免費商用
三種模式：Voice Design（文字描述生成新聲音）、聲音克隆（5-15 秒錄音）、Ultimate Cloning（最高精度）
香港創作者三個商業方向：粵語有聲書、Podcast 製作服務、多語言版本
零成本起步：OmniVoice Studio 直接下載，3 分鐘入門，唔需要 GPU
現在係最早嘅一批：粵語 AI 語音商業化窗口係依家開嘅

YouTube 上有大量有聲書頻道，AI 配音嘅，但啲聲音真到讓人以為係真人。

呢個唔係偶然。2026 年係粵語 TTS 嘅分水嶺——特別係廣東話。以前好多 AI 語音工具支援普通話、英文、日文，但廣東話？就算有，個聲聽落去好似撈起唸稿咁，冇廣東話嘅韻味。依家有一隻叫 VoxCPM2 嘅開源引擎出嚟，改變咗呢個局面。

OpenBMB 出品，係同一個做 MiniCPM 嘅團隊。2B 參數嘅語音模型，訓練數據超過 200 萬小時——相當於幾百年嘅人手錄音量，意味住訓練到嘅語言多樣性係前所未有，包括廣東話嘅各種腔調。

佢用咗一個叫「無 Tokenizer 架構」嘅技術——唔需要將語音分詞，直接端到端生成，所以個聲質好好多。支援 30 種語言，Apache 2.0 授權，免費商用。

三種模式：

Voice Design — 你寫文字描述，比如「一把 30 歲女性，親切帶自信，廣東話口音」，佢就直接幫你生成一把全新嘅聲音，唔需要任何錄音。

聲音克隆 — 你錄一段 5 到 15 秒嘅音頻，佢就複製你嘅聲音，之後任何文字都用你把聲讀。

Ultimate Cloning — 最高精度。你俾一段長啲嘅參考錄音同埋文字稿，佢就完美延續你把聲嘅所有細節，包括你嘅獨特口音同呼吸節奏。

除咗 VoxCPM2，仲有幾個重要工具值得知道：

Fish Speech — GitHub 上最多 star 嘅開源 TTS，接近三萬 star。聲音質素係 SOTA 水平，基本上係商業 API 嘅水準。支援語音克隆，可以本地跑。適合有 GPU 嘅人。

OmniVoice Studio — 本地版 ElevenLabs。免費、零 API key、100% 本地運行，支援 646 種語言（廣東話係特別優先支援嘅）。最特別嘅功能係影片配音：丟一條 YouTube URL，佢幫你轉錄、翻譯、重新配音，直接輸出 MP4。

Alexandria — 專門做有聲書嘅端到端 pipeline。丟一本書嘅文本入去，AI 自動識別邊段係旁白、邊段係對白、係哪個角色講，自動分配唔同聲音朗讀，最後輸出帶章節嘅 M4B 有聲書文件。一個人，用一台電腦，可能一個小時搞掂以前要幾十個小時嘅工作。

方向一：粵語有聲書市場

依家粵語有聲書嘅供應量係極低嘅，需求係有嘅——特別係粵語網文、本地作家出嘅書、香港歷史題材。你揀一個你熟悉嘅細分類別，用 Alexandria 生成，放係 Spotify、Apple Podcast、或者自己嘅 Patreon。第一個做係有先行者優勢嘅。

舉個例子：做一個叫「粵語財經書摘」嘅 podcast——專門將投資類書籍用廣東話讀出來，加埋你嘅觀點。工具係免費嘅，內容製作成本接近零，但係廣告同會員收入係真實嘅。

方向二：Podcast 製作服務

幫其他人做。好多香港 KOL、作家、企業都想做音頻內容，但係冇時間錄音、唔想用標準化嘅 AI 聲音。依家你可以克隆對方把聲，5-15 秒錄音就夠，之後佢哋任何文章都係用自己把聲讀出嚟。

企業廣播電訊、訓練教材、客戶通訊——每個月服務費都係真實收入。呢個係 ElevenLabs 賣幾千港幣月費嘅服務，但依家你可以本地跑，成本基本係零。

方向三：多語言版本

香港係個多元市場。好多 content 係廣東話做咗，但你加翻一個英文版、普通話版，就可以打入內地同海外市場。用 OmniVoice 嘅影片配音功能，可以半自動化咁做到。

零成本試水：OmniVoice Studio 直接下載安裝，唔需要 Python 環境，唔需要 API key，唔需要 GPU。3 分鐘入門。

中階（更好質素）：VoxCPM2 或者 Fish Speech，需要一張 NVIDIA 顯示卡，8GB VRAM 係夠起步嘅（3060、3070 都得）。裝 Python，跑埋官方 demo，半日可以搞掂。

冇 GPU 嘅選擇：edge-tts——Microsoft Edge 嘅免費語音引擎，pip install 一行，免費，100 種以上語言聲音，廣東話係有嘅。音質不及 VoxCPM2，但試水用係夠的。

整個生態係開源嘅，Apache 2.0 授權，免費商用，唔使擔心版權問題。

第一步，今日就裝 OmniVoice Studio。 先體驗一次聲音克隆——錄 15 秒自己把聲，然後打一段文字，聽下自己嘅 AI 版本係咩感覺。呢個體驗會令你好快搵到自己嘅應用方向。

第二步，揀一個你已經熟悉嘅內容類別。 有聲書、書摘、訪談旁白——揀你最舒適嗰個。唔好係全新嘅，要係你本身已經熟識嘅。

第三步，做一個 10 集嘅 mini-series，完全用 AI 配音，放係 Spotify 或者 Apple Podcast 測試市場反應。 10 集係你嘅 MVP——用嚟驗證係咪有受眾。

用 Alexandria + VoxCPM2 嘅 pipeline，一集 10 到 15 分鐘嘅有聲書，大概 2 到 3 小時搞掂，包括後期輕微編輯。係人手錄音嘅十分之一時間。

粵語 TTS 終於成熟，商業化窗口係依家開嘅。任何一個新技術嘅商業化，最好嘅時機係技術剛剛可用、競爭仲未激烈嗰陣——而呢個窗口唔係永遠都開嘅。

工具連結：

更多 AI-first 副業思維，睇 richmindsetzone.com。