三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

粵語 TTS 大爆發:VoxCPM2 開源引擎支援廣東話,香港創作者的機會

粵語 TTS 大爆發:VoxCPM2 開源引擎支援廣東話,香港創作者的機會

TL;DR

  • VoxCPM2 係 OpenBMB 出品嘅開源 TTS 引擎,2B 參數,訓練數據超過 200 萬小時,支援 30 種語言包括粵語,Apache 2.0 免費商用
  • 三種模式:Voice Design(文字描述生成新聲音)、聲音克隆(5-15 秒錄音)、Ultimate Cloning(最高精度)
  • 香港創作者三個商業方向:粵語有聲書、Podcast 製作服務、多語言版本
  • 零成本起步:OmniVoice Studio 直接下載,3 分鐘入門,唔需要 GPU
  • 現在係最早嘅一批:粵語 AI 語音商業化窗口係依家開嘅

YouTube 上有大量有聲書頻道,AI 配音嘅,但啲聲音真到讓人以為係真人。

呢個唔係偶然。2026 年係粵語 TTS 嘅分水嶺——特別係廣東話。以前好多 AI 語音工具支援普通話、英文、日文,但廣東話?就算有,個聲聽落去好似撈起唸稿咁,冇廣東話嘅韻味。依家有一隻叫 VoxCPM2 嘅開源引擎出嚟,改變咗呢個局面。


VoxCPM2 係乜?

OpenBMB 出品,係同一個做 MiniCPM 嘅團隊。2B 參數嘅語音模型,訓練數據超過 200 萬小時——相當於幾百年嘅人手錄音量,意味住訓練到嘅語言多樣性係前所未有,包括廣東話嘅各種腔調。

佢用咗一個叫「無 Tokenizer 架構」嘅技術——唔需要將語音分詞,直接端到端生成,所以個聲質好好多。支援 30 種語言,Apache 2.0 授權,免費商用。

三種模式:

Voice Design — 你寫文字描述,比如「一把 30 歲女性,親切帶自信,廣東話口音」,佢就直接幫你生成一把全新嘅聲音,唔需要任何錄音。

聲音克隆 — 你錄一段 5 到 15 秒嘅音頻,佢就複製你嘅聲音,之後任何文字都用你把聲讀。

Ultimate Cloning — 最高精度。你俾一段長啲嘅參考錄音同埋文字稿,佢就完美延續你把聲嘅所有細節,包括你嘅獨特口音同呼吸節奏。


工具生態全景

除咗 VoxCPM2,仲有幾個重要工具值得知道:

Fish Speech — GitHub 上最多 star 嘅開源 TTS,接近三萬 star。聲音質素係 SOTA 水平,基本上係商業 API 嘅水準。支援語音克隆,可以本地跑。適合有 GPU 嘅人。

OmniVoice Studio — 本地版 ElevenLabs。免費、零 API key、100% 本地運行,支援 646 種語言(廣東話係特別優先支援嘅)。最特別嘅功能係影片配音:丟一條 YouTube URL,佢幫你轉錄、翻譯、重新配音,直接輸出 MP4。

Alexandria — 專門做有聲書嘅端到端 pipeline。丟一本書嘅文本入去,AI 自動識別邊段係旁白、邊段係對白、係哪個角色講,自動分配唔同聲音朗讀,最後輸出帶章節嘅 M4B 有聲書文件。一個人,用一台電腦,可能一個小時搞掂以前要幾十個小時嘅工作。


香港創作者嘅三個商業方向

方向一:粵語有聲書市場

依家粵語有聲書嘅供應量係極低嘅,需求係有嘅——特別係粵語網文、本地作家出嘅書、香港歷史題材。你揀一個你熟悉嘅細分類別,用 Alexandria 生成,放係 Spotify、Apple Podcast、或者自己嘅 Patreon。第一個做係有先行者優勢嘅。

舉個例子:做一個叫「粵語財經書摘」嘅 podcast——專門將投資類書籍用廣東話讀出來,加埋你嘅觀點。工具係免費嘅,內容製作成本接近零,但係廣告同會員收入係真實嘅。

方向二:Podcast 製作服務

幫其他人做。好多香港 KOL、作家、企業都想做音頻內容,但係冇時間錄音、唔想用標準化嘅 AI 聲音。依家你可以克隆對方把聲,5-15 秒錄音就夠,之後佢哋任何文章都係用自己把聲讀出嚟。

企業廣播電訊、訓練教材、客戶通訊——每個月服務費都係真實收入。呢個係 ElevenLabs 賣幾千港幣月費嘅服務,但依家你可以本地跑,成本基本係零。

方向三:多語言版本

香港係個多元市場。好多 content 係廣東話做咗,但你加翻一個英文版、普通話版,就可以打入內地同海外市場。用 OmniVoice 嘅影片配音功能,可以半自動化咁做到。


技術門檻其實有幾低

零成本試水:OmniVoice Studio 直接下載安裝,唔需要 Python 環境,唔需要 API key,唔需要 GPU。3 分鐘入門。

中階(更好質素):VoxCPM2 或者 Fish Speech,需要一張 NVIDIA 顯示卡,8GB VRAM 係夠起步嘅(3060、3070 都得)。裝 Python,跑埋官方 demo,半日可以搞掂。

冇 GPU 嘅選擇:edge-tts——Microsoft Edge 嘅免費語音引擎,pip install 一行,免費,100 種以上語言聲音,廣東話係有嘅。音質不及 VoxCPM2,但試水用係夠的。

整個生態係開源嘅,Apache 2.0 授權,免費商用,唔使擔心版權問題。


第一步:今日就可以做

第一步,今日就裝 OmniVoice Studio。 先體驗一次聲音克隆——錄 15 秒自己把聲,然後打一段文字,聽下自己嘅 AI 版本係咩感覺。呢個體驗會令你好快搵到自己嘅應用方向。

第二步,揀一個你已經熟悉嘅內容類別。 有聲書、書摘、訪談旁白——揀你最舒適嗰個。唔好係全新嘅,要係你本身已經熟識嘅。

第三步,做一個 10 集嘅 mini-series,完全用 AI 配音,放係 Spotify 或者 Apple Podcast 測試市場反應。 10 集係你嘅 MVP——用嚟驗證係咪有受眾。

用 Alexandria + VoxCPM2 嘅 pipeline,一集 10 到 15 分鐘嘅有聲書,大概 2 到 3 小時搞掂,包括後期輕微編輯。係人手錄音嘅十分之一時間。

粵語 TTS 終於成熟,商業化窗口係依家開嘅。任何一個新技術嘅商業化,最好嘅時機係技術剛剛可用、競爭仲未激烈嗰陣——而呢個窗口唔係永遠都開嘅。


工具連結:

更多 AI-first 副業思維,睇 richmindsetzone.com