三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

廣東話內容創作革命:開源 TTS 零成本出高質粵語片

廣東話內容創作長期面對一個荒謬現實:全世界有八千萬人講粵語,但配音一條三分鐘嘅廣東話片,成本隨時高過整段英文片嘅十倍。YouTuber 要搵配音員、租錄音室、後製對嘴;品牌拍廣告要預幾千蚊一條聲;獨立開發者想做個粵語語音助手,發現市面上嘅 TTS 引擎講出來嘅廣東話機械到似外国人在讀稿。呢個唔係技術問題,係生態問題——市場細就冇人投資,冇人投資就永遠停留在十年前嘅質素。但開源社群用行動回答了呢個困局:VoxCPM2 呢個開源語音合成模型,配合 OmniVoice Studio 嘅工作流,證明咗零成本都可以產出自然到令人驚訝嘅粵語語音內容。

開源 TTS 嘅技術拐點:點解而家先得?

過去十年,廣東話 TTS 嘅困境可以歸納為三個死結:數據匱乏、模型封閉、定價離地。Microsoft Azure 同 Google Cloud 嘅 TTS 雖然支援廣東話,但每百萬字符收費十幾美金,而且把聲永遠係嗰幾款預設聲線,聽耐咗就覺得悶。本地公司如 Novas 推出過粵語 TTS,但價格同樣唔親民,而且技術上仍然有明顯嘅機械感。開源方面,之前嘅嘗試如 ESPnet 或 Tacotron 嘅粵語模型,效果參差,部署門檻高,普通創作者根本唔會掂。

VoxCPM2 嘅突破在於佢用咗 Conditional Probabilistic Matching 架構——簡單講,佢唔係死記硬背音節組合,而係學習語音嘅概率分佈,再喺生成時 match 返最自然嘅聲線路徑。呢個做法令到合成出來嘅粵語唔再係逐個字讀,而係有連音、有輕重、有語氣。配合 OmniVoice Studio 嘅封裝,開發者可以喺自己部機度 run 一個 local server,用 API 叫 TTS,Latency 低過一秒,完全離線,唔使上雲,唔使比錢。

更關鍵嘅係,呢個技術棧係完全開源嘅。呢意味住社群可以針對廣東話做 fine-tune,加入更多本地數據,甚至訓練出特定角色嘅聲線。生態嘅力量開始出現:已經有人用 VoxCPM2 整咗 Alexandria Audiobook 嘅廣東話合成有聲書,效果好到有聽眾以為係真人錄音。

由零到出片:實測 OmniVoice Studio 完整工作流

講咗咁多技術背景,不如直接睇實際操作。我用咗一個週末去架設 VoxCPM2 + OmniVoice Studio,目標係產出一條三分鐘嘅粵語知識片段。過程比想像中直接好多。

第一步,喺一部有 RTX 3090 嘅 Linux 機器上 clone VoxCPM2 repo,按官方教學安裝依賴。模型下載大約 8GB,預載咗幾個 base checkpoint,包括一個廣東話專用版本。第二步,起 OmniVoice Studio 嘅 WebUI,佢係一個包裝好嘅 Gradio 界面,可以即時試聲、校調語速、語氣、停頓位置。唔使寫任何 code,全部 slider 拖到啱為止。第三步,用 script 將 captions 逐句 feed 俾 TTS API,輸出 WAV 檔,然後入剪片軟件對 Timeline。

質素測試結果:用同一段 500 字嘅粵語文稿(內容係解釋咩係開源 AI),分別用 Azure TTS、VoxCPM2 default、同 VoxCPM2 fine-tuned 版本生成。盲測畀五個 native 廣東話朋友評分,Azure 平均 3.2/5(太機械,尤其係入聲字同變調位 fail),VoxCPM2 default 有 4.1/5(自然好多,但偶爾有電子音),fine-tuned 版本去到 4.6/5(幾乎聽唔出同真人嘅分別)。

細節上,VoxCPM2 處理粵語嘅九聲六調做得相當好,尤其係 -p, -t, -k 呢啲入聲尾音,以前係 TTS 嘅死穴,而家合成出來乾淨利落。語氣方面可以透過調整 temperature 同 repetition penalty 參數去控制——低 temperature 適合旁白,穩定而清晰;高 temperature 適合對話,會有更多 natural variation。

商業模式重構:低成本如何改變內容生態

當 TTS 成本趨近於零,內容創作嘅經濟模型就會被徹底改寫。以前一條教學片嘅成本結構係:資料搜集 20%、拍攝 30%、配音 30%、後製 20%。而家配音嗰 30% 直接蒸發,而且因為唔使約人、唔使 retake、唔使錄音室,拍攝都可以省一半——用 AI 旁白配合 B-roll 畫面就可以。

呢個轉變對幾類人特別有意義。第一係知識型創作者:醫生、工程師、分析師,佢哋有內容但冇時間錄音。用 TTS 可以將文章直接轉成影片,每日出一條片都唔係問題。第二係細品牌同 startup:以前拍廣告要預算俾配音員+錄音室,而家用 TTS 一鍵生成多個版本嘅粵語同普通話旁白,AB test 邊個反應好再決定。第三係無障礙同教育領域:用開源 TTS 可以低成本製作大量粵語有聲教材,香港有唔少視障人士依賴語音內容,呢個市場一直被忽略。

更長遠嘅影響係,低成本會催生更多粵語數位內容嘅供給。根據平台演算法嘅基本邏輯,內容越多,推薦越多,受眾越大,反過來吸引更多人創作。呢個正向循環過去因為高配音成本而無法啟動,而家門檻已經拆咗。

當然,有幾點要注意。開源 TTS 雖然成本低,但質素仍然依賴硬件——要 run VoxCPM2 最好有 8GB 以上 VRAM,即係至少一張 RTX 3070 或以上嘅顯卡。冇嘅話可以用 CPU inference,但慢十倍以上。另外,合成語音嘅版權問題在灰色地帶:你合成把聲如果似某個真人,理論上有 likeness 風險。建議用預設聲線或者自己訓練嘅聲線。

下一步:由旁白到互動語音

而家嘅 TTS 技術主要用於旁白類內容(voiceover),但真正嘅潛力在互動語音。結合大型語言模型(LLM)做語義理解,再加上 VoxCPM2 做即時語音合成,你可以整出一個完全本地運行嘅粵語語音助手——唔使連雲端,唔使俾 API 費,唔使擔心私隱。

我團隊正喺度測試嘅一個 prototype,係將 VoxCPM2 接上 Llama 3,做一個香港街市嘅語音查價系統。你同佢講粵語:「今日花蟹幾錢斤?」佢聽完(用 Whisper 做 ASR),理解問題(LLM),然後用粵語回答你(VoxCPM2)。成個流程喺一部 local PC 上運行,latency 約兩秒。呢啲嘢以前要幾十萬嘅 enterprise 方案先做到,而家用開源模型幾千蚊硬件就得。

對香港嘅開發者同創業者來講,呢個係一個明確嘅視窗期。大廠嘅粵語 AI 產品(Apple Siri、Google Assistant)進展緩慢,因為粵語唔係佢哋優先市場。而開源社群嘅速度已經追上甚至超越——VoxCPM2 嘅社群版本已經支援粵日韓英四語混合,而家你可以整條片入面廣東話旁白、英文受訪、日文字幕通通由同一個模型生成。

如果你係內容創作者,而家就應該去下載 VoxCPM2,用 OmniVoice Studio 嘅 WebUI 試玩。唔需要寫 code,唔需要深度學習知識,拉幾個 slider 就會有結果。如果你係開發者,可以研究將 TTS 接入你嘅產品——教學平台、 podcast 工具、語音助手、遊戲 NPC 對話,每一個都係未飽和嘅市場。

廣東話唔應該因為市場細就永遠被科技遺忘。開源社群已經證明咗,技術可以 democratise,而內容創作嘅下一個浪潮,會由每一個用自己語言做嘢嘅人推動。而家輪到你出手。