AI 主播音色設計的幾個工程考量(為什麼不是越像真人越好)

AI 主播音色設計的幾個工程考量(為什麼不是越像真人越好)
這個問題,我們內部爭論過很多輪,也被客戶問過很多次。
"能不能做到 100% 聽不出來是 AI?"
每次聽到這個問題,我的第一反應都不是"能"或"不能",而是"這個目標本身設對了嗎"。
廣播主播的音色,不是越模擬越好用。廣播場景有自己獨特的傳播環境和接收條件,"最像真人"不等於"最適合廣播"。把這兩件事混在一起,往往會把音色調到一個聽感上很逼真、但實際在廣播場景裡效果反而下降的方向。
這篇文章,我把我們在音色工程上積累的幾個核心認識整理出來,不是產品宣傳,是真正影響工程決策的那幾個判斷。
廣播場景的接收條件決定了音色要求
先講物理背景,這是最容易被忽視的。
廣播聽眾,尤其是交通廣播的主要使用者,是在車裡收聽的。車內的聲學環境和安靜的房間差別很大:發動機噪聲、路面噪聲、風噪,疊加在一起,底噪水平遠高於安靜環境。
這意味著,廣播音色的設計,必須考慮在有底噪的環境下的可辨識度,而不只是在安靜環境下的聽感逼真度。
具體影響:
頻率範圍:人聲的基頻在 100-3000Hz,但在噪雜環境下,清晰度主要由 1000-4000Hz 段的能量密度決定。如果音色的高頻部分(2000-4000Hz)過度平滑——這在"聽感好聽"的 TTS 最佳化裡很常見——在車內收聽時清晰度會明顯下降。
響度動態:模擬人聲的一個特徵是有自然的響度起伏,輕重對比明顯。這在安靜環境裡聽感好,但在底噪環境裡,輕的部分可能被完全掩蓋。廣播音色的動態範圍不能太大,需要壓縮到適合底噪環境接收的區間。
語速設計:真人說話的語速受情緒、內容和語境影響,自然波動範圍很寬。廣播主持的語速是經過專業訓練控制的,穩定在特定區間,是因為這個區間在移動收聽條件下資訊傳遞效率最高——太快聽不清,太慢又注意力渙散。模擬 TTS 如果過度模擬自然語速波動,可能反而不如經過訓練的廣播語速效果好。
不同時段的語速和語調差異
這是一個很多人做過定性描述、但很少從工程角度量化的問題。
廣播主持在不同時段有明顯的語速和語調差異,這不是隨機的,而是有受眾和內容邏輯支撐的。
早間(06:00-09:00):受眾處於通勤準備或通勤途中,時間感強,資訊密度需求高。語速偏快,語調偏明快,情感色彩積極。內容切換節奏快,不拖延。
午間(11:00-14:00):受眾狀態較輕鬆,部分在午休或移動中。語速偏中速,語調平和,情感色彩適中。部分臺午間有新聞聯播或時政播報,語速更穩重。
夜間(21:00-24:00):受眾放鬆狀態,情感內容佔比高。語速偏慢,語調偏溫柔,動態範圍可以稍大,情感起伏更明顯。
在工程上,這意味著 AI 主播不能只有一套語速和語調引數。我們在 KAVANA AI 系統裡,按時段設計了不同的 prosody 引數集——不是簡單地改語速數值,而是在韻律標註層就為不同時段建立了不同的標註規則,讓模型在訓練階段就學到時段差異。
這個工作量不小,但效果是真實的。一家合作臺上線後,在主觀聽感評測裡,聽眾明確感受到了早間和夜間節目的主播"狀態不同",這正是我們希望達到的效果。
遠距離和嘈雜收聽環境對清晰度的要求
繼續說物理約束,這次是距離。
廚房裡開著廣播幹活,是一個典型的廣播收聽場景。在這個場景裡,聽眾和音箱之間有距離,周圍有生活噪聲(抽油煙機、水聲、炒菜聲),注意力是分散的,聽廣播是"背景接收"模式。
在這種場景下,清晰度高的音色,比聽感"好聽"的音色更有用。
清晰度的工程定義,主要是子音的可識別率。漢語的子音(尤其是送氣音和邊音)在噪雜環境下最容易丟失,而子音的可識別率直接影響詞語的可辨認度。"李明/林明/劉明"在噪雜環境下如果子音不清晰,聽眾根本分不清說的是誰。
真人廣播主持人經過專業訓練,發音咬字比日常說話清晰很多——這不是修辭,是職業技能的一部分,有具體的發音技術方法。
AI 音色的語料採集,如果直接從普通人聲錄音裡取,包含了大量日常說話中的咬字含糊,模型學了這些習慣,合成出來的音色在噪雜環境裡的清晰度就會不如標準廣播主持人錄音。
我們在語料採集階段,專門對語料庫裡的發音進行清晰度篩選,不合格的錄音不進入訓練集。這個篩選是有量化標準的,不靠主觀評價。
語料標籤、韻律標註和 prosody 調校
具體講工程過程。
音色訓練的第一步是語料,但語料不是"錄很多句子"就夠了。對廣播音色來說,語料需要覆蓋以下幾個維度:
內容型別覆蓋:新聞類、天氣類、路況類、文藝類,發音特徵和韻律習慣都不同。新聞主播念"北京今日天氣"和念"今晚為您帶來一檔特別節目",用的是不同的語氣框架。語料要保證各型別內容都有足夠覆蓋。
語速段覆蓋:慢速(用於特定節目或需要強調的內容)、正常速、快速(路況播報常用),三個區間都要有語料,不能只錄一種速度。
情感維度標註:語料錄製完之後,要對每句話做情感維度標註,包括情感極性(積極/中性/嚴肅)、語氣強度、停頓位置、重音位置。這些標註在訓練階段告訴模型"這種內容應該怎麼念",而不是讓模型自己去猜。
prosody 調校是在模型訓練之後做的,目的是把模型的輸出調整到符合廣播規範的區間。調校的維度包括:全域性語速基準、句末停頓時長、數字串的念法("2024年"和"20-24"是兩種不同的斷句方式)、專名重音位置。
這個調校過程是迭代的,不是一次就能定型。我們在一個新臺的音色定製專案裡,一般要經過五到八輪調校迭代,每一輪針對上一輪聽感評測裡發現的問題做修正。
90% 模擬度的實際工程意義
回到最開始的問題——為什麼不是越像真人越好?
"100% 模擬度"在當前技術條件下已經接近可實現,但追求這個目標會帶來幾個副作用:
一是訓練資料需求量爆炸式增長。模擬度從 90% 提升到 99%,所需語料量可能增加 10 倍,計算成本增加同等量級,但帶來的廣播場景實際效果提升是邊際遞減的。
二是過於逼真的聲音反而引發聽眾疑慮。這是一個真實的心理效應,行業裡叫"恐怖谷"——當 AI 聲音逼真到接近但尚未完全達到真人水平時,聽眾會感到不適,這種不適感反而比明顯的 AI 音色更負面。一些臺在用了超高模擬度的 AI 聲音之後,收到了聽眾質疑"這個主播聲音聽著有點不對",而用稍微低一點模擬度的音色反而沒有這個問題。
三是高模擬度往往以犧牲清晰度為代價。模擬度的提升通常來自對人聲細節的精細建模,包括氣聲、口腔共鳴、輕微顫動等。這些細節在安靜環境下增加了聽感的真實感,但在噪雜廣播場景下會降低辨識度。
我們在 KAVANA 的音色設計裡,目標設在 90%+ 的模擬度,而不追求更高。這個區間的音色,在主觀評測裡能讓大多數聽眾無法區分真人錄音和 AI 合成,同時保持了廣播場景所需的清晰度和韻律穩定性,沒有"恐怖谷"的心理效應,訓練和維護成本也在合理範圍內。
這是一個工程折中,不是技術能力的限制。
音色定製和現成音色的選擇
最後講一個實際選擇的問題。
對於多數縣級臺,直接從 KAVANA AI 合成系統 的預製音色庫裡選一個用,是價效比最高的方案——預製音色已經經過廣播場景調校,開箱即用,不需要額外定製成本。/aiUtils 合成工具 提供了多個預製音色的試聽和引數調整功能,可以按照臺裡的需求在有限範圍內做微調。
有自己品牌音色需求的臺(例如已經有知名主播願意授權聲紋,或者臺裡希望定製獨有音色),可以走定製流程。定製音色的門檻,主要是語料錄製的時間投入——錄製符合質量要求的語料,通常需要 4-6 小時的專業錄音時間,以及之後的標註和訓練週期(一般 2-3 周)。
定製音色完成後,會獨立部署,臺裡擁有使用權,不和其他臺共用。這對有品牌保護意識的臺比較重要。
不管是預製還是定製,音色上線後都需要經過一段時間的實際使用驗證,根據聽感反饋做進一步調整。音色不是"訓練完就完了",是一個需要持續維護的工程產品,隨著臺裡內容型別的變化和聽眾反饋的積累,要定期做 prosody 引數的複核和更新。
KAVANA 廣播 AI 音色工程團隊自 2019 年開始專注於廣播場景的語音合成調校,積累了覆蓋多種方言和普通話標準音色的語料庫,歡迎透過官網預約技術交流。