微軟研AI語音模型 模仿真人發聲及語氣

人工智能(AI)的應用領域愈趨廣泛,例如Open AI的AI模型DALL-E,就可透過輸入文字描述,生成對應的圖片。微軟(Microsoft)亦發布了最新的AI模型VALL-E,可將3秒長度的語音樣本,模仿成某個真人的發聲,更可匹配成不同的說話語氣。

藉Meta語音庫訓練

VALL-E屬於「神經編解碼語言模型」(Neural Codec Language Model),核心技術則來自Meta的AI壓縮神經網絡「Encodec」。微軟表示,研究人員是透過Meta的LibriLight語音庫中來自7,000多名演講者,共6萬小時英語語音來訓練VALL-E。

為改進VALL-E,微軟正計畫擴大其訓練數據,以提高模型在語氣、說話風格和說話人相似度方面的表現,以及減少不清楚或遺漏詞語的情況。

但微軟提到,由於該模型能合成為某人的語音,可能存在濫用而造成類似「深偽技術」(Deepfake)的欺詐風險,因此暫時不會開放VALL-E的代碼。