語氣 – 網網

人工智能（AI）的應用領域愈趨廣泛，例如Open AI的AI模型DALL-E，就可透過輸入文字描述，生成對應的圖片。微軟（Microsoft）亦發布了最新的AI模型VALL-E，可將3秒長度的語音樣本，模仿成某個真人的發聲，更可匹配成不同的說話語氣。

藉Meta語音庫訓練

VALL-E屬於「神經編解碼語言模型」（Neural Codec Language Model），核心技術則來自Meta的AI壓縮神經網絡「Encodec」。微軟表示，研究人員是透過Meta的LibriLight語音庫中來自7,000多名演講者，共6萬小時英語語音來訓練VALL-E。

為改進VALL-E，微軟正計畫擴大其訓練數據，以提高模型在語氣、說話風格和說話人相似度方面的表現，以及減少不清楚或遺漏詞語的情況。

但微軟提到，由於該模型能合成為某人的語音，可能存在濫用而造成類似「深偽技術」（Deepfake）的欺詐風險，因此暫時不會開放VALL-E的代碼。

網網