大主宰,欢乐颂小说在线阅读,梦入神机

NVIDIA的最新技術使人工智能的聲音更具表現力和真實感

2021-09-01 09:14:11 cnBeta.COM

點擊關注->創芯網公眾號，后臺告知EETOP論壇用戶名，獎勵200信元

亞馬遜的Alexa、Google助手和其他人工智能助手的聲音遠遠領先于老式的GPS設備，但它們仍然缺乏節奏、音調和聽上去讓人感覺真實的品質，NVIDIA公司在Interspeech 2021會議上宣布，該公司已經公布了新的技術和工具，可以通過讓你用自己的聲音訓練AI系統來捕捉這些自然的語音品質。

為了改進其人工智能語音合成，NVIDIA的文本-語音研究團隊開發了一個名為RAD-TTS的模型，這是NAB廣播大會上開發最逼真化身的比賽的獲勝作品。該系統允許個人用自己的聲音訓練文字轉語音模型，包括節奏、音調、音色等等。

RAD-TTS的另一個特點是語音轉換，它可以讓用戶用另一個人的聲音來傳遞一個說話者的話語。該界面可以對合成的聲音的音調、持續時間和能量進行精細的、幀級的控制。

利用這項技術，NVIDIA的研究人員為自己的《我是人工智能》系列視頻創造了更多聽起來像對話的語音解說，使用的是合成的聲音而不是人的聲音。其目的是讓解說詞與視頻的語氣和風格相匹配，這是迄今為止許多人工智能解說視頻中沒有做到的。結果仍然有點像機器人，但比我聽過的任何人工智能解說都好。

"有了這個界面，我們的視頻制作人可以錄下自己閱讀視頻腳本的過程，然后用人工智能模型將他的語音轉換為女解說員的聲音。"NVIDIA公司寫道："利用這一基線旁白，制作人可以像配音演員一樣指揮人工智能--調整合成的語音以強調特定的詞語，并修改旁白的節奏以更好地表達視頻的基調。"

NVIDIA公司正在分發這項研究的一部分--當然是為了在NVIDIAGPU上有效運行而進行的優化--通過用于GPU加速的對話式人工智能的NVIDIA NeMo Python工具包（可在該公司的容器和其他軟件的NGC中心獲得），向任何想要嘗試的人開放源代碼。其中幾個模型是在NVIDIA DGX系統上用數萬小時的音頻數據訓練出來的。開發人員可以針對他們的使用情況對任何模型進行微調，利用NVIDIA Tensor Core GPU上的混合精度計算加快訓練速度。

免責聲明：本文由作者原創。文章內容系作者個人觀點，轉載目的在于傳遞更多信息，并不代表EETOP贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題，請及時聯系我們，我們將在第一時間刪除！

關鍵詞： NVIDIA 人工智能芯片