|
9月12日消息,谷歌旗下人工智能公司DeepMind近來憋了個大招,繼AlphaGo贏了人類棋手后,他們又研制出了能夠生成模仿人類語音的系統。 據外媒介紹,該系統讓機器說話與人類說話之間的差距縮小了50%。DeepMind將這個系統命名為Wavenet。 讓人能與機器對話一直是人類希望在人工智能領域里實現的目標。但是,目前用計算機生成語音仍然大量地依賴于TTS(文本到語音)拼接技術。在這個過程中,機器首先要記錄一個說話人的聲音片段,并基于此構建超大型的數據庫,隨后,經過再次結合過程,形成完整的表達。 WaveNet改變了這種舊范式,它直接對原始聲音信號的聲浪建模,每次對一個樣本進行建模。和生成更加自然的語音一樣,使用原始的聲波意味著WaveNet能對任何音頻建模,其中包括音樂。 研究人員稱WaveNet能知道自己說的是什么。首先,研究人員通過把文本轉化成一個語言與聲學特征序列(這個序列包含了當下的聲音、字母、詞匯等),然后把這一序列喂到WaveNet中,從而能讓模型了解到自己要說什么。 DeepMind是一家專注于人工智能的公司,于2010年成立于倫敦,并在2014年被谷歌以4億英鎊(約合5.32億美元)收購。隨后,DeepMind就獲得了使用谷歌數據的權利,這對于他們訓練自己的系統意義重大。這次訓練WaveNet的數據用的就是谷歌TTS數據庫。 訓練結束后,研究人員可以把網絡數據作為樣本,產生合成的表達,進行取樣,然后用到下一個步驟的預測中。 據外媒報道,目前谷歌還沒有推出關于WaveNets的任何商業應用,因為它需要巨大的計算能力。語音正在成為人類和機器互動中越來越重要的手段,目前亞馬遜、蘋果、微軟和谷歌都在投資能讓用戶通過語音進行交互的個人數字助理。DeepMind的這項技術也受到了來自各方面的關注。(王卡卡) |
免責聲明:本網站內容由網友自行在頁面發布,上傳者應自行負責所上傳內容涉及的法律責任,本網站對內容真實性、版權等概不負責,亦不承擔任何法律責任。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。