DeepMind A.I. Превръща разстоянието между робота и човешките гласове

$config[ads_kvadrat] not found

AlphaGo - The Movie | Full Documentary

AlphaGo - The Movie | Full Documentary
Anonim

Изкуственият интелект просто накара роботните гласове да звучат много по-реалистично.

DeepMind, която преди това демонстрираше силата на A.I. като победи човек в Go през март и съкрати сметката си за електроенергия наполовина през юли, сега е фокусиран върху синтеза на речта.

Изследователската група A.I, която е част от компанията-майка на Google Alphabet, разкри тази сутрин, че е създала нова технология, наречена WaveNet, която може да се използва за генериране на реч, музика и други звуци по-точно, отколкото преди.

DeepMind обяснява, че много съществуващи методи за синтез на реч разчитат на „много голяма база данни от кратки речеви фрагменти се записват от един високоговорител и след това се комбинират, за да образуват пълни изказвания.“ WaveNet, от друга страна, използва „сурова форма на сигнала на аудиосигнала“ ”За създаване на по-реалистични гласове и звуци.

Това означава, че WaveNet работи с отделните звуци, създадени, когато човек говори вместо да използва цели срички или цели думи. Тези звуци след това се изпълняват чрез „скъпоструващ“ процес, който DeepMind е намерил „от съществено значение за генериране на сложни, реалистично звучащи аудио“ с машини.

Резултатът от цялата тази допълнителна работа е 50% подобрение на синтезираната реч в английския и китайския мандарин. Ето пример за реч, генерирана с помощта на параметричен текст-към-говор, който е често срещан днес, използван от DeepMind, за да покаже как липсва този метод за синтез на реч:

Ето пример за същото изречение, генерирано от WaveNet:

Тъй като компаниите продължават работата си по интерфейсите на естествения език, предлагането на по-реалистични звуци ще става все по-важно. WaveNet може да помогне за решаването на този проблем.

$config[ads_kvadrat] not found