Jump to content
Asmo Media Group
Message added by admin

В Google AI обучили  Translatotron — нейросеть, которая принимает на вход аудиозапись с речью и на выходе отдает аудиозапись с той же фразой, переведенной на другой язык. Translatotron может как реплицировать голос человека на входной аудиозаписи, так и использовать стандартный голос. Примеры сгенерированных аудиозаписей можно послушать на странице статьи.

Разработки по переводу из речи в речь ведутся последние несколько десятков лет. Обычно такие системы делятся на три этапа:  автоматическое распознавание речи (перевод из аудиозаписи в текст), машинный перевод (перевод текста на одном языке в текст на другом языке) и синтезирование аудиозаписи из текста. Именно таким образом работает Google Translate. 

В своей работе исследователи из Google предлагают новый подход к speech-to-speech переводу. Модель напрямую переводит из аудиозаписи в аудиозапись и основывается на одной sequence-to-sequence модели с использованием механизма внимания. Такая архитектура имеет несколько преимуществ в сравнении с трехступенчатой — более быстрый инференс модели, нет накопления ошибок между разными моделями, возможность напрямую натренировать модель реплицировать голос на входной аудиозаписи.

Архитектура Translatotron

Translatotron принимает на вход спектограммы (визуальное представление аудиоволн) аудиозаписи и на выходе генерирует спектограммы. Два компонента Translatotron обучаются отдельно:

  • vocoder (конвертирует спектограммы в аудиоволны);
  • кодировщик речи спикера (опциональный компонент, который отвечает за репликацию голоса на входной аудиозаписи)

 

image1-2.png

 

Во время обучения модель использует многозадачную целевую функцию, которая предсказывает транскрипты входной и целевой аудиозаписей одновременно с генерацией спектограмм. Однако во время инференса модели текстовые транскрипты не используются.

Google AI разработали нейросеть по переводу речи с одного языка на другой


admin

173 views

google-AI-Submit-free-articles-directory.jpg.fbdb9c2375424316defe0e1bf3e1671a.jpg

Оценка работы модели

Исследователи для проверки работы модели использовали BLEU метрику. BLEU считалась по текстовым транскриптам, сгенерированным в системе по распознаванию речи. End-to-end подход пока уступает конвенциональному трехступенчатому по эффективности. Однако ценность работы в том, что ранее end-to-end решений в speech-to-speech задаче не было.

 

0 Comments


Recommended Comments

There are no comments to display.

Guest
Add a comment...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...

Important Information

By using this site, you agree to our Terms of Use.