Habr<p>Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере</p><p>Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы часов видеоконтента. Напомним, что на старте для перевода использовались только два голоса — мужской и женский. Затем мы расширили набор заранее созданных голосов. Ну а сегодня мы делаем следующий большой шаг вперёд. Теперь наша технология сохраняет тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. О том, как мы этого добились, расскажу в этой статье. Вы узнаете, как выглядит архитектура нашего нового решения, какие проблемы zero‑shot‑синтеза мы решали и как ускоряли инференс новой модели. Расскажу про эвристики для выбора аудиопромптов. Поговорим про замеры качества. Ну и, конечно же, покажу итоговый результат нашей работы в виде ролика в конце статьи.</p><p><a href="https://habr.com/ru/companies/yandex/articles/902086/" rel="nofollow noopener noreferrer" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/yandex/a</span><span class="invisible">rticles/902086/</span></a></p><p><a href="https://zhub.link/tags/%D1%81%D0%B8%D0%BD%D1%82%D0%B5%D0%B7_%D1%80%D0%B5%D1%87%D0%B8" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>синтез_речи</span></a> <a href="https://zhub.link/tags/%D0%B8%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>искусственный_интеллект</span></a> <a href="https://zhub.link/tags/%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D0%B5%D1%80%D0%B5%D0%B2%D0%BE%D0%B4" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>машинный_перевод</span></a> <a href="https://zhub.link/tags/%D0%BF%D0%B5%D1%80%D0%B5%D0%B2%D0%BE%D0%B4_%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>перевод_видео</span></a> <a href="https://zhub.link/tags/%D1%8F%D0%BD%D0%B4%D0%B5%D0%BA%D1%81" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>яндекс</span></a> <a href="https://zhub.link/tags/machine_learning" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>machine_learning</span></a> <a href="https://zhub.link/tags/deep_learning" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>deep_learning</span></a></p>