О внедрении нейросетей в области аудиокниг

Сергей Анурьев, генеральный директор группы компаний "ЛитРес", рассказывает о внедрении нейросетей в аудиокниги, освещая их перспективы и преграды.


Вопрос о комфортности "голоса" искусственного интеллекта (ИИ) для слушателей пока не имеет окончательной оценки. Важно понимать, что технологии синтеза речи постоянно развиваются, и, я считаю, они будут на новом уровне уже завтра.


На данный момент некоторые крупные игроки, такие как Яндекс с технологией Яндекс SpeechKit, Сбер с SaluteSpeech, а также Тинькофф с Tinkoff VoiceKit и МТС с MTS AI, добились наибольших успехов в развитии технологий на основе машинного обучения и нейросетей. Все эти решения имеют свои особенности, преимущества и недостатки в области интонации, ударений и естественного звучания речи. Итоговый результат зависит от конкретно используемой технологии. Например, в нашей компании "ЛитРес" мы работаем на основе Яндекс SpeechKit, и пользовательские отзывы свидетельствуют о хорошем качестве данной технологии.


Что касается качественной оценки синтеза речи ИИ, мы следим за двумя параметрами: соотношение пользовательских оценок искусственно озвученных книг к оценкам студийных аудиокниг, а также соотношение пользовательских оценок искусственно озвученных книг к оценкам их текстовых версий.


Первый параметр отражает пользовательское отношение к озвучиванию книг ИИ в сравнении с качественными студийными записями. Мы осознаем, что в основном в ИИ "озвучиваются" менее популярные произведения, поэтому оценка книг ИИ будет ниже, чем у студийных записей. В настоящее время средняя оценка искусственно озвученных книг составляет 4,46 по сравнению с 4,64 у студийных записей.


Второй показатель позволяет оценить влияние озвучки ИИ на качество восприятия текста читателем. Если оценки искусственно озвученных аудиокниг в среднем не отличаются от оценок книг в текстовом формате, то можно считать, что ИИ не ухудшил восприятие книг читателями. В среднем оценка искусственно озвученных книг составляет 4,46, в то время как их текстовые оригиналы оцениваются читателями на уровне 4,6.