8 мин. на чтение

На разных языках. Как помочь голосовым ассистентам лучше нас понимать?

img

Голосовым помощникам приходится распознавать речь в разных условиях. Мы выкрикиваем им запросы из другого конца квартиры, разговариваем с ними под шум пылесоса, детей, телевизора. Из-за этого они понимают нас хуже, а мы злимся. Как упростить задачу голосовым ассистентам и найти с ними общий язык? Расскажем в нашем материале.

Содержание

Что такое голосовой ассистент?

Голосовой ассистент — программное обеспечение, которое использует технологию распознавания голоса и искусственного интеллекта для выполнения различных задач по команде пользователя. Из чего состоит процесс работы ассистента:

  1. Распознавание речиЧтобы ассистент понял пользователя, ему нужно преобразовать голос в текст. Для этого звук оцифровывается, фильтруется от шумов, выравнивается по громкости.
  2. Классификация намеренийГолосовой помощник должен понять, что имел в виду пользователь и что он хочет услышать.
  3. Генерация ответаАссистент сначала составляет ответ, а затем озвучивает его с помощью технологии синтеза речи.

Разберем этот момент немного подробнее.

img

Как голосовой ассистент понимает человеческую речь?

Распознавание речи

Компьютер говорит на языке кода, это цифровой сигнал. Звук — это волны, аналоговый сигнал. Чтобы голосовой помощник нас понял, ему нужно перевести аналоговый сигнал в цифровой. Это называется оцифровкой.

Сначала запрос отправляется на сервер компании. Для удобства речь делится на фреймы — очень маленькие речевые фрагменты. Затем фреймы анализируют, и после этого голосовой помощник понимает, к какой фонеме принадлежит фрейм (фонема — минимальная единица звукового строя, больше фрейма). Алиса, к примеру, опирается на Ленинградскую фонологическую школу и выделяет 48 фонем. Если какие-то звуки голосовой помощник не разобрал, то он обращается к статистике и контексту. Фонемы составляются в слова, слова — в предложения. Так из голоса и получается текст.

Еще нужно отфильтровать человеческий голос от посторонних шумов. Мы говорим в диапазоне 75–500 Гц, а слышим — в 20–20 000 Гц. Голосовой помощник выделяет голос пользователя, отсеивая лишние звуки.

Для удобства ассистент выравнивает амплитуду голоса, нормализует его. Выбивающиеся громкие звуки становятся тише, тихие — громче. Это нужно для того, чтобы корректно распознать запрос.

Умная колонка Sber SberBoom Home
7 999 р.*
Смотреть товар
Умная колонка Sber SberBoom
11 999 р.*
Смотреть товар
Умная колонка Sber SberBoom Mini
4 499 р.*
Смотреть товар

Классификация намерений

Сначала запрос классифицируется по намерениям. Что хочет пользователь? Что-то найти в поисковике, настроить звук, послушать музыку?

Затем определяется тематический раздел. Что нужно сделать с музыкой? Лайкнуть, дизлайкнуть, установить порядок воспроизведения?

Голосовой ассистент делит запрос на слова, смотрит, в каких контекстах они чаще употребляются, и старается правильно сгенерировать ответ.

Умная колонка Vk Капсула Нео
4 599 р.*
Смотреть товар
Умная колонка Капсула Мини
7 999 р.*
Смотреть товар
Умная колонка Капсула
12 199 р.*
Смотреть товар

Генерация ответа

Ответ должен звучать естественно. Текст обратной связи делится на отдельные фразы, словосочетания, чтобы не было кривых интонаций. Есть два подхода: конкатенативный подход и параметрический синтез.

Конкатенативный подход использует Siri. Для каждой фонемы заранее записываются разные варианты озвучивания. Подобные голосовые помощники работают быстрее, но звучат монотонно и не так натурально.

Параметрический синтез используется Алисой. Он намного сложнее, работает на машинном обучении, но зато голосовой помощник звучит человечнее. Первый этап синтеза — предсказание интонации, ударения, долготы фонемы. Второй этап — озвучивание по итогам работы предыдущего этапа.

Умная колонка Apple HomePod mini, серый космос
16 290 р.*
Смотреть товар
Умная колонка Apple HomePod mini Yellow
16 990 р.*
Смотреть товар

Ранее мы рассказывали:

Как узнать, кто вам звонил?

О голосовых ассистентах от эксперта

Маргарита
шарит за Алису на профессиональном уровне

Почему голосовые ассистенты не всегда правильно нас понимают?

На самом деле однозначно ответить на этот вопрос нельзя. Существует множество причин.

Во-первых, на фоне могло быть шумно. Голосовые помощники все-таки лучше понимают в тишине, ведь они прислушиваются ко всем звукам. Это очень похоже на нашу повседневность: сколько раз у вас было, когда вы трижды переспросили и все равно не поняли, о чем именно говорит ваш собеседник? Особенно если разговор случается в людном, шумном месте.

Во-вторых, сама логика распознавания голосовыми помощниками человеческой речи — это сложный, массивный код. Чтобы магия момента не сломалась и голосовой помощник ответил вам сразу же, имитируя живой диалог с реальным человеком, виртуальный ассистент анализирует информацию еще до того, как вы закончите говорить последнее слово в предложении. Но в мире все несовершенно: вместо шума дождя помощник может включить трек с названием «Дождь». Ошибка ли это? С точки зрения юзера — да. Но пользователь не догадывается, какой огромный путь его запрос проделывает, чтобы в итоге вернуться к нему правильной композицией.

Ну и, конечно, не стоит забывать про особенности речи. Мы все говорим немного по-разному: быстрее, медленнее, тише, громче, проглатывая окончания. Все это тоже может сыграть роль.

Умная колонка Яндекс Станция Мини с часами
8 499 р.*
Смотреть товар
Умная колонка Яндекс Станция 2
14 999 р.*
Смотреть товар
Умная колонка Яндекс Станция Дуо
42 999 р.*
Смотреть товар
Умная колонка Яндекс Станция Макс
34 999 р.*
Смотреть товар

Как сделать так, чтобы голосовые ассистенты лучше нас понимали?

Не часто, но все-таки иногда Алиса неправильно понимает мой запрос. Услышала не так и сделала все наоборот. В этом случае я просто набираюсь терпения и повторяю свой запрос громче и четче. Обычно помогает.

Еще очень советую уточнить список команд, которые поддерживает голосовой помощник. Это для нас «включи телевизор» и «врубай телек» — одно и то же, но для ассистента одна фраза может быть понятной, поддерживаемой командой, а вторая — простым набором слов, который произносится просто ради диалога.

Если изучать команды слишком долго и скучно, попробуйте конкретизировать запрос, сузить круг поиска, спросить другими словами.

Есть ли у Алисы крутые, но малоизвестные фишки, лайфхаки?

Тут смотря что считать крутыми фишками. Вообще все навыки Алисы собраны в специальном разделе. Там есть созданные пользователями игры, квесты, развивающие и обучающие фичи. Каждый точно найдет что-то свое. А из дефолтных мне нравятся несколько функций. Не знаю, насколько они малоизвестные, но все же перечислю:

  • Найди телефонУ нас в семье заброшенный куда-то телефон — частая история. Алису можно попросить найти телефон, и она на него позвонит. Функция сработает, если на смартфоне включен звук или хотя бы вибрация.
  • РадионяняЭтой фишкой я не пользуюсь, но считаю ее очень классной. Нужны всего две колонки, которые превратятся в радионяню.
  • Подсветка «Станции Миди»Это отдельная эстетическая любовь. Нужно сказать Алисе: «Включи режим свеча/лава-лампа», — и станция включит переливающуюся подсветку.
Умная колонка Яндекс Станция Миди
16 999 р.*
Смотреть товар
  • Звонки со станции на станциюМоя бабушка частенько выключает смартфон. Бросила в сумку, нажала несколько кнопок в кармане. Бабушка живет в другом городе. И в такой ситуации ей просто не дозвониться. Конечно, я переживаю, все ли в порядке с бабушкой. Но с помощью Алисы можно позвонить с одной колонки на другую. Бабушке ничего нажимать не нужно: я настроила в приложении «Умный дом» автоматический прием вызовов. Поэтому, когда я не могу дозвониться бабушке, я просто звоню ей на станцию с помощью Алисы.

У Алисы действительно много интересных и удобных фишек. Я уверена, что каждый сможет найти такую, которая разделит его жизнь на «до» и «после».

В чем особенность Алисы? Чем она отличается от Маруси, Салюта и других помощников?

Голос Татьяны Шитовой, конечно! Шутка. На самом деле, все голосовые помощники похожи. Каждый создан для того, чтобы помогать пользователю и облегчать его жизнь. На практике я не часто сталкивалась с Салютом, Марусей и Сири — каждый день я общаюсь только с Алисой. Но все-таки с Салютом мне удалось немного повзаимодействовать. Если сравнивать, то голос Салюта показался мне таким томным, как будто он бесконечно флиртует.

Еще у «Яндекса» в приложении «Умный дом» гораздо больше функций для настройки персональных сценариев: иногда кажется, что там можно настроить практически все.

А если говорить об отличиях, то я буду отталкиваться от основной задачи голосовых помощников — помощи пользователям. Алиса не так давно стала лучше понимать юзеров с особенностями речи. Это безусловный скачок вперед и просто очень классное, доброе и полезное отличие. Теперь пользователи с ДЦП, заиканием, перенесшие инсульт, травму или дети, которые посещают логопеда, могут чаще обращаться к Алисе — она их обязательно поймет.

Как изменятся голосовые помощники в будущем? Какие новые функции Алисы тестируются уже сегодня?

Совсем недавно «Яндекс» презентовал новую «Станцию Лайт 2» с технологией эмоционального синтеза.

Умная колонка Новая Яндекс Станция Лайт 2
5 999 р.*
Смотреть товар
Умная колонка Новая Яндекс Станция Лайт 2
5 999 р.*
Смотреть товар

Ранее я уже говорила о том, что Алиса стала лучше понимать пользователей с особенностями речи. И все это — далеко не предел. Достаточно просто посмотреть, как Алиса разговаривала в самом начале, чтобы понять, насколько сильно сейчас ее речь приближена к человеческой. Надеюсь, что в будущем Алиса станет еще более полезной, контактной и человечной.

Рассказать о новых функциях я, конечно, не могу, но обещаю, что Алиса еще не раз сможет удивить.

Как упростить задачу голосовым помощникам?

Нередко голосовые помощники нас не понимают. И это нормально. Бывает, и люди не понимают друг друга. Но голосовым ассистентам можно помочь:

  • Будьте конкретнееСтарайтесь яснее формулировать запросы. Используйте ключевые слова, чтобы вас можно было лучше понять по контексту. Вместо «Погода» скажите: «Погода в Саратове сейчас».
  • Используйте ключевые словаВключайте в запрос ключевые слова, которые помогут помощнику понять, что именно вы хотите узнать или сделать. Например: «Установи будильник на 7 утра» вместо «Поставь будильник».
  • Говорите четкоНе торопитесь, не говорите с набитым ртом. Формулируйте запросы уверенно, активно артикулируйте.
  • Используйте простые фразыИзбегайте длинных и сложных предложений, причастий, деепричастий, метафор. Помощники лучше понимают короткие фразы и быстрее отвечают на них.
  • Изучите список командУ голосовых ассистентов есть набор заранее установленных команд (например, «Поставь лайк треку», «Включи мою любимую музыку»), а если их не хватает, научите помощника новым командам.
  • Переформулируйте запросЕсли ответ голосового помощника вас не устраивает, попробуйте задать вопрос по-другому. Используйте синонимы.
img

Реклама. Рекламодатель: ООО «МВМ»
2SDnje73cUi

*Информация о товарах, размещенная на «Эльдоблоге», не является публичной офертой. Цена товаров приведена справочно. С актуальными ценами на товары в соответствующем регионе вы можете ознакомиться на сайте eldorado.ru

Присылайте нам свои обзоры техники — и получайте до 1000 бонусов на карту «Эльдорадость»!

Вам также понравятся