Голосовым помощникам приходится распознавать речь в разных условиях. Мы выкрикиваем им запросы из другого конца квартиры, разговариваем с ними под шум пылесоса, детей, телевизора. Из-за этого они понимают нас хуже, а мы злимся. Как упростить задачу голосовым ассистентам и найти с ними общий язык? Расскажем в нашем материале.
Содержание
Что такое голосовой ассистент?
Голосовой ассистент — программное обеспечение, которое использует технологию распознавания голоса и искусственного интеллекта для выполнения различных задач по команде пользователя. Из чего состоит процесс работы ассистента:
- Распознавание речиЧтобы ассистент понял пользователя, ему нужно преобразовать голос в текст. Для этого звук оцифровывается, фильтруется от шумов, выравнивается по громкости.
- Классификация намеренийГолосовой помощник должен понять, что имел в виду пользователь и что он хочет услышать.
- Генерация ответаАссистент сначала составляет ответ, а затем озвучивает его с помощью технологии синтеза речи.
Разберем этот момент немного подробнее.
Как голосовой ассистент понимает человеческую речь?
Распознавание речи
Компьютер говорит на языке кода, это цифровой сигнал. Звук — это волны, аналоговый сигнал. Чтобы голосовой помощник нас понял, ему нужно перевести аналоговый сигнал в цифровой. Это называется оцифровкой.
Сначала запрос отправляется на сервер компании. Для удобства речь делится на фреймы — очень маленькие речевые фрагменты. Затем фреймы анализируют, и после этого голосовой помощник понимает, к какой фонеме принадлежит фрейм (фонема — минимальная единица звукового строя, больше фрейма). Алиса, к примеру, опирается на Ленинградскую фонологическую школу и выделяет 48 фонем. Если какие-то звуки голосовой помощник не разобрал, то он обращается к статистике и контексту. Фонемы составляются в слова, слова — в предложения. Так из голоса и получается текст.
Еще нужно отфильтровать человеческий голос от посторонних шумов. Мы говорим в диапазоне 75–500 Гц, а слышим — в 20–20 000 Гц. Голосовой помощник выделяет голос пользователя, отсеивая лишние звуки.
Для удобства ассистент выравнивает амплитуду голоса, нормализует его. Выбивающиеся громкие звуки становятся тише, тихие — громче. Это нужно для того, чтобы корректно распознать запрос.
Классификация намерений
Сначала запрос классифицируется по намерениям. Что хочет пользователь? Что-то найти в поисковике, настроить звук, послушать музыку?
Затем определяется тематический раздел. Что нужно сделать с музыкой? Лайкнуть, дизлайкнуть, установить порядок воспроизведения?
Голосовой ассистент делит запрос на слова, смотрит, в каких контекстах они чаще употребляются, и старается правильно сгенерировать ответ.
Генерация ответа
Ответ должен звучать естественно. Текст обратной связи делится на отдельные фразы, словосочетания, чтобы не было кривых интонаций. Есть два подхода: конкатенативный подход и параметрический синтез.
Конкатенативный подход использует Siri. Для каждой фонемы заранее записываются разные варианты озвучивания. Подобные голосовые помощники работают быстрее, но звучат монотонно и не так натурально.
Параметрический синтез используется Алисой. Он намного сложнее, работает на машинном обучении, но зато голосовой помощник звучит человечнее. Первый этап синтеза — предсказание интонации, ударения, долготы фонемы. Второй этап — озвучивание по итогам работы предыдущего этапа.
О голосовых ассистентах от эксперта
Почему голосовые ассистенты не всегда правильно нас понимают?
На самом деле однозначно ответить на этот вопрос нельзя. Существует множество причин.
Во-первых, на фоне могло быть шумно. Голосовые помощники все-таки лучше понимают в тишине, ведь они прислушиваются ко всем звукам. Это очень похоже на нашу повседневность: сколько раз у вас было, когда вы трижды переспросили и все равно не поняли, о чем именно говорит ваш собеседник? Особенно если разговор случается в людном, шумном месте.
Во-вторых, сама логика распознавания голосовыми помощниками человеческой речи — это сложный, массивный код. Чтобы магия момента не сломалась и голосовой помощник ответил вам сразу же, имитируя живой диалог с реальным человеком, виртуальный ассистент анализирует информацию еще до того, как вы закончите говорить последнее слово в предложении. Но в мире все несовершенно: вместо шума дождя помощник может включить трек с названием «Дождь». Ошибка ли это? С точки зрения юзера — да. Но пользователь не догадывается, какой огромный путь его запрос проделывает, чтобы в итоге вернуться к нему правильной композицией.
Ну и, конечно, не стоит забывать про особенности речи. Мы все говорим немного по-разному: быстрее, медленнее, тише, громче, проглатывая окончания. Все это тоже может сыграть роль.
Как сделать так, чтобы голосовые ассистенты лучше нас понимали?
Не часто, но все-таки иногда Алиса неправильно понимает мой запрос. Услышала не так и сделала все наоборот. В этом случае я просто набираюсь терпения и повторяю свой запрос громче и четче. Обычно помогает.
Еще очень советую уточнить список команд, которые поддерживает голосовой помощник. Это для нас «включи телевизор» и «врубай телек» — одно и то же, но для ассистента одна фраза может быть понятной, поддерживаемой командой, а вторая — простым набором слов, который произносится просто ради диалога.
Если изучать команды слишком долго и скучно, попробуйте конкретизировать запрос, сузить круг поиска, спросить другими словами.
Есть ли у Алисы крутые, но малоизвестные фишки, лайфхаки?
Тут смотря что считать крутыми фишками. Вообще все навыки Алисы собраны в специальном разделе. Там есть созданные пользователями игры, квесты, развивающие и обучающие фичи. Каждый точно найдет что-то свое. А из дефолтных мне нравятся несколько функций. Не знаю, насколько они малоизвестные, но все же перечислю:
- Найди телефонУ нас в семье заброшенный куда-то телефон — частая история. Алису можно попросить найти телефон, и она на него позвонит. Функция сработает, если на смартфоне включен звук или хотя бы вибрация.
- РадионяняЭтой фишкой я не пользуюсь, но считаю ее очень классной. Нужны всего две колонки, которые превратятся в радионяню.
- Подсветка «Станции Миди»Это отдельная эстетическая любовь. Нужно сказать Алисе: «Включи режим свеча/лава-лампа», — и станция включит переливающуюся подсветку.
- Звонки со станции на станциюМоя бабушка частенько выключает смартфон. Бросила в сумку, нажала несколько кнопок в кармане. Бабушка живет в другом городе. И в такой ситуации ей просто не дозвониться. Конечно, я переживаю, все ли в порядке с бабушкой. Но с помощью Алисы можно позвонить с одной колонки на другую. Бабушке ничего нажимать не нужно: я настроила в приложении «Умный дом» автоматический прием вызовов. Поэтому, когда я не могу дозвониться бабушке, я просто звоню ей на станцию с помощью Алисы.
У Алисы действительно много интересных и удобных фишек. Я уверена, что каждый сможет найти такую, которая разделит его жизнь на «до» и «после».
В чем особенность Алисы? Чем она отличается от Маруси, Салюта и других помощников?
Голос Татьяны Шитовой, конечно! Шутка. На самом деле, все голосовые помощники похожи. Каждый создан для того, чтобы помогать пользователю и облегчать его жизнь. На практике я не часто сталкивалась с Салютом, Марусей и Сири — каждый день я общаюсь только с Алисой. Но все-таки с Салютом мне удалось немного повзаимодействовать. Если сравнивать, то голос Салюта показался мне таким томным, как будто он бесконечно флиртует.
Еще у «Яндекса» в приложении «Умный дом» гораздо больше функций для настройки персональных сценариев: иногда кажется, что там можно настроить практически все.
А если говорить об отличиях, то я буду отталкиваться от основной задачи голосовых помощников — помощи пользователям. Алиса не так давно стала лучше понимать юзеров с особенностями речи. Это безусловный скачок вперед и просто очень классное, доброе и полезное отличие. Теперь пользователи с ДЦП, заиканием, перенесшие инсульт, травму или дети, которые посещают логопеда, могут чаще обращаться к Алисе — она их обязательно поймет.
Как изменятся голосовые помощники в будущем? Какие новые функции Алисы тестируются уже сегодня?
Совсем недавно «Яндекс» презентовал новую «Станцию Лайт 2» с технологией эмоционального синтеза.
Ранее я уже говорила о том, что Алиса стала лучше понимать пользователей с особенностями речи. И все это — далеко не предел. Достаточно просто посмотреть, как Алиса разговаривала в самом начале, чтобы понять, насколько сильно сейчас ее речь приближена к человеческой. Надеюсь, что в будущем Алиса станет еще более полезной, контактной и человечной.
Рассказать о новых функциях я, конечно, не могу, но обещаю, что Алиса еще не раз сможет удивить.
Как упростить задачу голосовым помощникам?
Нередко голосовые помощники нас не понимают. И это нормально. Бывает, и люди не понимают друг друга. Но голосовым ассистентам можно помочь:
- Будьте конкретнееСтарайтесь яснее формулировать запросы. Используйте ключевые слова, чтобы вас можно было лучше понять по контексту. Вместо «Погода» скажите: «Погода в Саратове сейчас».
- Используйте ключевые словаВключайте в запрос ключевые слова, которые помогут помощнику понять, что именно вы хотите узнать или сделать. Например: «Установи будильник на 7 утра» вместо «Поставь будильник».
- Говорите четкоНе торопитесь, не говорите с набитым ртом. Формулируйте запросы уверенно, активно артикулируйте.
- Используйте простые фразыИзбегайте длинных и сложных предложений, причастий, деепричастий, метафор. Помощники лучше понимают короткие фразы и быстрее отвечают на них.
- Изучите список командУ голосовых ассистентов есть набор заранее установленных команд (например, «Поставь лайк треку», «Включи мою любимую музыку»), а если их не хватает, научите помощника новым командам.
- Переформулируйте запросЕсли ответ голосового помощника вас не устраивает, попробуйте задать вопрос по-другому. Используйте синонимы.
Реклама. Рекламодатель: ООО «МВМ»
2SDnje73cUi
*Информация о товарах, размещенная на «Эльдоблоге», не является публичной офертой. Цена товаров приведена справочно. С актуальными ценами на товары в соответствующем регионе вы можете ознакомиться на сайте eldorado.ru