www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Меня зовут Иниго Монтойя. Случай для сопереживания с приложениями распознавания речи.

Дата публикации Mar 22, 2017

Здравствуйте. Меня зовутАмиго Монголия, Вздох.Индиго Латоя, Grrrr.Иниго Монтойя,

Иногда требуется все, что у вас есть, чтобы сохранять спокойствие при работе с приложениями для распознавания речи. Для многих из насименахудшие стрессоры.

кредит:rabbittooth

Я живу в районе залива Сан-Франциско, поэтому я работаю и играю в плавильном котле, где разнообразие - прекрасная реальность. Это особенно верно, когда дело доходит до имен людей. На самом деле, нет лучшего полигона для распознавания имен, чем Район залива.

Как опытный пользователь диктовки, я ежедневно использую такие приложения, как Google Assistant, Apple Siri и Amazon Echo. За последние несколько лет я обнаружил, что способность механизма распознавания речи точно распознавать имена сильно варьируется:

☀️Безупречный.И Apple, и Google делают разумную работу, узнавая имена многих моих друзей во время диктовки. Они последовательно «получают» такие имена, как: Джонатан, Дорин, Хосе и Майк, не потея.

🌤Умеренный.Более сложные имена распознаются *тогда и только тогдаЯ прилагаю усилия * для чрезмерного выражения: Сиобхан, Валериу, Кинан, Марго, Раджив и т. Д. Если это не сработает, я чрезмерно «англичанизирую» или чрезмерно «американизирую» их, чтобы запустить распознавание имен. Имена, подобные этим, достаточно различимы, поэтому сопоставление их с записями в моей адресной книге должно быть довольно простым, даже если произношение не идеальное.

🌧Зверские.И еще, есть «другие» имена, такие как Ритеш, Андрей, Каруна, Джерней, Тудор, Рохит и, конечно же, мое собственное имя: Люциан. Даже с огромным количеством персонализированных обучающих данных, которые я / мы предоставляем каждый день, эти имена вырезаны, изменены или полностью пропущены. Иногда такие икоты веселые, но определенно не тогда, когда вы пытаетесь выполнить работу.

Алгоритмы автоматического распознавания речи (ASR) постоянно совершенствуются, и, хотя я не сомневаюсь, что эти ошибки исчезнут, тем временем это невероятно расстраивает нас, пользователей. Не всегда очевидно, почему приложения speech2text допускают такие ошибки, поэтому я подумал, что стоило бы изучить некоторые факторы, которые в итоге их отбрасывают. Если вы хотите получить общее представление о том, как работает ASR, прочитайте мой учебник Lazy Dog:

Распознавание речи: учебник для ленивых собак

Хороший друг и я недавно болтали о приложениях распознавания речи за ужином. Да, мы те люди. ...

medium.com

От Давида к Увуввевве

Нашим первым инстинктом как исследователей данных и инженеров программного обеспечения является улучшение систем, развитие архитектуры и создание лучших алгоритмов. Это не глупая попытка: есть значительные преимущества в разработке сложных языковых моделей, умных алгоритмов глубокого обучения и причудливых методов оптимизации.

Тем не менее, я большой поклонник в первую очередь после низко висящих фруктов.Так сказать мы все, В этом случае низко висящий фрукт просто понимает ваших пользователей: кто они, кто их друзья, их шаблоны общения, богатые данные, которые они генерируют и владеют, их предпочтительный рабочий процесс через приложения и т. Д. Все это должно информировать, как вы собираете и используете данные обучения, как персонализируете свои приложения и как вы адаптируете распознавание речи в контексте.

Имея это в виду, давайте рассмотрим ключевые факторы, которые могут повлиять на точное распознавание речи.

кредит:Рой Джонс

1. Акцент

Разговорный английский варьируется совсем немного. В зависимости от того, где вы выросли, вы выделяете разные слоги, затвердеваете определенные согласные, опираетесь на некоторые гласные и часто используете разные слова и выражения. Номердиалекты в СШАодин подавляющий: от ятского диалекта в Новом Орлеане до характерного бостонского языка. Во время моего пребывания в Питтсбурге мне нравились его региональные языковые особенности: «Идут ли инцы, да?»

Образцы английской речи расходятся еще больше, если вы уменьшаете масштаб и слушаете носителей языка извокруг светатакие как Великобритания, Канада, Новая Зеландия и Индия. Затем расширите еще больше и рассмотрите не носителей английского языка и их множество акцентов - я должен знать!

2. Произношение

Люди причудливы и несовершенны. Мы часто неправильно произносим слова, как обычные, так и случайные, когда в нашем мозгу происходит сбой. Мы ожидаем, что приложения распознавания речи смогут справиться с легкойречевые препятствия, но это не легко. СогласноNIHпочти 1 из 12 детей США в возрасте от 3 до 17 лет имел расстройство речи. В конце концов, это игра статистики и сбора достаточного количества обучающих данных для охвата угловых случаев.

Усталостьэто еще одна причина, по которой ваше произношение не может быть на высшем уровне. Я не знаю о вас, но когда я просыпаюсь в течение 48 часов, мои языковые навыки значительно ухудшаются, как и моя способность оценивать этот факт

Наконец, вы можете быть национальным чемпионом по орфографии, но иногда вы наткнетесь насложные имена, Вы встречали Uvuvwevwevwe?

3. Имя Частота

Обычно используемые имена просты для приложений распознавания речи. Чем больше людей они видят с таким именем, тем больше данных об обучении они накапливают, способствуя улучшению моделей распознавания машинного обучения. Однако в последние десятилетия родители стали явно недовольны существующим пулом имен и начали вводить новые уникальные имена для своих детей.

Google Assistant и Apple Siri способны на многое, когда сталкиваются с такими именами, какФинола, Пиппа и Танакильв первый раз. Низкочастотные имена сложно точно распознать, но я ожидаю, что интеграция приложений и глубокая персонализация приведут нас туда. Например, если я разговариваю с Finola два раза в день и пишу с Tanaquil 20 раз в день, я ожидаю, что распознавание этих двух имен станет безупречным.

4. Написание имени

В том, что несомненно является попыткой обмануть приложения для распознавания речи, миллионы родителей также придумывают ультра креативное написание, когда приходит время назвать своих детей.

Некоторые имена являются точными фонетическими совпадениями существующих имен или их ближайших соседей, но с радикально отличающимися и уникальными написаниями. Вы должны смотреть не дальше, чемАлексзандре, Браедин или Изобельчувствовать боль виртуальных помощников.

5. Многоязычная среда

С ростом глобальной мобильности мир становится все более разнородным. Неудивительно, что люди склонны смешивать несколько языков: например, их родной язык с языком страны, в которой они живут.

Мои дети чувствуют себя комфортно со смесью английского, румынского языка и небольшого числа начинающих китайцев, которые намекают на хорошую меру: «Что вы думаете овирăкуб гăлуşтэ?好吃 吗? Они не будут биться в глаза, если услышат, но сегодня виртуальным помощникам больно:Алекса, сыграй песню听 妈妈 的 话»

Это явление наиболее очевидно в именах, где люди используют основной язык, такой как английский, но правильно произносят имена своих родственников и друзей на языке их происхождения.

Попробуй так: скажи своему виртуальному помощнику напиши своему другу Рикардо. При подаче команды используйте чистый английский, но затем переключитесь на свой лучший португальский акцент и произнесите «Рикардо». Я подожду.

Вернуться к сочувствию

Мы живем в грязном мире. Мы сталкиваемся с неопределенностью на каждом шагу и ведем переговоры со всеми и всем вокруг нас, чтобы добиться цели. Это относится к тому, как мы взаимодействуем и общаемся друг с другом. Речь - прекрасный пример несовершенного общения, в котором содержится достаточно сигналов, чтобы передать предполагаемое значение. Зная это, невероятно, что поле распознавания речи достигло такого уровня качества.

Всякий раз, когда я ворчу о плохом качестве диктовки, я вспоминаю о Луи К.К. о том, как мы воспринимаем технологию как должное. После этого мир почему-то кажется ярче.

Если вам понравился этот пост, нажмите 💚 ниже, чтобы другие увидели его на Среднем.

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map