www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Я тренировал модель Word2Vec на строгой диете трансляций Fox News

Дата публикации May 26, 2017

Это то, что он думает о мире.

Скриншот моей попытки визуально представить вложения слов. Смотреть оригиналВот.

Задний план

Я впервые начал экспериментировать с Word2Vec несколько месяцев назад, работая над проектом для курса по анализу текста, который я прошел в NYU. Этот проект был своего рода проверкой концепции, которая включала сбор и анализ миллионов комментариев на испанском языке на YouTube в попытке обнаружить и измерить политически ориентированную речь.

Хотя Word2Vec на самом деле не была одной из моделей, которые мы изучили в этом курсе, я был действительно впечатлен его способностью улавливать тонкие отношения между словами.

Одной из основных проблем при анализе пользовательского текста на испанском языке является орфография - несмотря на то, что у меня была в основном фонематическая орфография, я обнаружил орфографические и грамматические ошибкигде угодно,

К сожалению, доступные в настоящее время словари стоп-слов включают только формальное написание слов, которые на самом делепутьМеньшеобщее, чем неправильное написание для определенных терминов. Что еще хуже, неправильное написание меняется настолько сильно, что их невозможно удалить путем изменения частоты или понижающей дискретизации.

Word2Vec на помощь! Взяв одну общую ошибку и запросив модель для 50 наиболее похожих слов, я смог создать всеобъемлющий словарь стоп-слов для их фильтрации.

Пятьдесят общих, но не супер-распространенных вариантов слова «ха-ха»? Не смешно!

Итак, почему Fox News?

Приведенный выше эксперимент действительно продемонстрировал истинную силу Word2Vec для раскрытия «личности» языка. Я задавался вопросом: что, если я обучил модель Word2Vec на языке, который в оченьтонкий путьтолько одно видение реальности? Единственный кандидат на английском языке, о котором я мог думать, был Fox News.

проблемы

Получение текста

В то время как Fox News фактически выпускает письменную копию на своем веб-сайте, я хотел создать корпус, который бы учитывал весь опыт Fox: комментарии гостей, замечания не по манере, подшучивание между якорями и т. Д.

У меня дома нет кабеля, поэтому я построил веб-скребок и извлек аудио для всех видео, доступных на сайте Fox News в то время - около 1150 клипов продолжительностью от 1 минуты до 20 минут. Хотя некоторые видео относятся к 2015 году, подавляющее большинство было опубликовано в течение последних шести месяцев.

Чтобы преобразовать звук, я использовал Google Speech Recognition API, так как полученные результаты былимноголучше, чем любая другая услуга (плюс они дают вам бесплатный кредит на 300 долларов). Я объясняю как я это сделалВот,

Ох, пунктуация ...

Одна из неприятных вещей в моделях распознавания речи - то, что текст, который они возвращают, фактически не имеет пунктуации. Это особенно раздражает при использовании Word2Vec, так как вам нужно кормить его токенизированными предложениями (которые требуют пунктуации).

К счастью,Оттокар Тилкменя уже прикрыли. Он обучил двунаправленную рекуррентную модель нейронной сети, которая восстанавливает пунктуацию в английском тексте. Лучше всего, этот удивительный человек также создалAPIчто вы можете легко запросить из Python.

Дональд Трак в доме!

Ага. Гугл не безупречен. Иногда это неверно истолковывает определенные слова и фразы, особенно когда люди разговаривают друг с другом. Например, один из самых распространенных терминов, связанных сМайкл Флиннбыл «адвокатом», но слово «турнир» также появилось в топ-20.

Моя первоначальная стратегия состояла в том, чтобы попытаться обнаружить эти ошибки, используя кодирование метафона и нечеткое сопоставление строк. Тем не менее, это оказалось немного больше времени, чем я ожидал, поэтому я отложил эту идею.

В конечном итоге я смог настроить параметрыWord2Vecмодель, чтобы минимизировать влияние неправильных условий.

Полученные результаты

Модель была обучена примерно на 500 000 терминов - не большой корпус для Word2Vec, но результаты все еще были довольно интересными. Я составил список из примерно двух десятков терминов, связанных с текущими событиями или политическими проблемами, нашел слова, наиболее связанные с ними, и добавил их в (хромой) график D3js.

К сожалению, Medium не позволяет мне встраивать визуализации JavaScript, поэтому вам придетсяпроверить это здесь,

Как всегда, я хотел бы услышать ваши отзывы или предложения. Кроме того, если вам интересно, как я сделал что-либо из вышеперечисленного, не стесняйтесь связаться с нами!

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map