www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Пометка документов на основе важных слов

Дата публикации Apr 3, 2017

Это день 3 моего30-дневная Письменная Задачапытаясь освоить методы интеллектуального анализа данных, прежде чем начать новую работу по созданию команды машинного обучения. Вчера мы погрузились вАлгоритм TF-IDF для поиска важных словв текстовых документах. Теперь мы можем взять документ и выбрать слова, которые делают документ уникальным, было бы хорошо сгруппировать похожие документы. Думайте об этом как о предложении «тегов» для каждого документа, классифицируя их по содержанию документа.

Существует несколько способов решения этой проблемы, но в ближайшем будущем отрасль, в которой я буду работать, может быть жестко регламентирована. Я хочу иметь возможность продемонстрировать, почему мы предложили категорию для данного документа, а не полагаться на черный ящик, такой как нейронная сеть. Я обещаю, что расскажу о нейронных сетях в следующем посте.

Существует процесс, называемый Байесовской классификацией, который позволит нам определить, как группировать вещи на основе простой вероятности. Я не могу вспомнить, как я знаю об этой технике, но я уверен, что теорема Байеса преподается 16-летним. Мы должны быть в порядке ...

Хорошо, мы забегаем вперед. Давайте начнем с простого английского объяснения.

Вероятности довольно просты. Если в комнате 100 человек и 55 из них женщины, то вероятность того, что человек в этой комнате будет женщиной, составляет 55%.

Мы пишем это какP(woman) = 55/100 = 55%,

Если в комнате 30 человек в шляпе, 20 из них женщины и 10 из них мужчины, то мы знаем, что существует 66% вероятности того, что человек является женщиной, если он носит шляпу.

Мы пишем это какP(woman|wearing a hat) = 20/30 = 66%,

Правильно, поэтому мы хотим знать вероятность того, что документ принадлежит категории, учитывая важные слова в документе. Однако для начала мы сможем рассчитать только вероятность того, что важное слово окажется в документе, учитывая категорию, к которой оно относится. Здесь происходит волшебство.

Теорема Байеса позволяет нам перейти отP(evidence|outcome)в
P(outcome|evidence)и это на самом деле очень просто.

Что дает намP(wearing a hat|woman) = (0.66 * 0.3)/0.55 = 36%,

Это все, что нам нужно, чтобы взять коллекцию документов, помеченных вручную, и создатьмодельпредсказать правильную категоризацию для документа.

До сих пор мы рассматривали только вероятность на основе одного доказательства. Найти вероятность чего-либо с помощью нескольких доказательств тоже очень просто.

Представьте себе, что из людей в шляпе 5 человек ростом. Мы хотим знать вероятность того, что кто-то носит шляпу, учитывая, что мы знаем, что они женщина и высокая.

Что дает намP(wearing a hat|woman and tall) = (0.66 * 0.17 * 0.3)/0.55 = 0.06,

Надеюсь, вы следили за этим.

Должно быть очевидно, как мы можем применить это к классификации документов. Я хотел использовать пример из реального мира, о котором у вас может быть интуиция о вероятных результатах. Вместо того, чтобы вычислять вероятность того, что кто-то носит шляпу, мы хотим вычислить вероятность того, что документ принадлежит категории. Наблюдения, такие как то, является ли человек женщиной или высоким, вместо этого будут определять, содержит ли документ определенное слово.

С самого начала это казалось довольно сложной концепцией, но оказалось, что математика проста. Мы можем использовать наблюдения существующих данных, чтобы определить вероятность того, что элемент принадлежит категории, учитывая некоторую информацию, которую мы знаем о ней.

Вследующий постЯ собираюсь посмотреть, как нормализовать входные данные для данного документа, чтобы мы относились, скажем, к «мотоциклу» и «мотоциклу» одинаково.


Это пост в моем30-дневная Письменная Задача, Я инженер-программист, пытаюсь понять машинное обучение. У меня нет доктора наук, поэтому я буду объяснять вещи простым языком и множеством примеров.

Следуй за мной пощебетчтобы увидеть мои последние сообщения. Если вам понравилась эта статья, пожалуйста, нажмите кнопку сердца ниже, чтобы поделиться - это поможет другим людям увидеть ее.

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map