www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Обнаружение спама с использованием алгоритма SageMaker BlazingText

Дата публикации Oct 3, 2019

Спам-фильтрация новостей

Случай использования:

Чтобы узнать, относится ли данная статья НОВОСТЕЙ к сенсору / умной нации / IOT / робототехнике /… и т. Д.

Шаги, участвующие в этой статье:

1. Импортируйте данные из DynamoDB в SageMaker.

2. Маркировка данных

3.Preprocessing

4. Встроенное обучение модели BlazingText

5.Deployment

6. Три способа прогнозирования

предстоящие статьи:

1. Создать базовую лямбда-функцию для обнаружения спама

2. Создать лямбда-функцию с добавлением слоев для библиотек nltk.

3.Создать API, используя лямбда-конечную точку

Давайте начнем

Мне нужно отфильтровать спам в новостях с помощью AWS SageMaker.

Но проблема в немаркированных данных. Тогда я решил использовать SageMaker GroundTruth для маркировки.

Я пробовал GroundTruth для нескольких вариантов использования, используя названные параметры Entity Recognition и Text Classification, которые доступны внутри GT.

Производительность GroundTruth была очень смущающей, со стороны AWS они рекламировали GT как очень дешевую, но как насчет точности? Маркировка с использованием GT не до значительного уровня, поэтому мы решили сделать маркировку самостоятельно.

Я предлагаю для некоторых базовых вариантов использования мы можем использовать GroundTruth. Если вы считаете, что ваше тематическое исследование не является нормальным, тогда не переходите на GroundTruth.

Однако помеченные данные уже готовы.

Получить данные из DynamoDB:

Фрагмент Python для чтения данных из DynamodB

Это доступные поля, которые мы должны отфильтровать. Спамлет принимает только необходимые функции.

Available features:'image_html', 'hash_value', 'source_url', 'article_html', 'api_dict', 'news_code', 'topics', 'author_link', 'search_keyword',
'published_date', 'author_name', 'headlines','teaser_text'Required Features:source_url,article_html,headlines,topics,teaser_text

Получение помеченных данных:

GroundTruth не является правильным выбором для маркировки наших данных. Итак, вот данные, которые мы пометили нами.

После сопоставления необработанного содержимого с целевой переменной

Всего образцов мы имеем для обучения и проверки.

Предварительная обработка:

Исходный входной контент представлен в формате html, поэтому давайте сначала удалим теги.

Далее приведены некоторые стандартные этапы предварительной обработки, однако мы можем очистить текст, удалив наиболее часто встречающиеся слова и менее часто встречающиеся слова и лемматизацию. Эти этапы будут использоваться для дальнейшего повышения точности.

Очищенный текст для BlazingText:

Предварительно обработанный текст

BlazingText требует входные данные в формате plain_text, и метка данных должна быть в начале каждого текста, как показано ниже.

этикетки для Blztxt Algo
Plain_text для модели Blztxt

BlazingText Модель:

Как только обычный текст будет готов, загрузите данные в S3, а затем прочитайте данные, когда захотите, для обучения. Для создания папок для данных модели и обучения доступны простые шаги:Документация AWSмы можем пройти через это.

Установка гипер-параметров, URI образа модели, типа экземпляра обучения и количества экземпляров.

давайте обучим и развернем модель.

Как только модель развернута, мы можем предсказать различными способами, как внутри Sagemaker или вне Sagemaker.

3 способа прогнозирования:

пока модель находится в разработке, используйте классификатор новостей для прогнозирования

Если вы хотите использовать модель вне SageMaker, используйте опцию invoke endpoint для прогнозирования.

Используйте параметр RealTimePredictor при прогнозировании внутри SageMaker.

Итак, наконец, мы узнали, что нужно создавать, развертывать и фильтровать спам с помощью модели BlazingText. В следующей статье мы увидим, как создать файл оболочки для этой модели фильтра спама с использованием сервиса Lambda.

Когда мы говорим о Lambda, некоторые библиотеки мы не можем импортировать в Lambda, поэтому мы увидим, как импортировать эти библиотеки, добавив несколько слоев в Lambda.

наконец, мы создадим API, используя конечную точку Lambda.

Как только мы рассмотрим все четыре статьи, вы узнаете сквозной поток для настроенной модели фильтра спама.

Данные и код доступны на моем аккаунте Github.

Vimal-DHARMA / БАНКИ

Вариант использования 1. Найти клиента, который имеет высокую склонность покупать Персональный кредит 2. Найти клиента, который станет…

github.com

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map