Дата публикации Aug 17, 2017
Когда дело доходит до интеллектуального анализа данных и анализа текста, нет недостатка в мощном программном обеспечении и инструментах, которые позволяют нам нарезать и разрезать информацию способами, значимыми для нашего бизнеса. Есть статья наKDnuggetsэто обеспечивает внушительный список программного обеспечения для анализа и анализа текста, которое является всеобъемлющим и подавляющим.
Однако в сообществе специалистов по науке недостаточно людей, которые знают, чтоSAP HANAимеет отношение канализ текста, Таким образом, этот пост служит введением в анализ текста с использованиемSAP HANA, Процедуры относительно просты; Что важно, так это возможные приложения.
Без дальнейших церемоний, давайте погрузимся.
В целях иллюстрации я использую небольшое подмножествоНабор данных мобильного обзора Amazonчто я скачал сKaggle,
В большинстве случаев нам нужно создать индексную таблицу в столбце таблицы, содержащей текст. В индексной таблице проводится анализ текста.
Извлечение «Core_Voice_Of_Customer» - это стандартная конфигурация, которая извлекает сущности и факты за пределы базовой конфигурации для поддержки анализа настроений и запросов. Эта конфигурация имеет важное значение, поскольку она идентифицирует положительные и отрицательные эмоции, связанные с токенами. Это позволяет нам оценивать мнения внутри корпуса, связанные с конкретными темами. Когда мы выполняем это, он создает индекс и таблицу, которая содержит наш анализ настроений, например:
Давайте посмотрим на столбцы таблицы индекса в деталях.
Также известный как «Голос клиента», это интересная часть модулей извлечения фактов. Слова могут быть извлечены и назначены с соответствующей эмоцией на основе набора правил, который включает требования для извлечения настроений клиентов, запросов, смайликов и ненормативной лексики. Эмоции можно классифицировать как сильные или слабые, положительные или отрицательные и т. Д.
Например, из приведенной выше таблицы «получен» - это слово «получить», а «нужен» - «нужен».
Маркировка дает нам возможность идентифицировать грамматическую категорию, в которую попадает слово. Из приведенной выше таблицы «проблемы» и «проблема» - существительные, «решено» и «решить» - глаголы. Он идентифицирует и маркирует часть речи для каждого слова в контексте. Пометка помогает нам понять, что означают предложения или абзацы.
Языки
SAP HANA поддерживает 31 язык. Я буду использовать только 5 языков сегодня В целях иллюстрации я создаю игрушечный стол с 5 строками текста:
Предложение пришло отпоследние новостио MIT. Переводы на немецкий, японский, корейский и китайский были сделаны через Google Translate. Мои извинения, если они не точны.
Вот наша индексная таблица, полученная из приведенной выше текстовой таблицы:
Я думаю, что анализ текста SAP HANA проделал довольно хорошую работу по выявлению четырех языков (здесь отсутствует корейский).
Терпимый Стемминг
В настоящее время это доступно на английском, голландском, немецком и итальянском языках. Такое поведение по умолчанию позволяет обрабатывать нестандартные варианты написания, чтобы лучше максимизировать отзыв. Давайте посмотрим на пример.
Мы можем увидеть некоторые проблемы здесь; «Эндрю» должен быть написан с заглавной буквы, у «дочери» должен быть дефис до и после «в», а у «Дня рождения» не должно быть заглавных букв.
«Эндрю» был написан заглавными буквами, «День рождения» - в нижнем регистре, а «сестринское право» - дефисами.
Попробуй сам
Анализ текста в SAP HANA содержит гораздо больше функций, которые я здесь не рассматривал. Помимо доступных текстовых данных, у нас есть много возможностей принять анализ текста, чтобы извлечь сущности и факты, которые нам нужны.
Если вы хотите провести тот же эксперимент, вы можете сделать это по дешевке. Это не должно быть дорого, чтобы изучать новые вещи. Вы можете скачатьSAP HANA экспресс-изданиеи запишитесь на бесплатный курсТекстовая аналитика с платформой SAP HANA, Тогда дайте мне знать, как идет процесс обучения!
© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map