www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

4 вещи, которые мы не знали об анализе текста с помощью SAP HANA

Дата публикации Aug 17, 2017

Источник: SAP

Когда дело доходит до интеллектуального анализа данных и анализа текста, нет недостатка в мощном программном обеспечении и инструментах, которые позволяют нам нарезать и разрезать информацию способами, значимыми для нашего бизнеса. Есть статья наKDnuggetsэто обеспечивает внушительный список программного обеспечения для анализа и анализа текста, которое является всеобъемлющим и подавляющим.

Однако в сообществе специалистов по науке недостаточно людей, которые знают, чтоSAP HANAимеет отношение канализ текста, Таким образом, этот пост служит введением в анализ текста с использованиемSAP HANA, Процедуры относительно просты; Что важно, так это возможные приложения.

Без дальнейших церемоний, давайте погрузимся.

В целях иллюстрации я использую небольшое подмножествоНабор данных мобильного обзора Amazonчто я скачал сKaggle,

Подмножество данных мобильного обзора Amazon - текстовая таблица

В большинстве случаев нам нужно создать индексную таблицу в столбце таблицы, содержащей текст. В индексной таблице проводится анализ текста.

Создание индексной таблицы

Извлечение «Core_Voice_Of_Customer» - это стандартная конфигурация, которая извлекает сущности и факты за пределы базовой конфигурации для поддержки анализа настроений и запросов. Эта конфигурация имеет важное значение, поскольку она идентифицирует положительные и отрицательные эмоции, связанные с токенами. Это позволяет нам оценивать мнения внутри корпуса, связанные с конкретными темами. Когда мы выполняем это, он создает индекс и таблицу, которая содержит наш анализ настроений, например:

Извлечение основного голоса клиента - таблица индексов (1)

Давайте посмотрим на столбцы таблицы индекса в деталях.

  • Текстовая таблица и таблица индексов должны иметь одинаковые столбцы идентификаторов.
  • Поскольку мы указали нашу конфигурацию как «Core_Voice_Of_Customer» ранее, это определило наш столбец «TA_RULE».
  • «TA_COUNTER» - это счетчик токенов, который считает все токены по всему документу. В этом случае все документы представляют собой десять строк строк в текстовой таблице.
  • Документы получили много типов сущностей в столбце «TA_TYPE».
  • Столбец «TA_TOKEN» указывает действительные значения или токены этих объектов.
  • В столбце «TA_LANGUAGE» указывается язык документа.

Анализ настроений

Также известный как «Голос клиента», это интересная часть модулей извлечения фактов. Слова могут быть извлечены и назначены с соответствующей эмоцией на основе набора правил, который включает требования для извлечения настроений клиентов, запросов, смайликов и ненормативной лексики. Эмоции можно классифицировать как сильные или слабые, положительные или отрицательные и т. Д.

  • Анализ текста выявил, что тип сущности предложения «Порт зарядки был свободен» - это чувство, а слово «хорошо» является сильным положительным утверждением, поскольку оно содержится в предложении «пока все хорошо!».
  • Однако слово «годный к употреблению» в предложении «100 долларов спустя, у меня есть телефон годный к употреблению», является слабым положительным утверждением.
  • Тип объекта «свободный» является незначительной проблемой, потому что слово «свободный» находится в предложении «Порт зарядки свободен».
  • Запрос извлечения. Из вышеприведенной таблицы предложение «Телефон не должен был продаваться в том состоянии, в котором он был», было извлечено в качестве запроса.
Извлечение основного голоса клиента - таблица индексов (2)
  • Кроме того, текстовый анализ выявил, что темы типа «телефон», «сын» и «продавец» являются темами, «100 долларов США» - валюта, а «2,5+ года» - период времени.
  • Слово «dang» - это мисс орфография от «damn», поэтому оно было классифицировано как личность.

Лингвистический анализ

  • Если мы выберем «LINGANALYSIS_BASIC» во время настройки, мы просто получим разделение входного текста на его элементы (токенизацию) следующим образом:
Конфигурация LINGANALYSIS_BASIC
LINGANALYSIS_BASIC - таблица индексов
  • Если мы выберем «LINGANALYSIS_STEMS» во время настройки, мы получим идентификацию словесных основ или словарных форм (основ), например:
LINGANALYSIS_STEMS Конфигурация
LINGANALYSIS_STEMS - таблица индексов

Например, из приведенной выше таблицы «получен» - это слово «получить», а «нужен» - «нужен».

  • Если мы выберем «LINGANALYSIS_FULL» во время настройки, это даст нам возможность пометить тегами (маркировку частей речи).
Конфигурация LINGANALYSIS_FULL
LINGANALYSIS_FULL - таблица индексов

Маркировка дает нам возможность идентифицировать грамматическую категорию, в которую попадает слово. Из приведенной выше таблицы «проблемы» и «проблема» - существительные, «решено» и «решить» - глаголы. Он идентифицирует и маркирует часть речи для каждого слова в контексте. Пометка помогает нам понять, что означают предложения или абзацы.

Языки

SAP HANA поддерживает 31 язык. Я буду использовать только 5 языков сегодня В целях иллюстрации я создаю игрушечный стол с 5 строками текста:

Текстовая таблица с пятью языками

Предложение пришло отпоследние новостио MIT. Переводы на немецкий, японский, корейский и китайский были сделаны через Google Translate. Мои извинения, если они не точны.

Вот наша индексная таблица, полученная из приведенной выше текстовой таблицы:

Анализ настроений для пяти языков - таблица показателей

Я думаю, что анализ текста SAP HANA проделал довольно хорошую работу по выявлению четырех языков (здесь отсутствует корейский).

Терпимый Стемминг

В настоящее время это доступно на английском, голландском, немецком и итальянском языках. Такое поведение по умолчанию позволяет обрабатывать нестандартные варианты написания, чтобы лучше максимизировать отзыв. Давайте посмотрим на пример.

  • Шаг 1, создайте однострочную текстовую таблицу:
Толерантный стемминг - текстовая таблица

Мы можем увидеть некоторые проблемы здесь; «Эндрю» должен быть написан с заглавной буквы, у «дочери» должен быть дефис до и после «в», а у «Дня рождения» не должно быть заглавных букв.

  • Шаг 2, создайте таблицу индексов, используя следующий запрос:
  • Шаг 3, выберите столбцы, чтобы создать таблицу результатов, используя следующий запрос:
  • Шаг 4, давайте посмотрим на нашу таблицу результатов:
Толерантный стемминг - таблица результатов

«Эндрю» был написан заглавными буквами, «День рождения» - в нижнем регистре, а «сестринское право» - дефисами.

Попробуй сам

Анализ текста в SAP HANA содержит гораздо больше функций, которые я здесь не рассматривал. Помимо доступных текстовых данных, у нас есть много возможностей принять анализ текста, чтобы извлечь сущности и факты, которые нам нужны.

Если вы хотите провести тот же эксперимент, вы можете сделать это по дешевке. Это не должно быть дорого, чтобы изучать новые вещи. Вы можете скачатьSAP HANA экспресс-изданиеи запишитесь на бесплатный курсТекстовая аналитика с платформой SAP HANA, Тогда дайте мне знать, как идет процесс обучения!

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map