www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Взгляд на обработку естественного языка (НЛП)

Дата публикации Nov 1, 2018

Обработка естественного языка (НЛП) является отраслью искусственного интеллекта. Это помогает компьютерам понимать, интерпретировать и манипулировать языком человеческого текста. Сегодня существует огромное количество электронных писем, текстов в социальных сетях, видеопотоков, отзывов клиентов, запросов клиентов и т. Д. Все эти текстовые данные становятся идеальным местом для применения НЛП. Нам нужны инструменты и методы НЛП для обработки, анализа и понимания неструктурированных «больших данных», чтобы высвободить силу в аналитике. В этом посте я объясню обработку естественного языка в терминах непрофессионала. Тогда поговорим о том, что за работа связана с НЛП. Я также уточню разницу между распознаванием речи и НЛП. Тогда, наконец, я расскажу об алгоритмах машинного обучения для НЛП.

Что такое обработка естественного языка (NLP)?

Люди общаются друг с другом, используяестественный языктакие как английский, китайский, французский или русский. Компьютерный алгоритм не может понимать естественный язык, но можетпроцессестественный язык для того, чтобы взаимодействие между компьютерами или людьми ощущалось точно так же, как взаимодействие между людьми и людьми. Этообработка естественного языка (НЛП), С помощью НЛП компьютер может слушать естественный язык, на котором говорит человек, интерпретировать его и реагировать на него, генерируя естественный язык обратно человеку.

Используем ли мы сегодня обработку естественного языка?

Да. Когда вы просите у Siri указания, вы используете NLP в действии. Хотя вы можете быть не удовлетворены уровнем точности, качество улучшается. Вы можете часто слышать, что «этот звонок может быть записан для качества и в целях обучения», когда вы делаете телефонный звонок, вполне вероятно, что все начальные разговоры генерируются компьютером. Опять же, вас может раздражать низкое качество, но точность улучшается со временем. Помимо этих двух примеров, фильтр спама в электронной почте - это еще одна форма НЛП, позволяющая определить, какие письма являются хорошими, а какие - спамом. Эти спам-фильтры сканируют текст и пытаются понять смысл этого текста.

Что включает в себя НЛП?

Рисунок А

НЛП включает в себя два основных направления работы: понимание естественного языка (NLU) и создание естественного языка (NLG). Вы обеспокоены тем, что компьютер не может понять значение или скрытый смысл каких-либо человеческих языков? Понимание естественного языка (NLU) пытается понять смысл письменного текста. Он вычитает основную языковую структуру.Это приложениеMicrosoft Azure показывает, как работает NLU. С другой стороны, вы чувствуете, что ответ от компьютера все еще звучит «механически»? Компьютер должен улучшить свое письмо, чтобы показать то же качество, что и у человека. Учитывая необработанный текст для ответа на разговор, компьютер должен генерировать текст, который является грамматически правильным и подстраивается под контекст и некоторый определенный стиль. NLU и NLG занимаются различными видами исследований. Это объясняет, почему крупные компании специализируются на одном домене или другом. В заключение NLU «читает», а NLG «пишет».

На рисунке A показаны подкатегории NLU для областей исследований.

Фонология(/ Fənäləjē /)является частью лингвистики, которая относится к систематическому расположению звука. Термин «фонология» происходит от древнегреческого языка, а термин «фоно» означает «голос или звук», а суффикс «логия» относится к слову или речи.

Морфологияэто исследование внутренней структуры слов. Термин морфология является греческим и представляет собой морфологию, означающую «форму, форму» и -ологию, что означает «изучение чего-либо». Различные части слова представляют наименьшие единицы значения, известные как морфемы. Морфология, которая включает в себя Природу слов, инициируется морфемами. Например, слово «недобрость» состоит из трех отдельных морфем: префикса «un-», корня «kind» и суффикса «-ness». Слова, которые нельзя разделить, называются лексической морфемой (например, вид, кошка, собака). Компьютер обучен интерпретировать слово по морфемам так же, как человек может разбить любое неизвестное слово на морфемы.

Синтаксисозначает расположение слов и фраз для создания правильно сформированных предложений на языке.

Семантикапроисходит от древнегреческого, что означает «значительный». Оно относится к историческому и психологическому изучению в значении слов или форм, рассматриваемых как факторы языкового развития. Семантическая обработка определяет возможные значения предложения, рассматривая взаимодействия между значениями на уровне слов в предложении. Например, слово «таблица» как существительное может относиться к «предмету мебели, имеющему гладкую плоскую верхнюю часть, которая обычно поддерживается одной или несколькими вертикальными ножками», или к фрейму данных на компьютерном языке.

Прагматикапроблемы с использованием языка в социальных контекстах и ​​способы, которыми люди производят и понимают значения через язык

  • Вы угощаете друга бургером из Макдональдса, большим картофелем фри и большим напитком. Ваш друг сказал «нет», потому что он станет толще.

В буквальном смысле ваш друг просто говорит, что в гамбургерной еде много калорий. Но из-за социального контекста разговор подразумевает, что он может быть толстым. Первое предложение в этом объяснении относится к семантике - буквальному значению предложения. Вторая часть относится к прагматике, интерпретации, основанной на социальном контексте.

Для читателей, которые хотят понять развитие в NLG,Конференция Strata Data 2017имеет хороший обзор.

В чем разница между распознаванием речи и обработкой естественного языка?

Предположим, вы хотите узнать погоду, спросите у своего Apple Siri или Alexa Alexa. Сири или Алекса слышит ваш голос, интерпретирует ваш вопрос и затем отвечает на него. В этом простом процессе участвуют три основные части: во-первых, Сири должнапризнатьвашречьи расшифровывает вашу речь в текст. Во-вторых, компьютер должен быть обученПонимаювашестественный языкв тексте. В-третьих, компьютер будетгенерировать естественный языкответить вам. Распознавание речи имеет дело с тонами, такими как женский или мужской тон или подъем. NLG имеет дело с соответствующей формулировкой и последовательностью слов, чтобы сделать ее максимально естественной. В этом посте я остановлюсь на NLU и NLG, которые работают с информацией в текстовом виде.

Какие типы алгоритмов машинного обучения были разработаны для NLG?

Искусственный интеллект (AI), машинное обучение (ML), нейронные сети (NN) и глубокое обучение (DL) являются популярными терминами и могут использоваться взаимозаменяемо некоторыми людьми. NVidia имеетпослеразличает различия, показанные на рисунке B. Независимо от того, являются ли они AL, ML, NN или DL, каковы многообещающие алгоритмы для генерации естественного языка?

Рисунок Б: Кредит:NVidia.com

Алгоритмы NLG варьируются от генерации текста на основе простых правил до очень специализированных моделей глубокого обучения. Типичный подход включает в себя конвейер, который разбивает задачу на (i)планирование предложенийи (ii)поверхностная реализация, Планирование предложения решает порядок
и структура предложения с последующей поверхностной реализацией, которая преобразует структуру предложения в окончательное высказывание.Вотодин пример, который использует Recurrent Neural Networks (RNN) - модель глубокого обучения, чтобы генерировать текст.Вотэто один пример глубокого обучения для создания стихотворения. Читатели могут проверить другие попытки для NLG.Вотэто интересный способ сделать NLG с Марковской Цепной Моделью.

Рисунок 3

Позвольте мне объяснить больше о RNN. Идея RNN заключается в том, чтобы использоватьпоследовательная информация, Поскольку язык является последовательным, естественно использовать RNN для прогнозирования следующего слова, которое следует за существующим словом. Обычная модель нейронной сети состоит из входного слоя, множества внутренних скрытых слоев и выходного слоя, как показано на левой панели рисунка 3. При моделировании предложений предполагается, что все слова независимы друг от друга. Очевидно, это не сработает. Нам нужна модель, которая может инкапсулировать информацию между последовательностями слов. RNN сохраняют структуру нейронных сетей (NN), но скрытые уровнивозвратныйпотому что они зависят от выходных данных предыдущих слоев, как показано на правой панели рисунка 3. Другой способ думать о RNN состоит в том, что у них есть «память», которая захватывает информацию о том, что было рассчитано до сих пор.

Надеюсь, вам понравился мой пост, и вы более чем рады продолжатьЧасть (II), в которой говорится о случае использования обработки естественного языка (NLP) в Электронной медицинской карте (EHR), Я обсуждаю электронную медицинскую карту (EHR) как пример использования НЛП. ЭМК содержит историю болезни пациента, диагнозы, лекарства, планы лечения, даты иммунизации, аллергии, рентгенологические снимки, а также результаты лабораторных исследований и анализов. Тем не менее, большой барьер для этого EHR заключается в том, что большая часть информации в EHR по-прежнему носит повествовательный характер. Как мы можем использовать НЛП для извлечения и преобразования повествовательной информации?

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map