www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home
Занимательная история, выдающиеся люди, малоизвестные факты, находки, открытия, фальсификации. Присоединяйся!

Машинное обучение с нуля: часть 2

Дата публикации Feb 25, 2018

Оглавление


Большое спасибо за ваш интерес и положительные отзывы! Я рад видеть, что многие из вас находят материал полезным. Эта серия постепенно превращается в всеобъемлющее и самостоятельное учебное пособие по наиболее важным темам в области прикладного машинного обучения.

Последний разМы сосредоточились на атрибутах и ​​моделях. Первая часть этой статьи расширяет наш концептуальный инструментарий за счет обсуждения наборов данных и коллекций. Затем вторая часть рассматривает обработку естественного языка и применяет новые концепции.


Данные

Точки данных

Некоторые из первых ассоциаций, которые должны прийти в голову, когда вы услышите термин «данные»являютсясбор, подсчет, оценка, регистрация, измерение, количественная оценка, оценка, геодезия, отслеживание и взвешивание, Это те виды деятельности, которые предоставляют драгоценное сырье для машинного обучения.

Данныелюбая коллекция измеренных значений атрибута. Биомаркеры, финансовые показатели, показатели продаж, сетевые подключения, ответы на опросы, активность пользователей, видеозаписи, количество слов и количество доступных вкусов в вашем любимом кафе-мороженом - все это подпадает под рубрику данных.

данная величинаэто единичное измерение значения атрибута. Один элемент - это количество слов в этой статье (2268).

Предположим, что мы заинтересованы в определенном наборе атрибутов и измеряем их значения несколько раз - возможно, в разное время, в разных местах или для разных объектов. Коллекция таких измерений, сделанных в любом из этих случаев, являетсяточка данных,

Например, фитнес-трекеры измеряют показатели сердечно-сосудистой системы, уровень активности и качество сна. Данные, собранные для конкретного человека в определенное время, составляют одну точку данных.

Примеры

примерэто точка данных, которая была собрана в попытке решить проблему машинного обучения.

Если бы мы хотели предсказать эффективность онлайн-рекламы, каждый пример характеризовал бы конкретное отображение рекламы, которое происходило в прошлом. Это включает в себя функции, касающиеся положения, формата и дизайна рекламы, а также наличия или отсутствия определенных слов и демографических данных о пользователе, которому она была представлена.

Примером являетсямаркированныйкогда он включает в себя целевое значение инепомеченнаякогда целевое значение отсутствует.

В примере с рекламой пример помечается, когда он включает показатель эффективности, такой как значение «да / нет», которое указывает, нажималось ли объявление.

Наборы данных

набор данныхэто коллекция примеров.

Контролируемое обучение использует наборы данных с помеченными примерами. Обучение без учителя, тип обучения, который будет рассмотрен в последующих главах, является попыткой распознать закономерности в немаркированных примерах.

рисунок 1

Во время разработки наборы данных используются в качестве источников для распознавания образов и для оценки производительности системы машинного обучения.

В производстве система показывает новые данные точек. Эти точки данных часто похожи, но редко идентичны примерам, которые были доступны во время разработки.

Коллекции

Данные расположены вколлекции,

Следующее дерево показывает типы коллекций, которые будут использоваться в этой серии:

Рис. 2

Два основных типа коллекции - это наборы и списки.

наборы

поставилэто коллекция отдельных объектов. Другими словами, ни один объект не может встречаться более одного раза. Объекты, которые принадлежат набору, называютсячленыилиэлементы. Количество элементов в наборе известно как его мощность илиразмериз набора.

Определенные наборы обозначены заглавными буквами. Члены наборов пишутся строчными буквами.

Фигурные скобки обозначают набор объектов, образующих множество. Набор основных вкусов мороженого может выглядеть так:S = {ваниль, шоколад, клубника}.

Тот факт, что элемент x принадлежит множествуSнаписаноx ∈ S, Размер множества S обозначается вертикальными чертами:| S |,

В предыдущем примере мы имеемvanilla ∈ Sа также| S | = 3,

Списки

списокнапротив, это коллекция, в которой объекты могут встречаться более одного раза. Объекты, которые принадлежат списку, называютсяПредметыили элементы. Количество элементов, содержащихся в списке, называетсяразмерилидлинаиз списка.

Я буду использовать квадратные скобки для обозначения списков. Заказ клиента на две порции клубничного мороженого и одну порцию ванили в нашем основном кафе-мороженом может быть представлен в следующем списке:[клубника, клубника, ваниль].

Обратите внимание, что список является правильным выбором в этом случае Бизнес, который использовал наборы для представления заказов, не сможет обслуживать правильное количество запрошенных порций мороженого.

Кортежи и списки переменной длины

Списки могут быть далее разделены на два подтипа:

  • кортежи (списки фиксированной длины)
  • списки переменной длины

Кортеж - это список фиксированной длины. Другими словами, вы не можете ни добавлять дополнительные элементы, ни удалять какие-либо из существующих элементов.

Кортежи длиной 2 и 3 называютсяпарыа такжетроексоответственно. Кортежи длиной 1 вряд ли будут использоваться в ближайшее время в этой серии. (Для полноты картины отмечу, что они упоминаются какодиночки.)Две разные схемы именования используются для кортежей длиной 4 или более. Некоторые люди предпочитают латинские префиксы и называют эти списки четырехкратными, пятикратными, шестикратными и т. Д. Другие предпочитают называть их 4-кортежами, 5-кортежами, 6-кортежами и так далее.

Кортеж обозначается круглыми скобками и может использоваться для представления данных.

Предположим, у вас есть сайт электронной коммерции, который предлагает один продукт и позволяет клиентам размещать рейтинг. В этом случае базовое представление рейтинга принимает форму пары:(идентификатор клиента, рейтинг).Как только вы добавите второй продукт на сайт, формат должен быть расширен от пары до тройки:(идентификатор клиента, идентификатор продукта, рейтинг), Четвертый пункт становится необходимым, когда вы предлагаете несколько продуктов и позволяете клиентам со временем изменять свои рейтинги:(идентификатор клиента, идентификатор продукта, дата и время, рейтинг),

Другими словами, длина кортежа часто зависит от того, сколько контекстной информации вы хотели бы закодировать.

список переменной длиныиспользуется, когда количество элементов изменяется или не может быть предсказано заранее. Новые элементы могут быть добавлены и существующие элементы могут быть удалены. Если не указано иное, терминсписоквсегда будет ссылаться на списки переменной длины.

В заключение нашего обсуждения базовых коллекций я приведу обзор трех типов, которые мы рассмотрели:

Рис. 3

Коллекции высшего порядка

Прежде чем я забуду одну последнюю вещь на эту тему: коллекции могут быть организованы в коллекции.

Другими словами, мы можем иметь наборы наборов, наборы списков, наборы кортежей, списки наборов, список списков, список кортежей, кортежи наборов, кортежи списков и кортежи кортежей. Я буду ссылаться на эти объекты какколлекции высшего порядка,

Изображение, например, может быть представлено через интенсивность красного / зеленого / синего пикселей. Для каждого из этих трех цветовых каналов у нас есть один список интенсивностей. Изображение в целом можно рассматривать как список из трех списков. Несколько изображений, в свою очередь, образуют список из трех списков.

Было упомянуто, что элемент данных можно рассматривать как кортеж, а точка данных - это набор значений атрибутов (измеренных для конкретной цели и в конкретном случае). Оснащенный концепцией коллекций высшего порядка, мы теперь можем понимать точку данных как набор кортежей. Наконец, набор данных в контролируемом обучении может быть описан как список помеченных примеров, которые, в свою очередь, представляют собой пары, состоящие из набора кортежей (точка данных) и целевого значения.

Как видите, мы можем легко создавать все более сложные коллекции более высокого порядка из базовых коллекций.


Большие текстовые данные

Теперь, когда мы обсудили наборы данных и коллекции, мы можем сначала взглянуть на одно из самых плодотворных приложений машинного обучения за последнее время: анализ естественного языка.

В этой серии статей мы рассмотрим методы, которые можно применять к текстовым данным и изображениям. Это мотивировано двумя фактами:

  1. Большинство современных результатов в области компьютерного зрения и обработки естественного языка были достигнуты с помощью машинного обучения. [1, 2]
  2. Большая часть продукции нашей цивилизации кодируется в виде текста или изображения.
Рис. 4: Длинная комната старой библиотеки в Тринити-колледже Дублина (ФотоДэвид Илифф/ CC BY-SA 4.0)

В 2010 году в проекте Поиска книг Google было зарегистрировано около 130 миллионов отдельных книг [3], а количество научных статей, по оценкам, превысило 50 миллионов к 2009 году [4].

Количество патентов, выданных только Бюро по патентам и товарным знакам США, достигло 8 миллионов в 2011 году. [5] Чтобы получить патент, изобретатель должен раскрыть техническую информацию. Какими бы ни были экономические последствия патентов, они явно содержат ценную информацию и подлежат анализу машинного обучения.

Распознавание речи переводит речь в текст и, таким образом, еще больше расширяет возможности анализа текста. В среднем люди говорят около 16 000 [6] слов в день. Во всем мире это составляет более ста триллионов слов, произнесенных в течение двадцати четырех часов. Кроме того, сообщалось, что 400 минут видеоконтента загружаются на YouTube каждую минуту. [7]

Наличие огромного количества текстовых данных в сочетании со способностью машин учиться, привело к машинному чтению. Ответы, предоставляемые нам каждый день поисковыми системами и виртуальными помощниками, в значительной степени получены через системы, которые читают миллионы текстовых документов.

Мы ожидаем, что наши искусственно интеллектуальные помощники охватывают широкий спектр тем и дают точные ответы. При прочих равных условиях большая доступность данных помогает в обоих требованиях: увеличивает охват и повышает способность распознавать шаблоны.

Лексическое разнообразие

Мы можем использовать разницу между списками и наборами для вычисления нашей первой функции обработки естественного языка.

словарьэто набор слов в текстовом документе. Другими словами, это набор слов, которые встречаются в документе хотя бы один раз. С другой стороны, фактический текст можно рассматривать как список слов (и некоторых других символов).

Предположим, ваша цель - определить пригодность книги для изучающих язык начального уровня. Одной из функций, которые вы можете использовать для этой задачи, является соотношение между размером словарного запаса (установленный размер) и длиной текста (размер списка). Это известно как одна из нескольких мерлексическое разнообразие,

Значение этой функции является относительно низким для детских книг и учебников для изучающих иностранный язык. В этих случаях размер словарного запаса невелик, а длина текста (относительно) велика, чтобы обеспечить широкие возможности для обучения.

На другом конце спектра у нас есть роман Германа МелвиллаMoby-Dick.Сорок четыре процента слов вMoby-Dickсловарный запас встречается только один раз, а 75% встречаются не более четырех раз [8]. Грубо говоря, новое слово вводится в каждой строке книги, и книга, таким образом, больше подходит для продвинутых студентов и заядлых читателей.

Количество слов

Семестрколичество словявляется воплощением информативности. Он обозначает пару, состоящую из слова и счетчика.

Примером является тот факт, что есть два вхождения словаловкостьв романе Мелвилла,

Количество слов не говорит нам ничего. Чтобы начать анализ текста, мы должны получить количество для каждого слова в словаре.

Рис. 5: Количество слов в «Мелвилле»Моби Дик»: Каждый круг представляет собой слово. Слова, которые встречаются однажды (hapax logemena), показаны красным. Слова, встречающиеся дважды (dis legomena), показаны синим цветом.

Статьи, предлоги и местоимения, как правило, находятся на верхних строчках рейтинга. Наиболее часто встречающееся слово вMoby-Dickэто определенная статья[8].

Что еще интереснее, словаегоа такжекитоцениваются # 9 и # 21, соответственно. Даже если бы мы ничего больше не знали о контенте, просто взглянув на эти две статистики, вполне вероятно, что книга как-то связана с человеком и китом.

Получение количества слов является одним из самых первых шагов в процессах обработки естественного языка. Счет может быть обработан и обогащен другими функциями сложными способами, но они всегда играют по крайней мере некоторую роль.

В ходе этой серии статей мы расширим количество слов и будем систематически использовать их в качестве основы для эффективного анализа текста.


В следующей части этой серии мы обсудим, как точно сформулировать проблему, с которой вы сталкиваетесь в плане машинного обучения. Он объединит все концепции, которые были рассмотрены до сих пор, чтобы представить функции и изучить понятие модели.

Спасибо за чтение! Если вам понравилась эта статья, нажмите кнопку хлопка и следуйте за мной, чтобы получить следующие статьи из этой серии.


Ссылки

[1] LeCun, Y., Bengio, Y. и Hinton, G., 2015. Глубокое обучение.природа,521(7553), с.436.

[2] Cambria, E. and White, B., 2014. Прыжки по кривым НЛП: обзор исследований по обработке естественного языка.IEEE Журнал вычислительной разведки,9(2), с.48–57.

[3]http://booksearch.blogspot.de/2010/08/books-of-world-stand-up-and-be-counted.html

[4] Jinha, A.E., 2010. Статья 50 миллионов: оценка количества существующих научных статей.Научился издательскому делу,23(3), с. 258–263.

[5]https://www.uspto.gov/learning-and-resources/ip-motion/millions-patents

[6] Мехл М.Р., Вазире С., Рамирес-Эспарза Н., Слатчер Р.Б. и Пеннебейкер Дж.В., 2007. Действительно ли женщины более разговорчивы, чем мужчины?Наука,317(5834), с.82–82.

[7]https://www.forbes.com/sites/stevenrosenbaum/2015/07/24/fans-selfies-and-the-future-of-tv/#757de7435ffd

[8] См., Например, Ли В., Мирамонтес П. и Кохо Г., 2010. Подгонка ранжированных лингвистических данных с помощью двухпараметрических функций.Энтропия,12(7), сс.1743–1764.

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map