www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Объединение наборов данных для агрегации предпочтений: что общего между суши, возрастом и качеством изображения?

Дата публикации Oct 3, 2019

Для многих задач у нас есть мощные алгоритмы машинного обучения, которые при достаточном количестве данных могут достичь беспрецедентной производительности. Однако условие наличия универсальных и качественных данных в изобилии не всегда легко выполняется. Это особенно трудно для проблем, где требуется человеческий вклад. Вовлечение людей в процесс сбора данных является дорогостоящим и требует много времени. Более того, для некоторых проблем требуются экспертные знания (например, оценка медицинских образцов) или контролируемая среда (например, качество продуктов питания, визуальные эксперименты). Из-за этих требований и ограничений созданные наборы данных могут быть очень маленькими и конкретными. Проблемы большого домена, когда создание больших наборов данных является трудоемким, вызывает качество, как оценивают люди. Именно здесь сходятся суши, возраст и качество изображения.

Как можно решить проблему?

Существует два способа решения проблемы недостатка данных: один - тратить кучу денег на сбор данных с нуля, или быть немного умнее и объединить уже собранные наборы данных. В идеале, знания, которые были собраны в прошлом, должны быть повторно использованы в будущем.

В этой статье я расскажу о ранжировании и рейтинге, а также о том, как оба протокола могут быть смешаны вместе. Я приведу примеры, связанные с проблемой качества изображения - оно очень наглядно. Здесь мы хотим судить о том, сколько искажений в изображении воспринимается людьми. Собранные данные используются для построения объективных показателей качества изображения, которые в идеале хорошо коррелируют с человеческим восприятием. Эти показатели важны для разработки и настройки алгоритмов сжатия изображений и видео. Код MATLAB для статьи доступенВот(Python скоро).

Строгий подход

Статья основана наЭта бумага- если вы хотите увидеть больше деталей и строгий подход к проблеме, не проходите мимо.

Как выявить масштаб?

При построении шкалы мы пытаемся восстановить скрытые оценкиQ,Существует два способа построения такой шкалы - использование рейтинговых или рейтинговых протоколов. Оба описаны ниже с иллюстрацией на рисунке 1.

Рисунок 1: Рейтинг и протоколы ранжирования

ранжирование

Мы можем ранжировать объекты в парах или наборах. Здесь я остановлюсь на парных сравнениях из-за их простоты и способности преобразовывать результаты последовательных сравнений в парные сравнения.

В парных сравнительных экспериментах субъект выбирает одно из двух условий по некоторому критерию. Ответы записываются в матрицеСгде каждая запись cИ.Я.количество раз условиеискусственный интеллектбыл выбран за условиеAj.

Чтобы преобразовать эту матрицу сравнений в одномерную шкалу, мы можем использовать либоБрэдли-ТерриилиThurstoneмоделей. На практике обе модели дают одинаковые масштабы, но Брэдли-Терри использует асимметричное распределение Гамбеля (для кумулятивной логистической функции), а Терстон - симметричный гауссов. Здесь я расскажу о модели Thurstone case V. Описание других случаев (I, II, III, IV) можно найти в оригинальной статье.

Рисунок 2: От условий к шкале качества

Модель случая Терстоуна V сначала отображает ответы наблюдателя на вероятности того, что одно условие лучше другого. Затем вероятности преобразуются в расстояния. Такое отображение вероятностей на расстояния осуществляется посредством обратного нормального кумулятивного распределения. Стандартное отклонение (сигма) этого распределения определяет отображение. Обычно можно сопоставить 0,75 вероятности одного выбранного условия как лучшую разницу с условиями одного единичного расстояния (рис. 3), тогда построенный масштаб называется масштабом просто нежелательной разницы (JOD).

Рисунок 3: Отображение от расстояния до вероятности условия, выбранного как лучшее

Задача построения шкалы затем превращается в проблему уменьшения размерности. Здесь для каждого условияискусственный интеллекта такжеAjмы связываем разницу в показателях качества с количеством разискусственный интеллектбыл выбран болееAj(и наоборот) через биномиальное распределение:

где пидж -общее количество сравнениймеждуяа такжек.Затем мы используем оценку максимального правдоподобия, чтобы вывести показатели качества. Поскольку качество относительно, мы устанавливаем качество первого условия равным 0 (q1= 0) Для более подробной информации о масштабировании парных сравнений смотритеВота такжеВот, Конвейер для извлечения масштаба из парных сравнений показан на рисунке 2.

Рейтинг

Рейтинговые эксперименты могут быть: (i) категориальными - субъект выбирает категорию, в которую попадает условие; (ii) кардинал - субъект должен присвоить числовое значение условию. Результаты по всем предметам затем агрегируются, и получается среднее значение. Это среднее значение называется средняя оценка мнения (MOS)

Теперь перейдем к моделированию качестваQчерез рейтинг. Диапазон производимых шкал, используемых в рейтинговых экспериментах, задается проводником эксперимента и может быть любым от 0 до 10, от 1 до 100 и т. Д. Чтобы включить и диапазон, и смещение, мы вводим две переменныеа такжеб.Мы также предполагаем, что качество, полученное из рейтинговых измерений, соответствует нормальному распределению. Для каждого скрытого качества условия i (qя) у нас есть:

где микэто оценка, назначенная кгонаблюдатель к ягосостояние исопределяетвеличина стандартного отклонения относительно фиксированной сигмы наблюдателя.Развернув вышесказанное и включив в формулу для нормального распределения:

Вероятность соблюдения матрицы рейтингов с записями миккак указано вышезатем определяется как:

Объединение наборов данных

Объединить наборы данных для парного сравнения очень просто - выберите несколько условий в наборах данных, свяжите их с парными сравнениями (проведите несколько экспериментов и выполните подачу в модели Терстоуна / Брэдли-Терри). Аналогично, для рейтинговых оценок выберите несколько условий из непересекающихся наборов данных, измерьте голоса для этих условий в совместном эксперименте и заново откорректируйте исходные данные на основе относительного качества вновь измеренных условий. Но как нам действовать с объединением наборов данных, имеющих парные сравнения и рейтинговые оценки?

Разве мы не можем просто собрать данные рейтинга вместе?

Что ж… Людям-участникам могут быть заданы несколько иные вопросы, или эксперименты могут проводиться в слегка разных условиях, поэтому сочность суши 4 в одном наборе данных может соответствовать 3 в другом, просто потому, что она была оценена относительно других суши, которые пробовали на эту дату.

Модель

Мы определяем задачу максимизации, где мы пытаемся найти скрытые показатели качества q и параметры a, b и c, относящиеся к парному сравнению и измерениям рейтинга с учетом матриц M и C и стандартного отклонения сигма модели наблюдателя.

Мы можем видеть некоторые знакомые термины - то есть P (C | q) и P (M | q) определены выше. Однако здесь мы также имеем P (q) - гауссовский априор, включенный для обеспечения выпуклости.

Обратите внимание, что теперь скрытые показатели качества находят, используя информацию как из средних оценок мнений, так и парных сравнений. параметрсимеет значение - если c больше 1, парные сравнения лучше для эксперимента, а если меньше 1, то хуже. Параметры модели могут быть затем найдены с оценкой максимального правдоподобия.

Тестирование модели

Давайте рассмотрим игрушечный пример. Здесь у нас есть два набора данных, DS1 и DS2, каждый из которых имеет как парные сравнения, так и измерения рейтинга.

DS1 имеет 4 условия. Матрица парных сравнений C1 имеет размер 4x4, причем каждое условие сравнивается с любым другим условием один раз. Условия в DS1 были оценены 5 наблюдателями. Эти рейтинговые измерения собраны в матрицу 4х5 М1. Обратите внимание, что условие 2 в этом наборе данных не было измерено в рейтинговых экспериментах. Однако это не проблема, так как это было связано с другими условиями в наборе данных путем парных сравнений.

DS2 имеет 5 условий, измеренных 3 субъектами в рейтинговых экспериментах. В этом наборе данных также выделяется условие 2 - оно не было связано посредством парных сравнений в ранжирующих экспериментах. Тем не менее, был измерен в рейтинговых экспериментах наряду с другими условиями.

Имея два непересекающихся набора данных, мы хотим связать их вместе посредством парных сравнений. Ниже приведена матрицаС,Свключает как данные парных сравнений исходных наборов данных (красный и зеленый), так и дополнительные сравнения, собранные для связи двух наборов данных (синий). Аналогично матрица M содержит объединенные данные рейтинговых экспериментов как для DS1, так и для DS2.

Теперь мы можем масштабировать DS1 и DS2 вместе, чтобы получить окончательный масштаб.

Здесь истинные баллы - это те, которые используются для генерации баллов в матрицах.Са такжеMи прогнозируются баллы, полученные путем смешивания данных изСа такжеMвсе вместе. Обратите внимание, что точность результатов зависит от качества и количества данных. Чтобы получить лучшие результаты, мы могли бы собрать больше парных сравнений или рейтинговых измерений.

дальнейшее чтение

Это краткое изложение источников, упомянутых в статье:оригинальная бумага,код,Модель Turstone оригинальная бумага,Брэдли-Терри оригинальная бумагамасштабирование парных данных сравнения:бумага 1а такжебумага 2). Если вам нужен другой взгляд на слияние рейтинга и ранжирования, вам пригодятся эти две статьи:бумага 1,бумага 2,

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map