www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Обзор: DeepMask (Сегментация экземпляра)

Дата публикации Dec 19, 2018

На этот раз,DeepMask, поFacebook AI Research (FAIR), рассматривается. Начиная сAlexNetвысокая точность достигается с помощью сверточной нейронной сети (CNN) для классификации изображений, многочисленные подходы CNN разработаны для других задач, таких как обнаружение объектов, семантическая сегментация и сегментация экземпляров. DeepMask - это подход CNN для сегментации экземпляров.

Семантическая сегментация против сегментации экземпляра
  • Классификация изображений: Классификация основной категории объектов на изображении.
  • Обнаружение объекта: Определите категорию объекта и определите местоположение, используя ограничивающую рамку для каждого известного объекта в изображении.
  • Семантическая сегментация: Определить категорию объекта каждого пикселя для каждого известного объекта в изображении.Ярлыки ориентированы на класс.
  • Сегментация экземпляра: Определите каждый экземпляр объекта каждого пикселя для каждого известного объекта в изображении.Метки осведомлены об экземпляре.

Некоторые отличия от семантической сегментации

  • Больше понимания на примере отдельных лиц.
  • Рассуждение об окклюзии.
  • Необходим для таких задач, как подсчет количества объектов.

Некоторые отличия от обнаружения объектов

  • Ограничительная рамка оченьгрубая граница объектамножество пикселей, не относящихся к обнаруженному объекту, также включены в ограничивающую рамку.
  • И не максимальное подавление (NMS) будетподавить закупоренные предметы или наклонные предметы.

Таким образом, Сегментация экземпляра - это увеличение уровня сложности на один уровень !!!

И DeepMask является2015 NIPSбумага с более чем300 цитат, Хотя это документ, опубликованный в 2015 году, он является одним из самых ранних документов, в которых для сегментации используется CNN. Стоит изучить его, чтобы узнать, как развивается сегментация экземпляров на основе глубокого обучения. (Сик-Хо Цанг@ Средний)

Поскольку предложение области может быть сгенерировано на основе предсказанной маски сегментации, также может быть выполнена задача обнаружения объекта.


Что покрыто

  1. Модельная архитектура
  2. Совместное обучение
  3. Полный вывод сцены
  4. Полученные результаты

1. Модельная архитектура

Архитектура модели (вверху), положительные образцы (зеленый, слева внизу), отрицательные образцы (красный, справа внизу)

Слева внизу: положительные образцы

Меткаук= 1дается дляКположительный образец Чтобы быть положительной выборкой, необходимо выполнить два критерия:

  • Патч содержит объект, приблизительно отцентрованный во входном патче,
  • Объект полностью содержится в патче и в заданном диапазоне масштабов.

когдаук= 1,наземная маска правдыткимеет положительные значениядля пикселей, которые принадлежатодин объектнаходится в центре изображения патча.

Справа внизу: отрицательные образцы

В противном случае, ярлыкук= -1дается для отрицательного образца, даже если объект частично присутствует.когдаук= -1, маска не используется.

Вершина, Модельная Архитектура: Главный Филиал

Модель, как показано выше, с учетом входного изображения патчаИкспосле извлечения объектаVGGNetПолностью связанные (FC) слои возникли вVGGNetудалены. Последний максимальный пул слой вVGGNetтакже удаляется, поэтому выходные данные перед разбиением на два пути имеют размер 1/16 входных данных. Например, как указано выше, входное значение составляет 224 × 224 (3 - это количество каналов во входном изображении, т.е. RGB), выходное значение в конце основной ветви равно (224/16) × (224/16) = 14 ×. 14. (512 - количество карт характеристик после свертки.)

Есть два пути послеVGGNet:

  • Первый путь состоит в том, чтобы предсказать независимую от класса маску сегментации, т.е.fsegm(Икс).
  • Второй путь - назначить оценку, соответствующую вероятности того, что патч будет содержать объект.т.е.fscore(Икс),

Вверх, первый путь: прогнозирование карты сегментации

1 × 1 сверткавыполняется сначала без изменения количества карт объектов,нелинейное отображение без уменьшения размераздесь делается После того,два слоя ФКвыполняются. (Это заметить, что естьнет ReLU между этими двумя слоями FC!)

В отличие от семантической сегментации, сеть должна выводить маску для одного объекта, даже если присутствует несколько объектов.(Так же, как слон в центре входного изображения, как показано выше.)

В заключение,создается карта сегментации 56 × 56, И простойбилинейная интерполяцияявляется выборка карты сегментации224 × 224,

Верхний, второй путь: прогнозирование оценки объекта

Максимальное объединение 2 × 2, за которым следуют два слоя FC. Наконец, одно значение Прогнозируемая оценка объекта,fscore(Икс), получается. Поскольку положительные образцы даются на основе двух критериев, упомянутых выше,fscore(Икс) должен предсказать, удовлетворяет ли входное изображение этим двум критериям.


2. Совместное обучение

2,1 Функция потери

Сеть обучена совместному изучению карты сегментации по пикселямfsegm(хк)в каждом местоположении (i, j) и прогнозируемой оценке объектаfscore(хк).Функция потерь показана ниже:

Короче говоря, функция потерь является суммой двоичных потерь логистической регрессии, по одному для каждого местоположения сети сегментацииfsegm(хк)и один для оценки объектаfscore(хк),Первый член подразумевает, что мы будем распространять ошибку только по пути сегментации, еслиук= 1.

Еслиук= -1, т. Е. Отрицательная выборка, первый член станет 0 и не будет способствовать потере. Только второй член способствует потере.

Ради баланса данных используется равное количество положительных и отрицательных образцов.

2.2. Другие детали

Размер партии 32используется.Предварительно обученная модель ImageNetиспользуется. Есть75M параметровв итоге. Модель занимает около5 днейтренироваться на нвидии тесла к40м.


3. Полный вывод сцены

3.1. Несколько мест и весов

Во время вывода (тестирования) модель применяется плотно принесколько локаций с шагом 16 пикселей, а такженесколько шкал от 1/4 до 2 с размером шага квадратного корня из 2, Это гарантирует, что есть по крайней мере один протестированный патч изображения, который полностью содержит каждый объект в изображении.

3.2. Fine Stride Max Pooling

Поскольку входное тестовое изображение больше, чем размер обучающего входного патча, нам нужно соответствующее2D скоринговая картакак вывод, а не одно значение оценки. Трюк с перемежением используется перед последним максимальным слоем пула для ветви оценки, то естьFine Stride Max Poolingпредложено вOverFeat,

Чтобы быть кратким, множественное максимальное объединение сделано на карте объектов. Сдвиг пикселей выполняется перед каждым максимальным пулом.


4. Результаты

4.1. MS COCO (коробки и маски сегментации)

80 000 изображений и около 500 000 сегментированных объектов используются для обучения. И первые 5000 изображений MS COCO 2014 используются для проверки.

Окна обнаружения среднего отзыва (AR) (слева) и маски сегментации (справа) в наборе проверки MS COCO (AR @ n: AR, когдаNпредложения региона генерируются. AUCx: x - размер объектов)
  • DeepMask20: Тренируется только с объектами, относящимися к одной из 20 категорий PASCAL. AR низок по сравнению с DeepMask, что означает, что сеть не обобщена на невидимые классы. (низкие оценки для невидимых классов.)
  • DeepMask20 *: Аналогично DeepMask, но в пути подсчета используется оригинальная DeepMask.
  • DeepMaskZoom: Дополнительная меньшая шкала для усиления AR, но за счет увеличения времени вывода.
  • DeepMaskFull: Два слоя FC на пути для прогнозирования маски сегментации заменяются одним слоем FC, непосредственно сопоставленным из карт объектов 512 × 14 × 14 с картами сегментации 56 × 56. Вся архитектура сболее 300 млн. параметров, Это немного уступает DeepMask и намного медленнее.

4.2. ПАСКАЛЬ ЛОС 2007 (коробки)

Среднее извлечение (AR) для блоков обнаружения на тестовом наборе PASCAL VOC 2007
  • Предложения по регионам генерируются на основе предсказанных масок сегментации, которые можно использовать в качестве первого шага задачи обнаружения объекта.
  • Быстрый R-CNN с использованием DeepMaskпревосходит оригиналFast R-CNNиспользование выборочного поиска, а также других современных подходов.

4,3. Время вывода

  • Время вывода в MS COCO составляет 1,6 с на изображение.
  • Время вывода в PASCAL VOC 2007 составляет 1,2 с на изображение.
  • Время вывода может быть дополнительно уменьшено примерно на 30% путем распараллеливания всех шкал в одной партии.

4.4. Качественные результаты

DeepMask предлагает высочайший уровень правдоподобия на выбранных изображениях из COCO. Пропущенные объекты (нет подходящих предложений с IoU> 0.5) отмечены красным контуром.
Больше результатов от COCO. Пропущенные объекты (нет подходящих предложений с IoU> 0.5) отмечены красным контуром.

DeepMask был обновлен, чтоVGGNetпозвоночник замененRESNETвGitHub,

После DeepMask FAIR также изобрела SharpMask. Надеюсь, я смогу рассказать об этом позже


Ссылки

[2015 NIPS] [DeepMask]
Учимся сегментировать объектные кандидаты

Мои похожие отзывы

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [SPPNet] [PReLU-Net] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Вводный-v3] [Вводный-v4] [Xception] [MobileNetV1] [RESNET] [Преактивация ResNet] [RiR] [RoR] [Стохастическая глубина] [ПРПЖД] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet]

Обнаружение объекта
[OverFeat] [Р-CNN] [Fast R-CNN] [Быстрее R-CNN] [DeepID-Net] [Р-СКЛС] [YOLOv1] [SSD] [YOLOv2 / YOLO9000]

Семантическая сегментация
[СКЛС] [DeconvNet] [DeepLabv1 и DeepLabv2] [ParseNet] [DilatedNet] [PSPNet]

Биомедицинская Сегментация Изображения
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-СКЛС]

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map