www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Обзор: MR-CNN & S-CNN - многообластные и семантические CNN (обнаружение объектов)

Дата публикации Mar 21, 2019

Набор данных PASCAL VOC 2012

В этой истории подход обнаружения объекта с использованиемMR-CNN & S-CNN, поУниверситет Париж-Восток, рассматривается. Предложены два пути сверточной нейронной сети (CNN):

  • Мультирегиональный CNN (MR-CNN): Представление объекта с использованием нескольких областей для захвата нескольких различных аспектов объекта.
  • CNN с учетом сегментации (S-CNN): Информация семантической сегментации также используется для повышения точности обнаружения объекта.

К тому же,механизм локализации для уточнения ограничивающих рамоктакже предлагается. И это2015 ICCVбумага с более чем200 цитат, (Сик-Хо Цанг@ Средний)


Контур

  1. Мультирегиональный CNN (MR-CNN)
  2. CNN с учетом сегментации (S-CNN)
  3. Локализация объектов
  4. Итеративный механизм локализации
  5. Полученные результаты

1. Мультирегиональный CNN (MR-CNN)

Мультирегиональный CNN (MR-CNN)

1.1. Сетевая архитектура

  • Сначала входное изображение проходит через модуль карт активации, как показано выше, и выводит карты активации.
  • Предложения по регионам или ограничивающие рамки генерируются с помощью выборочного поиска.
  • Для каждого ограничивающего прямоугольника кандидатовВ, набор регионов {Род-Айленд}, ся= 1 док,генерируются, поэтому он называется мультирегиональным. Более подробная информация о выборе нескольких регионов описана в следующем подразделе.
  • Пул ROI выполняется для каждого регионаРод-Айлендобласть пула или обрезки проходит через полностью подключенные (FC) слои в каждом модуле адаптации региона.
  • Наконец, выходы всех уровней FC объединяются вместе, чтобы сформировать одномерный вектор признаков, который является объектным представлением ограничительной рамки.В,
  • Вот,VGG-16Используется предварительно обученная модель ImageNet. Максимальный уровень пула после удаления последнего слоя.

1.2. Компоненты региона

Регионы, используемые в мультирегиональных CNN
  • Есть два типа регионов:Прямоугольники ((a) - (f))а такжепрямоугольные кольца ((g) - (j)), как показано выше.
  • Оригинальная коробка (а): Тот, который используется вР-CNN,
  • Половина ящиков, (б) - (д): Эти регионы призваны сделать представление объекта болеекрепкий по отношению к окклюзии,
  • Центральные Регионы, (f) - (g): Эти регионы предназначены для представления объектаменьше мешать другим объектам рядом с ним или его фоном,
  • Пограничные регионы, (ч) - (я): Эти регионы нацелены на представление объектаболее чувствительны к неточной локализации,
  • Контекстная область (j): Этот регионфокусирует контекстный внешний вид, который окружает объект,
  • Есть две причины, по которым использование этих регионов помогает.
  • Замаскированная область установлена ​​на ноль.

Отличительная черта диверсификации

  • Это помогает разнообразить дискриминационные факторы, охваченные общей моделью распознавания. Исследование абляции проводится здесь с использованием модели A с использованием (a) и (i) и модели B с использованием (a) и модифицированного (i), который имеет тот же размер, что и (a). В тестовом наборе PASCAL VOC 2007 модель A получила 64,1% mAP, а модель B - 62,9%, что на 1,2% ниже, чем у модели A.

Представление с учетом локализации

  • Использование нескольких областей налагает мягкие ограничения в отношении визуального содержимого, разрешенного для каждого типа области для данного окна обнаружения кандидата.

2. Сегментированная CNN (S-CNN)

Мультирегиональная CNN (MR-CNN), расширенная с учетом сегментации CNN (S-CNN)
  • Существует тесная связь между сегментацией и обнаружением. Эмпирически известно, что сигналы, связанные с сегментацией, часто помогают обнаружить объект.
  • Добавлены два модуля:Модуль карт активации для функций семантической сегментации, а такжемодуль адаптации региона для семантической сегментации с учетом особенностей.
  • Здесь нет дополнительной аннотации, используемой для обучения.
  • СКЛСиспользуется для модуля активации карт.
  • Номер канала последнего уровня FC7 изменен с 4096 на 512.
Ограничивающий прямоугольник (слева), Маска сегментации на основе ограничивающего прямоугольника (в середине), Вероятности переднего плана (справа)
  • Слабо контролируемое обучениестратегия используется.Искусственные маски сегментации переднего плана создаются с помощью аннотаций ограничивающего прямоугольника.,
  • Более конкретно, ограничивающие прямоугольники наземного изображения проецируются на пространственную область последнего скрытого слояСКЛСи «пиксели», которые лежат внутри проецируемых блоков, помечаются как передний план, а остальные - как фон.
  • После тренировкиСКЛСиспользуя маску, последний слой классификации удаляется. Только остальныеСКЛСиспользуется.
  • Хотя это тренировка со слабым контролем, вероятности переднего плана, показанные выше, все же несут некоторую информацию, как показано выше.
  • Используемая ограничительная рамка в 1,5 раза больше, чем исходная ограничительная рамка.

3. Локализация объекта

3,1 Модуль адаптации региона CNN для регрессии ограничивающего прямоугольника

  • Модуль адаптации дополнительного региона обучен прогнозировать ограничивающий прямоугольник объекта.
  • Он состоит из двух скрытых уровней FC и одного слоя прогнозирования, который выводит 4 значения (то есть ограничивающего прямоугольника) для каждой категории.
  • Увеличение числа кандидатов в 1,3 раза дает значительный прирост.

3.2. Итеративная локализация

  • Bt_c: НаборNc, тограничивающие рамки, сгенерированные на итерацииTдля классаси изображениеИкс,
  • В самом начале,T= 1, предложенияB0_cгенерируются при выборочном поиске.
  • Для каждой итерации от t = 1,…, T,Bt_cобновляются. Т = 2 обычно достаточно.

3.3. Граничная коробка голосования

  • После итеративной локализации проводится голосование ограничивающего прямоугольника.
  • После последней итерацииT, кандидат обнаружений {Dt_c} отT= 1 доTзнак равноTобъединены и сформированыОкруг Колумбия,Округ Колумбиязнак равноst_i, с,Bt_i, с} гдеsэто оценка классификации,Всоответствующая ограничивающая рамка.
  • Во-первых, не максимальное подавление (NMS) применяется наОкруг Колумбия, используя IoU порог 0,3, и производит обнаруженияY_c,
  • Затем выполняется дальнейшее уточнение на основе весов:
  • Весвес= Тах (0,s) гдеsэто оценка классификации.

3.4. Краткое изложение процедур

Локализация объектов: кандидаты (синий), наземная правда (зеленый) и ложные срабатывания (красный)
  • Шаг 1: Первоначальные предложения коробки (Показывает только соответствующие).
  • Шаг 2: После первой регрессии ограничивающего прямоугольника CNN.
  • Шаг 3: После второй регрессии ограничивающего прямоугольника CNN.
  • Шаг 4: Ограничивающие рамки для тех, кто находится на шаге 2, плюс те, что на шаге 3.
  • Шаг 5: Ограничивающие рамки после голосования.

4. Результаты

4.1. PASCAL VOC2007

Тестовый набор PASCAL VOC2007
  • Предлагаемый подход, использующий только один оригинальный блок, превосходит все другие блоки, используя один, и превосходит, используя только семантико-ориентированный регион.
Тестовый набор PASCAL VOC2007
  • Только одна оригинальная коробка: 61,7% карт.
  • МР-CNN: С использованием мультирегиона, 66,2% mAP, что свидетельствует о его новизне.
  • MR-CNN & S-CNN: 67,5% карт.
  • MR-CNN & S-CNN & Loc: 74,9% MAP, превосходитР-CNN,
Тестовый набор PASCAL VOC2007
  • Используя порог 0,7 IoU,MR-CNN & S-CNN & Locпо-прежнему выполняет лучшие.
Испытательный комплект PASCAL VOC2007, обученный с дополнительными данными
  • Обученные с дополнительными данными,MR-CNN & S-CNN & Locполучает 78,2% MAP, лучше, чемNoC,Fast R-CNNа такжеБыстрее R-CNN,

4.2. ПАСКАЛЬ VOC2012

Тестовый набор PASCAL VOC2012
  • Похож на VOC2007,MR-CNN & S-CNN & Locпоказывает лучшие результаты с 70,7% MAP.
Испытательный комплект PASCAL VOC2012, обученный с дополнительными данными

Ссылка

[ICCV 2015] [MR-CNN & S-CNN]
Обнаружение объектов с помощью модели CNN, учитывающей мультирегиональную и семантическую сегментацию

Мои предыдущие отзывы

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [Шоссе] [SPPNet] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Вводный-v3] [Вводный-v4] [Xception] [MobileNetV1] [RESNET] [Предварительная активация ResNet] [RiR] [RoR] [Стохастическая глубина] [ПРПЖД] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN] [MSDNet]

Обнаружение объекта
[OverFeat] [Р-CNN] [Fast R-CNN] [Быстрее R-CNN] [DeepID-Net] [CRAFT] [Р-СКЛС] [ION] [MultiPathNet] [NoC] [G-RMI] [TDM] [SSD] [БДСС] [YOLOv1] [YOLOv2 / YOLO9000] [YOLOv3] [ФПН] [RetinaNet] [DCN]

Семантическая сегментация
[СКЛС] [DeconvNet] [DeepLabv1 и DeepLabv2] [CRF-РНН] [SegNet] [ParseNet] [DilatedNet] [PSPNet] [DeepLabv3] [DRN]

Биомедицинская Сегментация Изображения
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-СКЛС] [U-Net + RESNET] [Многоканальный] [V-нетто]

Сегментация экземпляра
[SDS] [DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [FCIS]

Супер разрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN] [SRDenseNet]

Оценка позы человека
[Tompson NIPS’14]

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map