www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Обзор: DeepID-Net - слой Def-Pooling (обнаружение объектов)

Дата публикации Sep 28, 2018

В этой историиDeepID-Netкратко рассмотрен. Представлена ​​деформируемая часть на основе CNN. Новыйслой деформируемого ограниченного пула (def-pooling)используется, чтобымоделировать деформацию частей объекта с геометрическим ограничением и штрафом.

Это означает, что, кроме непосредственного обнаружения всего объекта, также важно обнаруживать части объекта, которые затем могут помочь обнаружить весь объект. Это1-е место в ILSVRC 2014 по обнаружению объектовзадача, И это опубликовано вCVPR 2015[1] иTPAMI 2017[2] документы с около300 цитатв итоге. (Сик-Хо Цанг@ Средний)

DeepID-Net

Шаги вчерныйцвет на самом деле являютсястарые вещисуществовал в R-CNN, Шаги вкрасныйцвет на самом делене появился в R-CNN,

Я упомяну каждый шаг в диаграмме выше, и результаты в конце истории.


ШАГОВ

  1. Выборочный поиск
  2. Отклонение коробки
  3. Предварительная подготовка с использованием аннотаций на уровне объекта
  4. Def-Pooling Layer
  5. Моделирование контекста
  6. Усреднение модели
  7. Ограничительная регрессия

1. Выборочный поиск

Выборочный поиск
  1. Во-первых, цветовые сходства, текстурные сходства, размер области и заполнение области используются какне объектная сегментация, Поэтому мы получаеммного небольших сегментированных областейкак показано в левом нижнем углу изображения выше.
  2. Затем используется восходящий подход, которыймаленькие сегментированные области объединяются вместе, чтобы сформировать большие сегментированные области.
  3. Таким образом,около 2Кпредложения региона (ограничивающие рамки кандидатов) генерируютсякак показано на рисунке.

2. Отклонение коробки

R-CNN используется дляотклонить ограничивающие рамки, которые, скорее всего, будут фоновыми,


3. Предварительная подготовкаИспользование аннотаций на уровне объекта

Аннотация на уровне объекта (слева), Аннотация на уровне изображения (справа)

Обычно проводится предварительная подготовкааннотация на уровне изображения, этоне хорошо, когда объект слишком мал внутри изображенияпотому что объект должен занимать большую площадь в пределах ограничительной рамки, созданной путем выборочного поиска.

Таким образом,предварительная подготовка на уровне объекта аннотации, А такжемоделью глубокого обучения могут быть любые моделитакие как ZFNet, VGGNet и GoogLeNet.


4. Def-Pooling Layer

Общая архитектура с более подробной информацией

Скажем, например, что мы используем ZFNet, после conv5 выходные данные пройдут через исходные уровни FC fc6 и fc7, а также через набор conv и предлагаемые слои def-pooling.

Слои Def-Pooling (деформируемое ограниченное объединение), высокое значение активации для центра круга каждого источника света
Def-Pooling Equations

Для пути def-pooling выход из conv5 проходит через слой conv, затем проходит уровень def-pool и затем имеет уровень максимального пула.

Чтобы быть кратким,сумма AC, умноженная на dc, n, представляет собой штраф за деформацию 5 × 5.на рисунке выше.Штраф - это штраф за размещение части объекта с предполагаемой якорной позиции.

Слои def-poolизучить деформации частей объекта с различными размерами и семантическими значениями.

Обучая этот слой удаления пула, части объекта обнаруживаемого объекта дадут высокое значение активации после слоя удаления пула, если они закрыты в своих местах привязки. И этот вывод будет связан с оценками 200-класса для улучшения.


5.Моделирование контекста

В задаче обнаружения объектов в ILSVRC есть только 200 классов. Кроме того, в ILSVRC существует также задача соревнования по классификации для классификации и локализации объектов класса 1000. Содержание более разнообразно по сравнению с задачей обнаружения объекта. Следовательно,баллы по 1000 классам, полученные сетью классификации, используются для уточнения баллов по 200 классам.


6.Усреднение модели

Несколько моделей используютсяповысить точность ирезультаты всех моделей усредняются, Этот метод использовался начиная с LeNet, AlexNet и так далее.


7.Ограничительная регрессия

Ограничение регрессии простоТочная настройка местоположения ограничительной рамки, который был использован в R-CNN.


ПОЛУЧЕННЫЕ РЕЗУЛЬТАТЫ

Дополнительные результаты
  • R-CNN с выборочным поиском (шаг 1): 29,9% mAP (среднее среднее предсказание)
  • +отклонение ограничительной рамки(Шаг 2): 30,9%
  • Изменено с AlexNet на ZFNet (шаг 3): 31,8%
  • Изменено с ZFNet на VGGNet (шаг 3): 36,6%
  • Изменено с VGGNet на GoogLeNet (шаг 3): 37,8%
  • +предварительная подготовка к аннотациям на уровне объекта(Шаг 3): 40,4%
  • + преимущество, чтобы получить более ограничивающее предложение от [Ссылка 60]: 42,7%
  • +Слои Def-Pooling(Шаг 4): 44,9%
  • + многоуровневое обучение предлагается в VGGNet: 47,3%
  • +контекстное моделирование(Шаг 5): 47,8%
  • + регрессия ограничивающего прямоугольника (шаг 7): 48,2%
  • + усреднение модели (шаг 6):50,7%!

По сравнению с мультимодельным мультиобрезным GoogLeNet, показатель mAP DeepID-Net выше на 6,1% Однако, как мы видим, некоторые материалы на самом деле взяты из других работ. Тем не менее, есть две из самых новых идей, которыепредварительная подготовка к аннотациям на уровне объекта и слоям Def-Pooling.


Ссылки

  1. [2015 CVPR] [DeepID-Net]
    DeepID-Net: деформируемые глубокие сверточные нейронные сети для обнаружения объектов
  2. [TPAMI 2017] [DeepID-Net]
    DeepID-Net: деформируемые глубокие сверточные нейронные сети для обнаружения объектов

Мои обзоры

[Р-CNN] [AlexNet] [ZFNet] [VGGNet] [GoogLeNet]

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map