www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Обзор: FPN - Функциональная пирамидальная сеть (обнаружение объектов)

Дата публикации Jan 17, 2019

В этом документе,FPN (Функциональная сеть пирамид), поFacebook AI Research (FAIR),Cornell Universityа такжеCornell Tech, рассматривается. Внедряя чистую и простую структуру для построения пирамид объектов внутри сверточной нейронной сети (CNN), значительные улучшения показаны по нескольким сильным базовым показателям и победителям конкурса, таким какG-RMI,MultiPathNetа такжеION, И FPN имеет более высокий AR для сегментных предложений по сравнению сDeepMask,SharpMaskа такжеInstanceFCN, ЭтоCVPR 2017бумага с более чем700 цитат, (Сик-Хо Цанг@ Средний)

Обнаружение COCO и проблема сегментации

Что покрыто

  1. Различная архитектура в литературе
  2. Особенность пирамидальной сети (FPN)
  3. FPN для региональной сети предложений (RPN)
  4. FPN для сети обнаружения
  5. Эксперименты по абляции
  6. Сравнение с современными подходами

1. Различная архитектура в литературе

Разные архитектуры для обнаружения

(а) Фигурированное изображение пирамиды

  • Он активно используется в эпоху ручного машиностроения.

(б) Карта одного объекта

  • Это стандартное решение ConvNet для одного входного изображения, которое имеет прогноз в конце сети.

(в) иерархия пирамидальных элементов

  • На каждом слое прогноз делается так же, какSSD, Он повторно использует многомасштабные карты объектов из разных слоев, рассчитанных в прямом проходе, и, следовательно, предоставляется бесплатно.
  • Однако он упускает возможность повторно использовать карты иерархии объектов с более высоким разрешением, следовательно, пропускает обнаружение для небольших объектов.

(d) Особенность сети пирамид

  • Он сочетает в себе семантически сильные функции с низким разрешением и высоким разрешениемСемантически слабые черты через нисходящий путь и боковые связи.
  • Эта функциональная пирамида имеет богатую семантику на всех уровнях и быстро создается из единого входного масштаба изображения, тем самым не жертвуя мощностью, скоростью или памятью представления. Некоторые параллельные работы, такие какБДССтакже используйте этот подход.

(д) похожая архитектура

  • Некоторые недавние исследования приняли аналогичные нисходящие и пропущенные соединения, такие какTDM,SharpMask,RED-Net,U-Net, которые были довольно популярны в тот момент, но предсказывали только на последнем этапе.

2. Особенность пирамидальной сети (FPN)

Особенность пирамидальной сети (FPN)

2.1. Путь снизу вверх

  • Восходящий путь - прямое вычисление магистральной сети ConvNet. Определено, что один уровень пирамиды для каждой стадии. Выходные данные последнего слоя каждого этапа будут использоваться в качестве эталонного набора карт объектов для обогащения нисходящего пути путем бокового соединения.

2.2. Нисходящий путь и боковое соединение

  • Объекты с более высоким разрешением пространственно грубые, но семантически более сильные, карты характеристик с более высоких уровней пирамиды. Более конкретно, пространственное разрешениеувеличен в 2 раза с использованием ближайшего соседа для простоты.
  • Каждое боковое соединение объединяет карты объектов одного и того же пространственного размера с восходящим и нисходящим путями.
  • В частности,карты объектов снизу вверх подвергаются 1 × 1 сверткам, чтобы уменьшить размеры канала.
  • А такжекарты объектов из восходящего и нисходящего путей объединяются путем поэлементного добавления.

2,3. прогнозирование

  • В заключение,свертка 3 × 3 добавляется к каждой объединенной карте для создания окончательной карты объектов, которая должна уменьшить эффект сглаживания при повышении частоты дискретизации.Этот последний набор карт признаков называется {P2, P3, P4, P5}, что соответствует {C2, C3, C4, C5}, которые имеют одинаковые пространственные размеры.
  • Поскольку на всех уровнях пирамиды используются общие классификаторы / регрессоры, как в традиционной пирамиде с изображением персонажа, размерность объекта на выходеdфиксируется сd= 256. Таким образом, все дополнительные сверточные слои имеют 256-канальные выходы.

3. FPN для региональной сети предложений (RPN)

  • В оригинальном дизайне RPN вБыстрее R-CNNнебольшая подсеть оценивается на плотных скользящих окнах 3 × 3, поверх одномасштабной сверточной карты признаков, выполняя двоичную классификацию объекта / необъекта и регрессию ограничивающего прямоугольника.
  • Это реализуется с помощью сверточного слоя 3 × 3, за которым следуетдва родственных сверчка 1 × 1 для классификации / регрессии объекта / не-объекта, который мы называем сетьюголова,
  • Здесь, карта объектов одного масштаба в RPN заменяется на FPN. Таким образом, нет необходимости иметь многомасштабные якорные блоки на определенном уровне.
  • Одна шкала для каждого уровняприсваивается каждому уровню. Формально определено, что якоря имеютобласти {32², 64², 128², 256², 512²} пикселей на {P2, P3, P4, P5, P6} соответственно,
  • А такжена каждом уровне используются множественные пропорции {1: 2, 1: 1, 2: 1}
  • Привязке присваиваются положительные метки, если она имеет наивысшую IoU для данного блока истинности земли или IoU более 0,7 с любым блоком истинности земли, и отрицательную метку, если IoU ниже 0,3 для всех блоков истинности земли.
  • Параметры головок являются общими для всех уровней функциональных пирамид.

4. FPN для сети обнаружения

  • В оригинальной сети обнаружения вБыстрее R-CNNиспользуется карта объектов в одном масштабе.
  • Здесь, чтобы обнаружить объект, ROI разных масштабов необходимо назначить уровням пирамиды.
  • Формально,ROI ширинывеси высотачас(на входе изображения в сеть) присваивается уровеньPkнашей характерной пирамидыпо:
  • 224 используется, поскольку это канонический размер предварительного обучения ImageNet.
  • А такжеБыстрее R-CNNиспользует C4 в качестве одномерной карты объектов,К0 установлено на 4.
  • Таким образом, если 224 × 224, k = 4. Используем P4.
  • Если 112 × 112, k = 3. Он отображается на уровень более высокого разрешения P3.
  • предсказатели головы (вFast R-CNNзаголовки - это классовые классификаторы и регрессоры ограничивающего прямоугольника), прикрепленные ко всем RoI всех уровней. Опять же, все головы имеют общие параметры, независимо от их уровня.
  • Объединение RoI используется для извлечения объектов 7 × 7 и присоединения двух скрытых 1024-й полностью связанных (fc) слоев перед окончательной классификацией и ограничивающими регрессионными слоями.

5. Эксперименты по абляции

5.1. Эксперименты по абляции на РПН

Результаты предложения ограничительной рамки RPN на минивальном наборе COCO

5.1.1. Сравнение с базовыми показателями

  • (b) Использование conv5 не дает никаких преимуществ по сравнению с (a) использованием conv4: Одной карты объектов более высокого уровня недостаточно, поскольку существует компромисс между более грубыми разрешениями и более сильной семантикой.
  • (c) Размещение FPN в RPN улучшает AR1k до 56,3, что на 8,0 балла больше по сравнению с базовой шкалой RPN.
  • К тому же,производительность на небольших объектах (AR1ks) повышается с большим отрывом в 12,9 балла,
  • Таким образом, FPN на RPN является устойчивостью к изменению масштаба объекта.

5.1.2. Нисходящее обогащение

  • (d) это FPN, но без нисходящего пути, С этой модификацией боковые соединения 1 × 1, за которыми следуют свертки 3 × 3, прикрепляются к восходящей пирамиде. Этоимитирует эффект повторного использования иерархии пирамидальных объектов, (то есть архитектура (с) на первом рисунке)
  • результаты просто хуже по сравнению с FPN (с),
  • Предполагается, что это потому, чтоесть большие смысловые разрывы между различными уровнями на восходящей пирамиде (б)особенно для очень глубокихResNets,
  • Вариант (d) без разделения параметров головок также оценивается, но наблюдается аналогично ухудшенная производительность.

5.1.3. Боковые соединения

  • (e) пирамида с нисходящим элементом без боковых связей 1 × 1, Эта нисходящая пирамида имеет сильные семантические особенности и прекрасные разрешения.
  • Утверждается, чтоместоположение этих объектов не является точным, потому что эти карты были подвергнуты пониженной и несколько раз дискретизации,
  • FPN в (c) имеет оценку AR1k на 10 баллов выше, чем (e).

5.1.4. Пирамида Представления

  • (f) голова прикреплена к сильно семантическим картам признаков P2 с самым высоким разрешением.Все якоря привязаны к карте объектов P2.
  • Этот вариант лучше базового уровня, но уступает FPN.

5.2. Эксперименты по абляции на сети обнаружения

Результаты обнаружения объектов сети обнаружения на минивальном наборе COCO
  • Абляции проводятся по фиксированному набору предложений. Предложения заморожены в соответствии с расчетами FPN для RPN. Функции между сетью обнаружения и RPN не являются общими.
  • FPN (c) улучшает AP на 2,0 и AP малого объекта на 2,1 по сравнению с базовой линией на conv4 (a).
  • Удаление нисходящих соединений (d) или удаление боковых соединений (e) приводит к худшим результатам.
  • Удаление нисходящих соединений (d) значительно снижает точность.Он страдает от использования низкоуровневых функций на картах высокого разрешения.
  • При использовании единственной самой точной карты характеристик P2 (e) результат (33,4 AP) несколько хуже, чем у FPN (c).

5.3. Согласованная магистральная архитектура для обнаружения сети и RPN

Результаты обнаружения объектов с общими функциями в минимальном наборе COCO
  • Все используют согласованные магистральные архитектуры для RPN и сети обнаружения. (Но пока не делюсь функциями)
  • FPN (c) лучше этой сильной базовой линии на 2,3 балла AP и на 3,8 балла AP @ 0,5. (Базовая линия в (a) и (b) лучше, чем базовая линия, показанная вRESNET.)

5.4. Общие функции для обнаружения сети и RPN

Результаты обнаружения объектов с общими функциями с использованиемRESNETна мини-набор COCO
  • Совместное использование функций улучшает точность с небольшим запасом. Совместное использование функций также сокращает время тестирования. FPN имеет время вывода 0,148 секунды на изображение на одном графическом процессоре NVIDIA M40 дляRESNET-50и 0,172 секунды дляRESNET-101,

6 Сравнение с современными подходами

6.1. COCO Detection Challenge

Сравнение результатов одной модели с эталоном обнаружения COCO
  • На тестовом наборе наш метод увеличивается по сравнению с существующими лучшими результатами на 0,5 балла AP (36,2 против 35,7) и 3,4 балла AP @ 0,5 (59,1 против 55,7).
  • G-RMI: Победитель 2016 года
  • Быстрее R-CNN +++: Победитель 2016 года, который используетБыстрее R-CNN,RESNETа такжеНОКС,
  • ION: 2-е место в 2015 году, которое использует модифицированный IRNN и пропускает пулы для извлечения информации в разных масштабах и на разных уровнях абстракции.
  • FPN здесь не использует много популярных улучшений, таких как итеративная регрессия, жесткое негативное майнинг, моделирование контекста, более сильное увеличение данных и т. Д.

6.2. Расширение: предложения по сегментации

FPN для предложений объектного сегмента
Предложения по сегментации экземпляров, оцененные на первых изображениях 5k COCO val
  • FPN генерируют предложения по сегментации, следуяDeepMask/SharpMaskфреймворк.
  • MLP на окнах для создания плотных сегментов объекта с выходным размером 14 × 14 масок и баллов объекта.
  • Сравнивая сDeepMask,SharpMask, а такжеInstanceFCN, FPNпревосходит точность этих подходов более чем на 8,3 балла AR, а такжепочти вдвое больше точности на небольших объектах,
  • Существующие методы предложения маски основаны на пирамидах изображений с плотной выборкой, что делает их вычислительно дорогими.
  • FPN значительно быстрее работает на скорости от 6 до 7 FPS.

Несмотря на эффективностьRESNETа такжеБыстрее R-CNN, FPN показывает значительные улучшения по сравнению с несколькими сильными базовыми уровнями и победителями конкурса.


Ссылка

[2017 CVPR] [FPN]
Особенность пирамидальных сетей для обнаружения объектов

Мои похожие обзоры

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [SPPNet] [PReLU-Net] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Вводный-v3] [Вводный-v4] [Xception] [MobileNetV1] [RESNET] [Предварительная активация ResNet] [RiR] [RoR] [Стохастическая глубина] [ПРПЖД] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet]

Обнаружение объекта
[OverFeat] [Р-CNN] [Fast R-CNN] [Быстрее R-CNN] [DeepID-Net] [Р-СКЛС] [ION] [MultiPathNet] [NoC] [G-RMI] [TDM] [SSD] [БДСС] [YOLOv1] [YOLOv2 / YOLO9000]

Семантическая сегментация
[СКЛС] [DeconvNet] [DeepLabv1 и DeepLabv2] [ParseNet] [DilatedNet] [PSPNet]

Биомедицинская Сегментация Изображения
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-СКЛС]

Сегментация экземпляра
[DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [FCIS]

Супер разрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net]

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map