www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Обзор: DeepLabv3 - Atrous Convolution (Семантическая сегментация)

Дата публикации Jan 19, 2019

В этой историиDeepLabv3, поGoogle, Представлен. ПослеDeepLabv1 и DeepLabv2изобретены,авторы попытались переосмыслить или реструктурировать архитектуру DeepLab и, наконец, предложить более усовершенствованный DeepLabv3.DeepLabv3 превосходитDeepLabv1 и DeepLabv2даже после удаления шага постобработки Условное случайное поле (CRF), которое первоначально использовалось вDeepLabv1 и DeepLabv2,

Следовательно, название бумаги называется «Переосмысление свертывания мышц для сегментации семантического образа». Это называется «Переосмысление ...» в дополнение к бумажному названиюВводный-v3под названием «Переосмысление начальной архитектуры для компьютерного зрения», в которойInception-v1 (GoogLeNet)а такжеInception-v2 (Batch Norm)реструктурированы, чтобы статьВводный-v3, Но прямо сейчас,DeepLabv2реструктурирован как DeepLabv3 здесь. И это2017 arXivтехнический отчет с более чем200 цитат, (Сик-Хо Цанг@ Средний)


Контур

  1. Atrous Convolution
  2. Путь глубже с Atrous Convolution с использованием Multi-Grid
  3. Объединение пространственных пирамид (АСПП)
  4. Исследование абляции на POSCAL VOC 2012
  5. Сравнение с современными подходами к PASCAL VOC 2012
  6. Сравнение с современными подходами к городской среде

1. Зловещая свертка

Atrous Convolution с разными скоростями
Atrous Convolution
  • Для каждого местаяна выходеYи фильтрвес, атрофическая свертка применяется к карте входных объектовИксгде скорость звука r соответствует шагу, с которого мы дискретизируем входной сигнал.
  • Это эквивалентно свертке вводаИксс фильтрами повышенной дискретизации, произведенными путем вставкир-1 ноль между двумя последовательными значениями фильтра вдоль каждого пространственного измерения. (Trous означает дыры на английском языке.)
  • когдар= 1, это стандартная свертка.
  • Регулируя r, мы можем адаптивно изменять поле обзора фильтра.
  • Это также называетсярасширенная свертка(DilatedNet) илиАлгоритм отверстия,
Стандартная свертка (вверху) Atrous Convolution (внизу)
  • верхний: Стандартная свертка.
  • ДноЗубная свертка. Мы можем видеть, что когда скорость = 2, входной сигнал дискретизируется поочередно. Во-первых, pad = 2 означает, что мы дополняем 2 нуля с левой и правой сторон. Затем при скорости = 2 мы выбираем входной сигнал каждые 2 входа для свертки. Злокачественная сверткапозволяет нам расширить поле зрения фильтров, чтобы включить больший контекст.Таким образом, он предлагает эффективный механизмконтролировать поле зренияи еЭто лучший компромисс между точной локализацией (маленькое поле зрения) и контекстной ассимиляцией (большое поле зрения).

2. Идти дальше с помощью Atrous Convolution, используя Multi-Grid

  • (а) Без Atrous Conv: Выполняется стандартное согласование и объединение, что увеличивает выходной шаг, т. Е. Карта выходных объектов уменьшается при углублении. Однако последовательный переход вреден для семантической сегментации, поскольку информация о местоположении / пространстве теряется на более глубоких уровнях.
  • (б) с Atrous Conv: С явным убеждением мы можем поддерживать постоянный шаг, но с большим полем зрения, не увеличивая количество параметров или объем вычислений. И, наконец, мы можем получить большую карту выходных объектов, которая хороша для семантической сегментации.
  • Например, когда выходной шаг = 16 и Multi Grid = (1, 2, 4), эти три свертки будут иметь скорости = 2 × (1, 2, 4) = (2, 4, 8) в блоке 4 соответственно.

3. Объединение пространственных пирамид (ASPP)

Объединение пространственных пирамид (АСПП)
  • ASPP был введен вDeepLabv2, На этот раз нормализация партии (BN) изВводный-v2входит в ASPP.
  • Причина использования ASPP состоит в том, что он обнаруживается по мере того, как частота дискретизации становится больше, количество допустимых весов фильтра (то есть весов, которые применяются к действительной области признаков вместо дополненных нулей) становится меньше.
  • одна свертка 1 × 1 и три свертки 3 × 3 со скоростями = (6, 12, 18)когда выходной шаг = 16.
  • Также,объединение изображений, илифункция уровня изображения, поParseNet, также включен дляглобальный контекст, (Пожалуйста, прочитайте мойParseNetобзор если интересно.)
  • Все с256 фильтрова такженормализация партии,
  • Ставки удваиваются, когда выходной шаг = 8.
  • В результате функции из всех ветвейсцепленныйи пройти черезеще одна свертка 1 × 1(также с 256 фильтрами и пакетной нормализацией) до окончательной свертки 1 × 1, которая генерирует окончательные логиты.

другие

Повышение дискретизации Logits

  • ВDeepLabv2, целевые истины истощены на 8 во время тренировки.
  • В DeepLabv3 выяснилось, что важно сохранить основные истины в целости и вместо этого пересмотреть окончательные логиты.

4 Исследование абляции на POSCAL VOC 2012

4.1. Выходной Страйд

Идет глубже с жесткой сверткой при использовании ResNet-50 с block7 и другим шагом на выходе.
  • При использовании ResNet-50 с блоком 7 (то есть с дополнительным блоком 5, блоком 6 и блоком 7). Как показано в таблице, в случае выходного шага = 256 (то есть, без всякой ядерной свертки) производительность намного хуже.
  • Когда выходной шаг увеличивается и, соответственно, применяется свёрточная свёртка, производительность улучшается с 20,29% до 75,18%, показывая, что свертывание зрачка необходимо при каскадном построении большего количества блоков для семантической сегментации.

4.2. RESNET-101

ResNet-50 против ResNet-101
  • ResNet-101 неизменно лучше ResNet-50 без каких-либо сюрпризов.
  • Примечательно, что использование block7 в ResNet-50 несколько снижает производительность, но все же улучшает производительность ResNet-101.

4,3. Multi-сетка

Использование многосеточного метода для ResNet-101 с различным количеством каскадных блоков на шаге выхода = 16.
  • Применение многосеточного метода обычно лучше, чем ванильного варианта, где (r1, r2, r3) = (1, 1, 1).
  • Простое удвоение удельных ставок (т.е. (r1, r2, r3) = (2, 2, 2)) не эффективно.
  • Углубление работы с несколькими сетками повышает производительность.
  • Наилучшей моделью является случай, когда используются block7 и (r1, r2, r3) = (1, 2, 1).

4.4. Стратегия вывода

Стратегия вывода на вал множество. MG: Мульти-сетка.Операционные системы: выходной шаг.МИЗ: Мультимасштабные входы во время теста.кувырок: Добавление левого и правого перевернутых входов.
  • Модель обучена с выходным шагом = 16.
  • При использовании шага вывода = 8 (OS = 8) во время логического вывода для получения более подробной карты объектов производительность повышается на 1,39%.
  • При использовании мультимасштабных (MS) входов с масштабами = {0,5, 0,75, 1,0, 1,25, 1,5, 1,75}, а также с использованием перевернутого изображения влево-вправо и усреднения вероятностей, производительность дополнительно улучшается до 79,35%.

4,5. ASPP

ASPP с методом MG и особенностями уровня изображения на выходе = 16.
  • Пул изображений или функция уровня изображенияParseNetТакже включен для глобального контекста. (Пожалуйста, прочитайте мойParseNetобзор если интересно.)
  • Принятие Multi Grid = (1, 2, 4) в контексте ASPP = (6, 12, 18) лучше, чем Multi Grid = (1, 1, 1) и (1, 2, 1).
  • Использование ASPP = (6, 12, 18) лучше, чем ASPP = (6, 12, 18, 24).
  • С помощью функции уровня изображения производительность еще более улучшена до 77,21%.

4,6. Размер урожая, логиты передискретизации, норма партии, размер партии, поезд и тестовый выходной поток

  • Использование большего размера урожая 513 лучше, чем 321.
  • При увеличении количества логов и норме партии 77,21%.
  • Использование размера партии 16 является лучшим среди 4, 8, 12 и 16.
  • Использование поезда и тестового выходного шага = (8, 8) имеет 77,21%, в то время как Использование поезда и тестового выходного шага = (16, 8) имеет лучшие результаты - 78,51%.

4,7. Количество реплик во время обучения

Количество реплик во время обучения
  • TensorFlow используется для обучения.
  • С помощьютолько 1 реплика, 3,65 дняучебного времени не требуется.
  • С помощью32 реплики, всего 2,74 часаучебного времени не требуется.

4,7. Все вместе

Стратегия вывода на множестве значений
  • MG (1, 2, 4) + ASPP (6, 12, 18) + объединение изображений:77,21%получается, что является тем же результатом, что и в 4.5.
  • Шаг вывода вывода = 8,78,51%,
  • Multi-Scale (MS) Тестирование:79,45%,
  • Горизонтальный флип (Flip):79,77%,
  • С предварительной подготовкойCOCOтакже:82,70%,
  • Отмечено, что после переосмысления и реструктуризации, без использования пост-обработки CRF (используется вDeepLabv2), это уже лучше, чемDeepLabv2с CRF и предварительно обученным с использованием COCO, 77,69%.

5. Сравнение с современными подходами

5.1. Тестовый набор PASCAL VOC 2012

Тестовый набор PASCAL VOC 2012
  • DeepLabv3: Дальнейшая отладка на обучающем наборе PASCAL VOC 2012, обученном с выходным шагом = 8,начальная загрузка на жестких изображениях, В частности, изображения, содержащие жесткие классы, дублируются,85,7%,
Эффект начальной загрузки
  • Выше показано улучшение с загрузкой на жестких изображениях, улучшающее точность сегментации для редких и тщательно аннотированных классов, таких как велосипед.
  • А такжеDeepLabv3 превосходитPSPNet, которая заняла первое место в конкурсе разбора сцен ILSVRC 2016.
  • DeepLabv3-JFT: Использование ResNet-101, который былпредварительно обучен на ImageNet и JFT-300Mнабор данных,86,9%,
Качественные результаты (последняя строка, неудача) на PASCAL VOC 2012

6. Сравнение с современными подходами к городской среде

6.1. Разные настройки

  • Как и в PASCAL VOC 2012, при использовании выходного шага 8 для тестирования, многомасштабного и горизонтального переворота производительность улучшается.

6,2 Тестовый набор Cityscape

Тестовый набор Cityscape
  • Чтобы получить лучшую производительность для сравнения, DeepLabv3 являетсядалее обучен на обучающем грубом наборе(то есть 3475 изображений с точными комментариями и дополнительные 20000 изображений с грубыми комментариями).
  • Больше весова такжелучший выходво время вывода используются. В частности, сшкалы = {0,75, 1, 1,25, 1,5, 1,75, 2}и оценкавыходной шаг = 4, что способствуетдополнительные 0,8% и 0,1% соответственнона проверочном наборе.
  • В заключение,81,3%MIOU достигается на тестовом наборе, которыйнемного лучше чемPSPNet,
Качественные результаты на Cityscape

DeepLabv3 только превосходитPSPNetдля очень небольшого запаса, возможно, именно поэтому в arXiv это просто технический отчет. Но позже был изобретен DeepLabv3 +, который намного лучше, чем DeepLabv3. Надеюсь, что позже я смогу рассмотреть DeepLabv3 +. :)


Ссылка

[2017 arXiv] [DeepLabv3]
Переосмысление свертывания мышц для сегментации семантического образа

Мои похожие обзоры

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [SPPNet] [PReLU-Net] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Вводный-v3] [Вводный-v4] [Xception] [MobileNetV1] [RESNET] [Предварительная активация ResNet] [RiR] [RoR] [Стохастическая глубина] [ПРПЖД] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet]

Обнаружение объекта
[OverFeat] [Р-CNN] [Fast R-CNN] [Быстрее R-CNN] [DeepID-Net] [Р-СКЛС] [ION] [MultiPathNet] [NoC] [G-RMI] [TDM] [SSD] [БДСС] [YOLOv1] [YOLOv2 / YOLO9000] [ФПН]

Семантическая сегментация
[СКЛС] [DeconvNet] [DeepLabv1 и DeepLabv2] [ParseNet] [DilatedNet] [PSPNet]

Биомедицинская Сегментация Изображения
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-СКЛС]

Сегментация экземпляра
[DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [FCIS]

Супер разрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net]

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map