www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Обзор: DeepLabv1 и DeepLabv2 - Atrous Convolution (Семантическая сегментация)

Дата публикации Nov 9, 2018

В этой историиDeepLabv1а такжеDeepLabv2рассматриваются вместе, потому что они оба используютAtrous Convolutionа такжеПолностью связное условное случайное поле (CRF)за исключением того, что DeepLabv2 имеет одну дополнительную технологию под названиемAtous Spatial Pyramid Pooling (ASPP), что является основным отличием от DeepLabv1. (Конечно, есть и другие отличия, например: DeepLabv2 используетRESNETа такжеVGGNetдля эксперимента, но DeepLabv1 использует толькоVGGNet.)

Модель DeepLab

На рисунке выше показана архитектура модели DeepLab. Во-первых, входное изображение проходит через сеть с использованием сверточного свертывания и ASPP. Затем выходные данные из сети билинейно интерполируются и проходят через полностью подключенную CRF для точной настройки результата и получения окончательного результата.

DeepLabv1 и DeepLabv2 были опубликованы вICLR 2015 и TPAMI 2018с о400 и 2000 цитатсоответственно пока я писал эту историю. (Сик-Хо Цанг@ Средний)


Что покрыто

  1. Atrous Convolution
  2. Объединение пространственных пирамид (АСПП)
  3. Полностью связное условное случайное поле (CRF)
  4. Полученные результаты

1. Зловещая свертка

Семестр "AtrousДействительно происходит от французскоготрудныйОзначает дыру. Таким образом, это также называетсяАлгоритм" а также "алгоритм дырок». Некоторые из газет также называют это «расширенная свертка». Он обычно используется в вейвлет-преобразовании, и сейчас он применяется в свертках для глубокого обучения.

Ниже приведено уравнение атомной свертки:

1D Atrous Convolution (r> 1: свертка лёгких, r = 1: стандартная свёртка)
  • Когда r = 1, это стандартная свертка, которую мы обычно используем.
  • Когда r> 1, это атомная свертка, которая является шагом к выборке входной выборки во время свертки.

Рисунок ниже иллюстрирует идею:

Стандартная свертка (вверху) Atrous Convolution (внизу)

Идея зловещей свертки проста. В верхней части рисунка выше показана стандартная свертка.

В нижней части рисунка это зверская свертка. Мы можем видеть, что когда скорость = 2, входной сигнал дискретизируется поочередно. Во-первых, pad = 2 означает, что мы дополняем 2 нуля с левой и правой сторон. Затем при скорости = 2 мы выбираем входной сигнал каждые 2 входа для свертки. Таким образом, на выходе у нас будет 5 выходов, которыеувеличивает выходную карту объектов.

Если мы помнимСКЛСпоследовательность свертки и объединения делает карту выходных объектов очень маленькой и требует 32-кратного повышения, что является агрессивным повышением.

Кроме того, злокачественная сверткапозволяет нам расширить поле зрения фильтров, чтобы включить больший контекст.Таким образом, он предлагает эффективный механизм управления полем зрения и находит лучший компромисс между точной локализацией (малое поле зрения) и ассимиляцией контекста (большое поле зрения).

В DeepLab, используя VGG-16 или ResNet-101, шаг последнего пула (pool5) или свертки conv5_1 установлен на 1 соответственно, чтобы избежать слишком сильного прореживания сигнала. При этом для замены всех последующих сверточных слоев используется коэффициент сверточности, используя скорость = 2.Выход намного больше, Нам нужно только иметь8 × повышающая дискретизациячтобы повысить результат. А такжебилинейная интерполяцияимеет неплохую производительность для 8-кратного повышения частоты дискретизации.


2. Объединение пространственных пирамид (ASPP)

Объединение пространственных пирамид (АСПП)

ASPP на самом деле являетсячерновая версия SPP, в котором концепция была использована вSPPNet, В ASPPпараллельная свертка с различной скоростьюприменяется в карте входных объектов и сливается вместе.

Поскольку объекты одного и того же класса могут иметь разные масштабы на изображении,ASPP помогает учитывать различные масштабы объектакоторый может улучшить точность.


3.Полностью связное условное случайное поле (CRF)

Полностью подключенный CRF применяется на выходе сети после билинейной интерполяции:

Полностью подключенный CRF

x - назначение метки для пикселей. P (xi) - вероятность назначения метки в пикселе i. Поэтому первый член θi является логарифмической вероятностью.

Для второго члена, θij, это фильтр. µ = 1, когда xi! = xj. µ = 0, когда xi = xj. В скобках это взвешенная сумма двух ядер.первое ядрозависит от разницы значений пикселей и разности положений пикселей, котораясвоего рода двусторонний фильтр,Двусторонний фильтр имеетсвойство сохранения ребер.второе ядрозависит только от разницы положения пикселя, которая являетсяГауссов фильтр, Эти σ и w находятся путем перекрестной проверки. Количество итераций равно 10.

Вверху: карта результатов (ввод перед функцией softmax), снизу: карта убеждений (результат работы функции softmax)

С 10-кратным CRF эти небольшие участки разного цвета вокруг самолета успешно сглаживаются

Тем не менее, CRF являетсяпроцесс постобработкичто делает DeepLabv1 и DeepLabv2 статьне сквозная структура обучения, И этоНЕ используется в DeepLabv3 и DeepLabv3 + уже,


4.Полученные результаты

4.1. Исследование абляции

DeepLab-LargeFOV (Слева: т. Е. Только один зубной конв), DeepLab-ASPP (Слева: т. Е. ASPP)
Результаты каждого компонента, использующего ResNet-101 в наборе валидации PASCAL VOC 2012
  • Самый простой ResNet-101: 68,72%
  • MSC: Мультимасштабный ввод
  • COCO: Модели, предварительно обученные набором данных COCO
  • август: Увеличение данных путем случайного масштабирования входных изображений (от 0,5 до 1,5)
  • LargeFOV: DeepLab с использованием однопроходной свертки
  • ASPP:DeepLab с использованием параллельных сверток
  • CRF: Полностью подключенный CRF как постобработка.

Наконец-то77,69%, И можно видеть, что MSC, COCO и Aug вносят улучшения с 68,72% до 74,87%, что одинаково важно для LargeFOV, ASPP и CRF.

4.2. Сравнение с современными подходами

Тестовый набор PASCAL VOC 2012 (крайний левый) PASCAL-Context (2-й левый) PASCAL-Person-Part (2-й правый) Городской пейзаж (крайний правый)

Четыре набора данных также тестируются, как указано выше. Показано, что DeepLabv2 имеет конкурентные результаты по сравнению с современными подходами.

4,3. Качественные результаты

Качественные результаты: PASCAL-Context
Качественные результаты: Городской пейзаж

Но у DeepLab также есть несколько примеров неудач, когда велосипед и кресла состоят из множества тонких частей, таких как части ножек велосипеда и кресла:

Примеры неудач

Надеюсь, что смогу охватить DeepLabv3 и DeepLabv3 + в будущем.

Ссылки

  1. [ICLR 2015] [DeepLabv1]
    Сегментация семантического изображения с помощью глубоких сверточных сетей и полностью связанных CRF
  2. [2018 TPAMI] [DeepLabv2]
    DeepLab: семантическая сегментация изображений с помощью глубоких сверточных сетей, Atrous Convolution и полностью связанных CRF

Мои похожие обзоры

[SPPNet] [VGGNet] [RESNET] [СКЛС]

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map