www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Обзор: CRF-RNN - условные случайные поля как рекуррентные нейронные сети (семантическая сегментация)

Дата публикации Mar 3, 2019

В этой историиCRF-РНН,Условные случайные поля как рекуррентные нейронные сети, поОксфордский университет,Стэндфордский Университет, а такжеBaidu, рассматривается. CRF является одной из самых успешных графических моделей в компьютерном зрении. Выясняется, что полностью сверточная сеть (СКЛС) выводит очень грубые результаты сегментации. Таким образом, многие подходы используют CRF в качестве этапов постобработки для уточнения выходной карты семантической сегментации, полученной из сети, такой какDeepLabv1 и DeepLabv2, чтобы иметь более мелкозернистые результаты сегментации. Однако параметры CRF не обучаются вместе сСКЛС, Другими словами,СКЛСне знает о CRF во время обучения. Это может ограничить возможности сети.

В CRF-RNN авторы предложили сформулировать CRF как RNN, чтобы они могли интегрироваться сСКЛСи обучить всю сеть сквозным способом, чтобы получить лучшие результаты, Это2015 ICCVбумага с более1300 цитат, (Сик-Хо Цанг@ Средний)


CRF-RNN Live Демо

Авторы также создали живую демонстрацию для этого:

http://www.robots.ox.ac.uk/~szheng/crfasrnndemo
Мы можем попробовать наш собственный образ из интернета или загрузить свой собственный

Вот мои испытания, это довольно забавно:

диво

диво

Набор данных городского пейзажа

Набор данных городского пейзажа

Лодки и люди

Лодки и люди

Это довольно точно, конечно, я также попробовал кое-что, что CRF-RNN не может работать.


Контур

  1. Условное случайное поле (CRF)
  2. CRF как CNN для одной итерации
  3. CRF как RNN для множественных итераций
  4. Полученные результаты

1. Условное случайное поле (CRF)

  • Целью CRF является уточнение грубых выходных данных на основе метки в каждом местоположении, а также меток и местоположений соседних позиций.
  • Полностью подключенный попарно CRFСчитается. Полностью соединенный означает, что все местоположения связаны, как показано в середине рисунка выше. Попарно означает, что соединения соединены попарно.
  • Когда мы говорим о CRF, мы говорим о том, как минимизировать энергетическую функцию. Здесь нам нужно минимизировать энергию назначения метки. Я просто отношусь к энергии как к функции стоимости. Назначая наиболее вероятную метку для каждого местоположения, мы можем получить более низкую энергию, то есть более низкую стоимость и, следовательно, более высокую точность.
  • CRF характеризуется распределением Гиббса формы:
  • гдеяэто вход.Xiслучайная величина в местоположенииякоторый представляет назначенную метку.яотбрасывается для простоты.Е(Икс) является функцией энергии иZ(я) является функцией разбиения, которая является просто суммой всех exp (-Е(Икс)).
  • Это распределение CRFп(Икс) аппроксимируетсяQ(Икс), который является продуктом независимойQi(Xi):
  • 1-й срок, унарная энергияΨu(XI):измеряет стоимость, если назначение метки не соответствует первоначальному классификатору.Унарный означает, что он просто принимает во внимание метку отдельной позиции.
  • 2-й срок, парная энергияΨп(XI,XJ): измеряет стоимость, если два одинаковых пикселя (например, соседние пиксели или пиксели имеют одинаковый цвет) имеют разные метки:
  • гдекгэтоГауссово ядроприменяется к векторным признакам. Вектор признаков может быть пространственными местоположениями и значениями RGB, например, Гауссов фильтр и двусторонний фильтр.
  • А такжеμ - функция совместимости метоккоторый назначает штраф, когда метки разные.
Сквозной обучаемый CRF-RNN
  • CRF - очень мощный метод статистического моделирования, применяемый в различных задачах распознавания образов, таких как классификация текстовых последовательностей. Я могу только представить CRF, упомянутый в этой статье, и очень кратко.
  • Короче говоря, входное изображение будет проходить черезСКЛСтогда CRF. Этот CRF будет учитывать как унарный энергетический член, так и парный энергетический член, а затем выведет более точную карту сегментации.
  • Этот CRF реализован как стек CNN, как показано ниже.

2.CRF как CNN для одной итерации

инициализация

  • Ui(L) этоунарный потенциал, предоставляемыйДТС-8sкоторый основан наVGG-16,
  • Qi(L) получается с помощьюSoftMax,
  • После инициализации будут выполняться итерации (цикл while) для последовательности процессов.

Передача сообщений

  • MГауссовы фильтры используются.
  • После [29]два гауссовых ядраиспользуются,один пространственный и один двусторонний,

Выходы весового фильтра

  • Взвешенная суммаMфильтровать результаты предыдущего шага для каждой метки классаL
  • Когда каждый ярлык рассматривается индивидуально, его можно рассматривать как1 × 1 сверткасMвходные каналы и один выходной канал.
  • В отличие от [29], индивидуальные веса ядра используются для каждой метки класса.

Совместимость Transform

  • Штраф назначается, когда назначаются разные метки.
  • например: назначение меток «персона» и «велосипед» соседним пикселям должно иметь меньшее наказание, чем назначение меток «небо» и «велосипед».
  • Таким образом,μ(L,л») узнал из данных,

Добавление унарных потенциалов

  • Выход из шага преобразования совместимостивычитается поэлементно из одинарных входовU,

нормализация

  • ДругаяSoftMaxоперация.
Полностью связанные CRF как CNN для одной итерации среднего поля
  • Выше приведен обзор одной итерации среднего поля.
  • Повторяя вышеупомянутый модуль, мы можем иметь несколько итераций среднего поля.

3. CRF как RNN для множественных итераций

CRF как RNN для множественных итераций
  • яэто изображение.Uэто унарные потенциалы отСКЛС,Tобщее количество итераций
  • fθ (U, H1 (T),я) итерация среднего полякак описано в предыдущем разделе, гдеθэто параметры CRF, описанные в предыдущем разделе, т.е.вес,μ,м,L,л»,
  • При t = 0, первая итерация,ЧАС1 (T) = softmax (U),иначеЧАС1 (T) являетсявывод предыдущей итерации среднего поля,ЧАС2 (T-1),
  • ЧАС2 (T)этовывод итерации среднего поляfθ (U, H1 (T),я).
  • Окончательный вывод,Y(Tзнак равноЧАС2 (T) когдаTзнак равноTт.е. когда последние итерации закончены.
  • Рекуррентная нейронная сеть (RNN)настройка используется, то естьпараметры здесь распределяются между всеми итерациями,
  • В течениеподготовка,T= 5используется, чтобы избежать исчезновения / взрыва проблемы градиента.
  • В течениетестирование,T= 10,

4. Результаты

4.1. ПАСКАЛЬ ЛОС

Средняя точность IU для набора валидации PASCAL VOC 2012
  • С / без COCO: обучена ли модель COCO.
  • гладкийДТС-8s: Низкая средняя IU точность.
  • С CRF, но отключен: Это означает, что CRF не тренируется сСКЛСсквозным способом достигается более высокая средняя IU точность
  • Сквозной CRF-RNN: Достигается самая высокая средняя IU точность, что означает сквознуюСКЛС+ CRF - лучшее решение.
Средняя точность IU на тестовом наборе PASCAL VOC 2010, 2011, 2012
  • CRF-RNN без COCO: ПревосходитДТС-8sа такжеDeepLab-v1,
  • CRF-RNN с COCO: Результаты еще лучше.

4.2. PASCAL Context

Средняя точность IU для набора проверки контекста PASCAL
  • CRF-РНН: Более высокая средняя IU точность, чемДТС-8s,

4,3. Дальнейший анализ

  • Дополнительные эксперименты выполняются на валидационном наборе PASCAL VOC 2012.
  • Используя разные весавесдля разных классов увеличивается на 1,8%, значит МЕ.
  • T= 10 во время тренировок и испытаний вызывает 0,7% падений, что говорит об исчезающем градиентном эффекте.
  • Независимые параметры для каждой итерации вместо совместного использования параметров, только 70,9% означают точность IU, что показывает, что рекуррентная структура важна.

4.4. Качественные результаты

Некоторые хорошие результаты на PASCAL VOC 2012
Сравнение с современными подходами

Хотя CRF-RNN был опубликован в 2015 году, этот документ представил мне важную концепцию / логику, то есть преобразование / аппроксимацию традиционного / не глубокого обучения в подход, основанный на глубоком обучении, и превращение его в сквозной подход. конечное решение


Ссылка

[2015 ICCV] [CRF-RNN]
Условные случайные поля как рекуррентные нейронные сети

Мои предыдущие отзывы

Классификация изображений
[LeNet] [AlexNet] [ZFNet] [VGGNet] [Шоссе] [SPPNet] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Вводный-v3] [Вводный-v4] [Xception] [MobileNetV1] [RESNET] [Предварительная активация ResNet] [RiR] [RoR] [Стохастическая глубина] [ПРПЖД] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN]

Обнаружение объекта
[OverFeat] [Р-CNN] [Fast R-CNN] [Быстрее R-CNN] [DeepID-Net] [CRAFT] [Р-СКЛС] [ION] [MultiPathNet] [NoC] [G-RMI] [TDM] [SSD] [БДСС] [YOLOv1] [YOLOv2 / YOLO9000] [YOLOv3] [ФПН] [RetinaNet] [DCN]

Семантическая сегментация
[СКЛС] [DeconvNet] [DeepLabv1 и DeepLabv2] [SegNet] [ParseNet] [DilatedNet] [PSPNet] [DeepLabv3] [DRN]

Биомедицинская Сегментация Изображения
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-СКЛС] [U-Net + RESNET] [Многоканальный]

Сегментация экземпляра
[DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [FCIS]

Супер разрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN] [SRDenseNet]

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map