www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home

Обзор: предварительная активация ResNet с отображением идентичности - достигнуто более 1000 слоев (классификация изображений)

Дата публикации Sep 22, 2018

В этой истории рассмотрен улучшенный ResNet [1] от Microsoft.С помощью Identity Mapping можно получить более 1000 слоевдля архитектуры глубокого обучения, без ошибок увеличилось.

В предыдущей версии ResNet [2], когда ResNet переходит с 101 слоя на 1202 слоя, хотя ResNet-1202 все еще может сходиться, наблюдается снижение частоты ошибок с 6,43% до 7,93% (этот результат можно увидеть в [2] ). И это указано как открытый вопрос без каких-либо объяснений в [2].

На следующем рисунке показаны результаты ResNet с Identity Mapping. С уровнями до 1001 предыдущий ResNet [2] получил только 7,61% ошибок, в то время как новый ResNet с Identity Mapping [1] может получить 4,92% для набора данных CIFAR-10.

(a) Предыдущий ResNet [2] (7,61%) (b) Новый ResNet с отображением идентичности [1] (4,92%) для набора данных CIFAR-10

Нопочему это может быть лучше, если оставить путь соединения быстрого доступа чистым(путем перемещения уровня ReLU с пути соединения быстрого доступа к пути соответствующего уровня, как показано на рисунке)? В этой статье это хорошо объяснено. И серия абляционных исследований проводится в поддержку важности этого отображения личности.

Результатдаже лучше, чем Inception-v3[3]. (Если интересно, пожалуйста, прочитайте мойInception-v3 обзор.) С таким хорошим результатом, он публикуется в2016 ECCVбумага сболее 1000 цитаткогда я писал эту историю. (Сик-Хо Цанг@ Средний)


Что покрыто

  1. Пояснения о важности идентификации личности
  2. Исследование абляции
  3. Сравнение с современными подходами

1. Объяснения важности идентификации личности

Прямая подача, обратное распространение и градиентные обновления, которые, кажется, делают глубокое обучение секретом. Я думаю, что объяснение здесь превосходно.

1.1 Feed Forward

В ResNet с Identity Mapping важно поддерживать чистоту для пути соединения быстрого доступа от входа к выходу без каких-либо сложных слоев, BN и ReLU.

xl - это вход на уровне l, F (.) - это функция, представляющая слои сверток, BN и ReLU. Тогда мы можем сформулировать так:

Один конкретный слой
L слоев из l-го слоя

Мы это видимвходной сигнал xl все еще сохраняется здесь!


1.2 Обратное распространение

Во время обратного распространения мы можем получить градиент, который разложен на два аддитивных члена:

Градиент, который разложен на два аддитивных условия

Внутри одеяла,мы всегда можем получить «1» на левом члене независимо от того, насколько глубоко сеть, И правильный термин не всегда может быть равен -1, что делает градиент нулевым. Таким образом,градиент не исчезает !!


1.2 Обратное распространение при нарушении идентификации

С другой стороны, что если левый член не равен единице:

Один конкретный слой
L слоев из l-го слоя
Градиент, который разложен на два аддитивных условия

Аналогично, левый член градиента является произведением λ.

Еслиλ> 1, левый член будет экспоненциально большим, иградиент взрывапроблема возникает. Как мы должны помнить, когда градиент взорвался,потеря не может быть сведена,

Еслиλ <1, левый член будет экспоненциально мал, иисчезновение градиентапроблема возникает. Мы не можем обновить градиент с большим значением,потеря остается на плато и в конечном итоге сходится с большой потерей,

Таким образом, именно поэтому мы должны поддерживать чистоту пути быстрого подключения от входа к выходу без каких-либо дополнительных слоев, BN и ReLU.


2. Исследование абляции

2.1 Различные типы быстрых соединений

110-слойный ResNet (54 двухслойных остаточных блока)с различными типами горячих соединений тестируются наCIFAR-10набор данных, как показано ниже:

Производительность различных типов соединений быстрого доступа

оригиналЭто предыдущая версия ResNet в [2] с ошибкой 6,61%.

Постоянное масштабирование: λ = 0,5, страдает от проблемы исчезновения градиента, как упоминалось, получает ошибку 12,35% при тщательном выборе смещения bg.

Эксклюзивные ворота и ворота только для быстрого доступа: Оба пытаются добавить сложность к пути быстрого доступа, сохраняя путь равным «1». Но оба не могут получить лучшие результаты.

1 × 1 Conv Shortcut: Это похоже на опцию C в предыдущем ResNet [2]. В предыдущем ResNet было обнаружено, что лучше использовать опцию C. Но сейчас выяснилось, что это не тот случай, когда есть много остаточных единиц (слишком глубоко).

Dropout Ярлык: Фактически статистически выполняется λ = 0,5.


2.2 Различные варианты использования активации

Следующие результаты получены путем игры вокруг позиций BN и ReLU:

Выполнение различных видов использования активации

Предыдущий ResNet и BN после добавления: Оба не могут содержать в чистоте соединение ярлыка, которое нарушает отображение идентичности

ReLU перед добавлением: Остаточная функция после ReLU должна быть неотрицательной, что делает монотонно возрастающим прямой сигнал, тогда как остаточная функция должна быть лучше, чтобы также иметь отрицательные значения.

Предварительная активация только для ReLU: ReLU не используется вместе с BN, который не может пользоваться преимуществами BN.

Полная предварительная активация: Путь быстрого доступа чистый, и ReLU используется вместе с BN, что делает его наилучшим параметром.


2.3 Преимущества предварительной активации в два раза

2.3.1 Простота оптимизации

Предыдущая структура ResNet (базовая линия) против единицы предварительной активации

Использование предыдущей структуры ResNet (Baseline) приводит к худшим результатам при переходе слишком глубоко (1001) из-за неправильного положения слоя ReLU.Использование модуля предварительной активации всегда может дать лучший результат, когда сеть идет все глубже и глубже - от 110 до 1001.

2.3.2 Уменьшение переоснащения

Ошибка обучения против итераций

Блок предварительной активации включенрегуляризациячтонемного большая потеря тренировки при конвергенции, но с меньшей ошибкой теста,


3.Сравнение с современными подходами

3.1 СИФАР-10 и СИФАР-100

Результаты CIFAR-10 и CIFAR-100

Для CIFAR-10, используяResNet-1001 с предлагаемым блоком предварительной активации (4,62%) даже лучше, чем ResNet-1202 (7,93%)используя предыдущую версию ResNet,на 200 слоев меньше,

Для CIFAR-100, используяResNet-1001 с предлагаемым блоком предварительной активации (22,71%) даже лучше, чем ResNet-1001 (27,82%)используя предыдущую версию ResNet.

Для CIFAR-10 и CIFAR-100,ResNet-1001 с предлагаемым блоком предварительной активации не имеет большей ошибки, чем ResNet-164, но предыдущая ResNet [2] имеет,

На CIFAR-10 ResNet-1001 требуется около 27 часов для тренировки с двумя графическими процессорами.

3.2 ILSVRC

Результаты классификации изображений ILSVRC

Только с увеличением масштаба, предыдущая версия ResNet-152 (5,5%), победитель ILSVRC 2015, имеетхудшая производительностьчем предыдущая версия ResNet-200 (6,0%)при углублении из-за неправильной позиции ReLU,

И предлагаемый ResNet-200 с предварительной активацией (5,3%) имеет лучшие результаты, чем предыдущий ResNet-200 (6,0%).

Предлагая ResNet-200 с предварительной активацией (4,8%) лучше, чем Inception-v3 [3] от Google (5,6%), с учетом увеличения масштаба и соотношения сторон.

Одновременно с этим у Google также есть Inception-ResNet-v2, в котором ошибка составляет 4,9%, с блоком предварительной активации ожидается дальнейшее снижение ошибки.

На ILSVRC ResNet-200 требуется около 3 недель для обучения на 8 графических процессорах.


После обзора ResNet и ResNet с Identity Mapping, а также Inception-v1, Inception-v2 и Inception-v3 у меня также будет обзор Inception-v4. Пожалуйста, не переключайтесь!


Ссылки

  1. [2016 ECCV] [ResNet с идентификацией личности]
    Отображения идентичности в глубоких остаточных сетях
  2. [2016 CVPR] [ResNet]
    Глубокое остаточное обучение для распознавания изображений
  3. [2016 CVPR] [Inception-v3]
    Переосмысление начальной архитектуры для компьютерного зрения

Мои обзоры

  1. Обзор: ResNet - победитель ILSVRC 2015 (классификация изображений, локализация, обнаружение)
  2. Обзор: Inception-v3–1, занявший второе место (классификация изображений) в ILSVRC 2015
  3. Обзор: Пакетная нормализация (Inception-v2 / BN-Inception) -Второй, превосходящий показатели человеческого уровня в ILSVRC 2015 (Классификация изображений)
  4. Обзор: GoogLeNet (Inception v1) - победитель ILSVRC 2014 (классификация изображений)

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map