1 of 64

Clase 9

Arquitecturas CNN modernas

2 of 64

Recorrido Histórico

Visión por Computadora Pre-ImageNet
Visión por Computadora Post-ImageNet

AlexNet
VGG
NiN
GoogLeNet
ResNet
DenseNet

3 of 64

LeNet

Aunque LeNet logró buenos resultados en los primeros conjuntos de datos pequeños, aún no se había establecido el rendimiento y la viabilidad de entrenar CNN en conjuntos de datos más grandes y realistas.

No había GPUs para entrenar una CNN multicanal y multicapa con una gran cantidad de parámetros.
Los conjuntos de datos aún eran relativamente pequeños como para aprovechar el poder de expresión de la arquitectura.
Aún faltaban trucos clave para entrenar redes neuronales como

la heurística de inicialización de parámetros,
variantes inteligentes de descenso de gradiente estocástico,
funciones de activación que no desaparezcan los gradientes y
técnicas de regularización efectivas.

4 of 64

Pre-ImageNet

Durante gran parte del tiempo transcurrido entre principios de la década de 1990 y los resultados decisivos de 2012, las redes neuronales a menudo fueron superadas por otros métodos de aprendizaje automático, como SVM.

Para la visión por computadora, esta comparación quizás no sea justa. Es decir, aunque las entradas a las redes convolucionales consisten en valores de píxeles sin procesar o ligeramente procesados los profesionales nunca introducirían píxeles sin procesar en modelos tradicionales. En cambio, un pipeline típico de visión por computadora consistía en procesos manuales de extracción de características. En lugar de aprender las características, las características fueron creadas. La mayor parte del progreso provino de tener ideas más inteligentes para las features, y el algoritmo de aprendizaje a menudo se relega a un segundo plano.

Por lo tanto, en lugar de llevar adelante un entrenamiento de principio a fin los enfoques utilizados se parecían más a esto:

Obtener un dataset interesante.
Preprocesar el conjunto de datos con features hechas a mano basadas en algunos conocimientos de óptica, geometría, otras herramientas analíticas y, ocasionalmente, en los descubrimientos fortuitos de estudiantes graduados afortunados.
Insertar en un extractor de características estándar como SIFT o SURF.
Verter las representaciones resultantes en el algoritmo preferido para entrenar un clasificador.

5 of 64

ImageNet: El poder de los datos

Prof. Fei Fei Li

“El cambio de paradigma del pensamiento de ImageNet fue que mientras mucha gente estaba prestándole atención a los modelos, nosotros le prestáramos atención a los datos”, dijo Li.

ImageNet es una base de datos de imágenes organizada según la jerarquía de WordNet (actualmente solo los sustantivos), en la que cada nodo de la jerarquía está representado por cientos y miles de imágenes.

6 of 64

ImageNet Large Scale Visual Recognition Challenge (ILSVRC)

ILSVRC fue una competencia anual que utilizaba subconjuntos de ImageNet y estuvo diseñada para fomentar el desarrollo y la evaluación comparativa de algoritmos de última generación.

Las pruebas del desafío eran las siguientes:

Clasificación de imágenes: predice las clases de objetos presentes en una imagen.
Localización de un solo objeto: clasificación de imágenes + dibuje un cuadro delimitador alrededor de un ejemplo de cada objeto presente.
Detección de objetos: clasificación de imágenes + dibuje un cuadro delimitador alrededor de cada objeto presente.

7 of 64

ImageNet Large Scale Visual Recognition Challenge

(ILSVRC)

Los investigadores que participaron en las pruebas del ILSVRC movieron la frontera de lo conocido en la visión por computadora y los artículos que los describen son hitos en los campos de la visión por computadora, el aprendizaje profundo y, más ampliamente, en la inteligencia artificial.

8 of 64

AlexNet

AlexNet, que empleó una CNN de 8 capas, ganó el ILSRC-2012 por un margen extraordinariamente grande. Esta red demostró, por primera vez, que las features aprendidas pueden trascender las features diseñadas manualmente, rompiendo el paradigma anterior en visión por computadora.

Dr. Ilya Sutskever

Dr. Alex Krizhevsky

Dr. Geoffrey Hinton

9 of 64

AlexNet

Las filosofías de diseño de AlexNet y LeNet son muy similares, pero también existen diferencias significativas.

Primero, AlexNet es mucho más profunda que la relativamente pequeña LeNet5.
En segundo lugar, AlexNet usó ReLU en lugar de la sigmoidea como función de activación.
AlexNet controla la complejidad del modelo de las capas densas por Dropout, mientras que LeNet solo usa la reducción de peso.
El ciclo de entrenamiento de AlexNet agregó una gran cantidad de aumento de datos, como voltear, recortar y cambiar de color.
Alexnet implementó convoluciones rápidas utilizando dos NVIDIA GTX 580 con 3 GB de memoria. El código cuda-convnet fue lo suficientemente bueno como para que durante varios años fuera el estándar de la industria y alimentó los primeros dos años del boom del aprendizaje profundo.

10 of 64

Aumento de Imágenes

Transformaciones Geométricas

Transformaciones Lumínicas

11 of 64

83.6%

Accuracy de AlexNet en clasificación sobre ImageNet

12 of 64

Arquitecturas VGG

Para 2014, era evidente que a medida que se revelaban más y más arquitecturas nuevas, ninguna CNN podría ganar todas las pruebas del ILSVRC.

La arquitectura de VGGNet ganó la competencia en la tarea de localización y se quedó con la segunda posición en la tarea de clasificación. La belleza de esta red radica en su simplicidad arquitectónica y en el refuerzo de la idea de mejorar el rendimiento aumentando la profundidad de las CNN.

Karen Simonyan

Dr. Andrew Zisserman

13 of 64

Arquitecturas VGG

El bloque básico para construir una CNN clásica es una secuencia de lo siguiente:

una capa convolucional con padding para mantener la resolución,
una función de activación no lineal como un ReLU,
una capa de pooling.

14 of 64

Bloque VGG

15 of 64

VGG-11

16 of 64

92.7%

Accuracy de VGG-16 en clasificación sobre ImageNet

17 of 64

NiN

LeNet, AlexNet y VGG comparten un patrón de diseño común:

extraer características que explotan la estructura espacial a través de una secuencia de capas de convolución y polling
postprocesar las representaciones aprendidas a través de capas densas.

Alternativamente, uno podría imaginar el uso de capas densas al principio del proceso.

Sin embargo, un uso descuidado de capas densas podría ceder la estructura espacial de la representación por completo, los bloques de red en red (NiN) ofrecen una alternativa. Se propusieron en base a una idea muy simple: usar un MLP en los canales para cada píxel por separado

18 of 64

NiN

Alternativamente, uno podría imaginar el uso de capas densas al principio del proceso.

Sin embargo, un uso descuidado de capas densas podría ocasionar la pérdida de la estructura espacial de la representación por completo.

Los bloques de red en red (NiN) ofrecen una alternativa. Se propusieron en base a una idea muy simple: �usar un MLP en los canales para cada píxel por separado

19 of 64

NiN

Aplicar un convolución de 1x1 es equivalente a tener una capa densa a nivel de píxel.

20 of 64

Bloque NiN

21 of 64

Bloque NiN

22 of 64

Arquitectura NiN

23 of 64

GoogLeNet

En 2014, GoogLeNet ganó la prueba de clasificación del ILSVRC , proponiendo una estructura que combinaba las fortalezas de NiN y paradigmas de bloques repetidos.

Uno de los objetivos del artículo fue abordar la cuestión de qué tamaño de kernel de convolución era mejor. Después de todo, las redes populares anteriores empleaban opciones tan pequeñas como 1 × 1 y tan grandes como 11 × 11.

Una idea de este documento fue que a veces puede ser ventajoso emplear una combinación de kernels de varios tamaños.

Fotos de los autores

24 of 64

GoogLeNet: Bloque Inception

25 of 64

GoogLeNet: Bloque Inception

Los bloques Inception tienen menos parámetros y requieren menos cálculos que una convolución 5x5 o 3x3 con los mismos canales de entrada y de salida.

Al mismo tiempo generan features más expresivas al concatenar features producidas por distintos tamaños de kernels.

26 of 64

GoogLeNet: Bloque Inception

27 of 64

GoogLeNet

28 of 64

93.3%

Accuracy de GoogLeNet en clasificación sobre ImageNet

29 of 64

INTERMEDIO

30 of 64

Normalización de las entradas

En 1998, Yan LeCun en su famoso artículo “Efficient BackProp” destacó la importancia de normalizar las entradas. El preprocesamiento de las entradas mediante la normalización es un procedimiento estándar de aprendizaje automático y se sabe que ayuda a una convergencia más rápida.

31 of 64

Normalización por Lotes

32 of 64

Normalización por Lotes

El resultado de esta cuenta es un bache con varianza 1 y media 0

33 of 64

Normalización por Lotes

Debido a que la elección de varianza 1 y media 0 es una elección arbitraria, se incluyen dos parámetros para acomodar la varianza y la media según sea conveniente

34 of 64

Normalización por Lotes

Cambian sus valores dependiendo del bache de entrada.

Es decir que son estimaciones ruidosas de la media y la varianza

35 of 64

Normalización por Lotes

Capas Densas

Capas Convolucionales

36 of 64

Normalización por Lotes: Predicción

¿¿¿Se hace normalización por lotes durante la predicción???

37 of 64

Normalización por Lotes: Predicción

¿¿¿Se hace normalización por lotes durante la predicción???

38 of 64

Normalización por Lotes: Predicción

Por lo general, después del entrenamiento, usamos todo el conjunto de datos para calcular estimaciones estables de las estadísticas de las variables y luego las dejamos constantes en el momento de la predicción. Esto se debe a 3 razones:

Mantenemos los mapas de activación normalizados como durante el entrenamiento.
El ruido en la media y la varianza ya no son deseables una vez concluído el entrenamiento.
En el caso de que el modelo no recibiera lotes de entradas en el momento de la predicción sería imposible calcular la media y la varianza.

39 of 64