De reconocer escenas a reconocer objetos

18 mayo, 2015

Uno de los temas en los que estamos trabajando con el grupo de Visión por Computador del Massachusetts Institute of Technology (MIT) es el reconocimiento de escenas. Concretamente enseñamos a las máquinas a reconocer espacios, como por ejemplo dormitorios, cocinas, restaurantes, playas, bosques, etc a partir de fotografías. Para ello les proporcionamos datos para el aprendizaje como los véis en la Figura 1.

Figura 1: Ejemplos de imágenes usadas para entrenar un sistema de visión para el reconocimiento de escenas. Cada imagen está asociada a una categoría.
Figura 1: Ejemplos de imágenes usadas para entrenar un sistema de visión para el reconocimiento de escenas. Cada imagen está asociada a una categoría.

Recientemente hemos entrenado un sistema para hacer reconocimiento de escenas que ha resultado ser mucho más fiable que los sistemas que existían anteriormente. Lo más sorprendente, sin embargo, fue descubrir por qué reconocía tan bien las escenas. La explicación és que al aprender a reconocer escenas había descubierto que algunos objetos le daban mucha información. Por ejemplo, el sistema se dio cuenta de que en las habitaciones hay camas, en los salones hay sofás y teles, y en los bosques hay árboles. Y lo que hizo fue crear automáticamente modelos para detectar estos objetos que le resultaban altamente informativos.

De hecho el sistema está haciendo algo muy parecido a lo que hace nuestro sistema visual: primero reconoce componentes visuales básicas (lineas, colores, texturas), luego las combina para poder reconocer los objetos que hay en la imagen y, finalmente, usa los objetos para reconocer la categoría de la escena.

Si tenéis curiosidad podéis testear el sistema vosotros mismos con la demo que tenemos online.

Lo destacable es lo competitivo que es el sistema a la hora de detectar objetos a pesar de no haber tenido ningún tipo de supervisión para ello (la única información que se le proporcionó para el aprendizaje fue la categoría de la escena dónde estaba tomada la imagen). Hemos observado que al aprender a reconocer espacios han emergido detectores de varias categorías de objetos, como coches, edificios, puentes, faros, mesas, camas, sillas, pantallas, cabinas telefónicas, o piscinas. En la Figura 2 podéis ver algunos ejemplos de objetos detectados.

Figura 2: Ejemplos de detecciones de objetos.
Figura 2: Ejemplos de detecciones de objetos.

Nuestro sistema usa Deep Learning, que es actualmente una de las técnicas más populares de aprendizaje artificial. Para las tareas de reconocimiento visual se utilizan unos modelos llamados Redes Neuronales Convolucionales (o Convolutional Neural Networks). Estos modelos, inspirados en procesos de visión biológicos, constan de múltiples capas consecutivas formadas cada una de ellas por varias neuronas que procesan diferentes porciones de la imagen (llamadas campos receptivos o receptive fields). Las capas están conectadas de forma que se combinan los resultados de las neuronas para formar una representación de la imagen original. Estos modelos, que han revolucionado la visión por computador en los dos últimos años logrando resultados sorprendentes en varias tareas, constan de miles de millones de parámetros, y se entrenan con un algoritmo llamado backpropagation usando enormes cantidades de datos etiquetados (es decir, imágenes y su categoría). Nuestro sistema fue entrenado con 2.5 millones de imágenes de una base de datos llamada Places, que creamos para este propósito, y el aprendizaje tardó una semana.

El hecho de que un sistema entrenado para realizar una tarea concreta resuelva otras tareas adicionales es realmente interesante. Esta propiedad puede acelerar significativamente el avance de los sistemas de visión artificial, ya que estos algoritmos parecen ser capaces de aprender más de lo que se les pide sin necesidad de mostrarles más ejemplos.

Ágata Lapedriza es matemática y doctora en informática. Es profesora de los Estudios de Informática, Multimedia y Telecomunicación de la UOC, dónde coordina asignaturas de matemáticas y estadística. También dirige tesis doctorales, proyectos de máster y proyectos de grado en el ámbito de la inteligencia artificial. Su actividad de investigación se centra en temas de visión por computador y aprendizaje computacional.

Web del proyecto:

http://places.csail.mit.edu/

Referencias:

  1. Zhou, A. Lapedriza, J. Xiao, A. Torralba, and A. Oliva. «Learning Deep Features for Scene Recognition using Places Database.» Advances in Neural Information Processing Systems 27 (NIPS), 2014.
  2. Zhou, A. Khosala, A. Lapedriza, A. Oliva , and A. Torralba. «Object detectors emerge in Deep Scene CNN» International Conference on Learning Representations, (ICLR), 2015.

Otros enlaces:

http://newsoffice.mit.edu/2015/visual-scenes-object-recognition-0508

(Visited 68 times, 1 visits today)
Autor / Autora
Comentarios
Deja un comentario