Con sistemas de visión de “profundo-aprendizaje” las Ciencias de la Informática y los Laboratorios de Inteligencia Artificial pueden anticipar las interacciones humanas utilizando videos de programas de televisión
Cuando vemos dos personas que se encuentran, a menudo podemos predecir lo que va suceder a continuación: un apretón de manos, un abrazo, o incluso tal vez un beso. Nuestra capacidad para anticipar las acciones es gracias a intuiciones nacidas fuera de una vida de experiencias.
Las computadoras, por el contrario, tienen problemas para hacer uso del conocimiento complejo como esta situación. Los sistemas informáticos que predicen las acciones se están abriendo a nuevas posibilidades, que van desde robots que pueden navegar mejor en entornos humanos o sistemas de respuesta de emergencia que predicen las caídas, hasta auriculares de estilo cristal de Google que se alimentan de sugerencias sobre qué hacer en diferentes situaciones.

Esta semana, los investigadores de Ciencias de la Computación del MIT y el Laboratorio de Inteligencia Artificial (CSAIL) han hecho un importante avance en la nueva visión de predicción, el desarrollo de un algoritmo que puede anticipar las interacciones con mayor precisión que antes.
Entrenado con los vídeos de YouTube y programas de televisión como "La Oficina" y "Esposas Desesperadas", el sistema puede predecir si dos personas se van a abrazar, besar, dar la mano o una ‘palmada de cinco’. En un segundo escenario, también podría anticipar qué objeto es probable que aparezca en un video de cinco segundos, más tarde.
Mientras los saludos humanos pueden parecer arbitrarias acciones de predecir, la tarea sirvió como un caso de prueba más fácilmente controlable de estudiar por los investigadores.
"Los humanos aprenden automáticamente a anticipar las acciones a través de la experiencia, que es lo que nos hizo interesante en tratar de imbuir a los ordenadores con el mismo tipo de sentido común", dice el estudiante CSAIL PhD Carl Vondrick, que es el primer autor en un artículo relacionado que presentará este semana en la Conferencia Internacional de Visión por Computadora y Reconocimiento de Patrones (CVPR). "Queríamos mostrar que sólo mediante la observación de grandes cantidades de equipos de vídeo se puede obtener el suficiente conocimiento como para hacer constantemente predicciones acerca de su entorno."
Los coautores de Vondrick incluyen el profesor de MIT Antonio Torralba y ex postdoctoral Hamed Pirsiavash, ahora profesor en la Universidad de Maryland.
Los anteriores intentos de predicción de visión por computadora han tomado generalmente solo uno de los dos enfoques.

El primer método es mirar a los píxeles individuales de una imagen y utilizar ese conocimiento para crear una fotorrealista imagen "futuro", pixel por pixel"- una tarea que Vondrick describe como “difícil para un pintor profesional”, y mucho menos a un algoritmo. El segundo es hacer que seres humanos etiqueten la escena de antemano, que es poco práctico, para ser capaz de predecir las acciones a gran escala.
El equipo CSAIL a su vez, ha creado un algoritmo que pueda predecir "representaciones visuales", que son básicamente imágenes congeladas que muestran diferentes versiones de lo que la escena podría tener.
En lugar de decir que un valor de píxel es de color azul, el siguiente es de color rojo, y así sucesivamente, representaciones visuales revelan información sobre la imagen más grande, como una cierta colección píxeles que representan un rostro humano ", dice Vondrick.
El algoritmo del equipo emplea técnicas de aprendizaje profundo, un campo de la inteligencia artificial que utiliza sistemas llamados "redes neuronales" para enseñar a los ordenadores a estudiar minuciosamente las cantidades masivas de datos para así encontrar patrones propios.
Cada una de las redes del algoritmo predice una representación que se clasifica automáticamente como una de las cuatro acciones - en este caso, un abrazo, apretón de manos, dame cinco, o un beso. Entonces, el sistema combina estas acciones en una que se utiliza como predicción. Por ejemplo, tres redes podrían predecir un beso, mientras que otra puede usar el hecho de que otra persona ha entrado en el cuadro como una justificación para la predicción de un abrazo, en su lugar.

"Un video no es como un libro 'Elige tu propia aventura' donde se puede ver todos los caminos posibles," dice Vondrick. "El futuro es inherentemente ambiguo, por lo que es interesante para desafiarnos a nosotros mismos y desarrollar un sistema que utiliza estas representaciones para anticipar todas las posibilidades."
Después de entrenar el algoritmo de 600 horas de vídeo sin marcar, el equipo probó que en los nuevos videos se muestran ambas acciones y objetos.
Cuando se muestra un video de las personas que están un segundo antes de la realización de una de las cuatro acciones, el algoritmo predijo correctamente la acción en más del 43 por ciento de las veces, comparándose con los algoritmos existentes que sólo podían hacerlo el 36 por ciento de las veces.
En un segundo estudio, el algoritmo mostró un cuadro de un vídeo y se le pidió predecir qué objeto aparecerá cinco segundos más tarde. Por ejemplo, ver a alguien abrir un microondas podría sugerir la futura presencia de una taza de café. El algoritmo predice el objeto en el marco, 30 por ciento más precisos que las medidas de referencia, aunque los investigadores advierten que todavía sólo tienen una precisión media de 11 por ciento.
Vale la pena señalar que incluso los seres humanos cometen errores en estas tareas: por ejemplo, los sujetos humanos sólo fueron capaces de predecir correctamente la acción, el 71 por ciento de las veces.

"Hay una gran cantidad de sutileza a la comprensión y la previsión de las interacciones humanas" dice Vondrick. "Esperamos ser capaces de trabajar fuera de este ejemplo para poder predecir, pronto, tareas aún más complejas."
Mientras que los algoritmos no son todavía lo suficientemente precisos para aplicaciones prácticas, Vondrick dice que las futuras versiones podrían ser utilizadas para todo, desde robots que desarrollan mejores planes de acción hasta las cámaras de seguridad, que pueden alertar a los servicios de emergencia cuando alguien se ha caído o recibido heridas.
"Estoy emocionado de ver lo bien que los algoritmos obtienen, si los podemos alimentar con videos valiosos de toda una vida," dice Vondrick."Podríamos ver algunas mejoras significativas que nos acerquen más para usar la predicción-visual en situaciones del mundo real."
Fuente: Adam Conner-Simons | Rachel Gordon | CSAIL
Đăng nhận xét