NeurIPS 2019 presentó jugadores de curling robot y humeante el café

Según los investigadores, Curly se desempeñó bien en experimentos en el hielo y en situaciones de juego clásicas y al interactuar con oponentes humanos

Innovación

Recientemente se marcaron los sistemas de procesamiento de información neuronal –NeurIPS- (Sistemas de Procesamiento de Información Neural, por sus siglas en inglés), una de las conferencias de inteligencia artificial y aprendizaje automático más grandes del mundo. 

 

AVID aprendió con éxito tareas como operar una máquina de café y recuperar la taza 

En los dos últimos años, fueron miles de proyectos y trabajos de investigación expuestos y, recientemente en Vancouver, Canadá, se llegó a cerca de 6.600 presentaciones ante una estupenda afluencia de público.

Fue bastante activa la categoría activa de investigación este año: la robótica, que recibió contribuciones de talleres y trabajos de Intel, la Universidad de California en Berkeley y otras entidades. Algo bien llamativo fueron los enfoques novedosos para capacitar a un equipo de máquinas en aras de resolver conjuntamente un problema, y ​​una técnica de aprendizaje en varias etapas que utiliza la traducción a nivel de píxeles de videos.

Aprendizajes en etapas múltiples

Los investigadores del Departamento de Ingeniería Eléctrica y Ciencias de la Computación de Berkeley diseñaron un sistema que tiene como propósito mermar la carga humana, al menos en lo que se refiere a definir una tarea y restablecer un entorno. Su máquina, AVID, traduce instrucciones humanas para cada paso en orientaciones de robot a través de un CycleGAN, una técnica que implica la capacitación de modelos de traducción de imagen a imagen utilizando una colección de imágenes de dos dominios que no necesitan estar relacionados.

En la práctica, los robots internalizan tareas una etapa a la vez, descubriendo automáticamente cómo restablecer las fases para volver a intentarlo sin intervención humana. Esto hace que el proceso de aprendizaje sea en gran medida automático, desde la especificación intuitiva de tareas a través de videos hasta la capacitación.

Según los investigadores, AVID aprendió con éxito tareas como operar una máquina de café y recuperar una taza directamente de las observaciones de imágenes en brutoLa capacitación bastó solo 20 minutos para proporcionar demostraciones humanas y aproximadamente tres horas de interacción del robot con el entorno, y en una de las tareas, superó la clonación conductual utilizando demostraciones reales de robots en lugar de videos de demostraciones humanas.

Y es así como se van al trabajo futuro compensando el costo de la capacitación de los modelos CycleGAN para tareas específicas, quizás mediante la reutilización de modelos capacitados de CycleGAN en aras de traducir demostraciones en otras tareas relacionadas. Los estudiosos a cargo creen que la capacitación podría generalizarse con un gran conjunto de datos que involucra múltiples comportamientos humanos y de robots diferentes en un entorno, lo que permitiría aprender nuevas tareas con solo unas pocas demostraciones humanas.

Robots y trabajo en equipo

Los investigadores de Intel intentaron sortear dos problemas de vieja data en el aprendizaje automático:

  • Falta de inclinación a explorar entornos.
  • Alta sensibilidad a la elección en hiperparámetros, o parámetros cuyos valores se establecen antes de que comience el proceso de aprendizaje, con un marco denominado CERL -Collaborative Evolutionary Reinforcement Learning- o aprendizaje colaborativo de refuerzo evolutivo. Es una colección de algoritmos optimizados que juntos logran una mayor eficiencia de muestra y que reparte de modo dinámico los recursos computacionales para favorecer los modelos de mejor rendimiento del grupo.

Los objetivos de aprendizaje en CERL se dividen en dos procesos de optimización que operan simultáneamente. El sistema construye una población de equipos modelo y evalúa a cada equipo sobre su desempeño en la tarea real. Después de estas tasaciones, los equipos fuertes permanecen juntos, mientras que un paso de mutación separa a los equipos débiles y transforma los modelos en nuevos equipos.

Es importante destacar que cada modelo obtiene un búfer de reproducción compartido, o un repositorio de datos donde puede almacenar sus experiencias a medida que explora. CERL construye tantos buffers compartidos como puestos de equipo, para que un miembro del equipo pueda aprender de las experiencias de todas sus versiones en todos los grupos. Y es este enfoque de nivel dividido le permite lograr un rendimiento de vanguardia en una serie de puntos de referencia difíciles, incluido el entrenamiento de un modelo humanoide 3D para caminar desde cero.

Robots rizados

Un grupo proveniente de la Universidad de Corea y el Instituto de Tecnología de Berlín ha descrito en un periódico una máquina, llamada Curly , que se mantiene firme en el hielo rizado del mundo real. Una estrategia de rizado basada en Inteligencia Artificial y un motor de simulación guían al robot lanzador, que conduce y reconoce de forma autónoma la configuración de campo gracias a una combinación de control de tracción, cámaras y visión artificial.

Como indican los científicos, las capas de hielo rizado se cubren tradicionalmente con guijarros, cuya condición cambia con el tiempo dependiendo de factores como la temperatura, la humedad, la fabricación de hielo, el tiempo transcurrido desde que finalizó el mantenimiento y la cantidad de barrido durante el juego. Como resultado, la trayectoria de las piedras varía con el tiempo.

Quizás le interese leer un tema relacionado:  Equilibrio hombre y máquina en el lugar de trabajo

En Curly (deporte de precisión y de equipo) asume el reto mediante la implementación de un simulador basado en la física y diseñado para ajustar parámetros que incluyen ángulo de lanzamiento, velocidad y dirección del rizo hasta que se obtenga la estrategia óptima. El componente lanzador del robot realiza esta estrategia en la capa de hielo mientras sostiene y gira una piedra rizadora, que libera al desplegar un brazo de agarre. Un componente de salto mantiene pestañas en las ubicaciones y trayectorias de las piedras al tiempo que representa la variabilidad.

Según los investigadores, en Curly se desempeñó bien en experimentos en el hielo, es decir, en situaciones de juego clásicas y al interactuar con oponentes humanos como un equipo coreano de secundaria de primer nivel. Se van a investigaciones futuras utilizando técnicas de IA explicables para obtener una mejor comprensión de los impactos de disparos críticos, lo que permite que el robot aprenda mejor de sus errores.

Texto tomado y adaptado de VentureBeat, a quienes les expresamos nuestros agradecimientos.