Inteligencia Artificial

El nuevo AlphaGo se enseña a sí mismo y vapulea a su versión anterior

La nueva versión del programa no necesita supervisión humana, aprende de sus propias jugadas y ha ganado todas las partidas a la versión de AlphaGo que derrotó al campeón del mundo.

El nuevo AlphaGo se enseña a sí mismo y vapulea a su versión anterior
El nuevo AlphaGo se enseña a sí mismo y vapulea a su versión anterior DeepMind

La Inteligencia Artificial acaba de dar un salto cualitativo de esos que asustan un poco a los agoreros. Si hace dos años el programa AlphaGo, desarrollado por el equipo de Google DeepMind, nos encogió el corazón tras derrotar a uno de los mejores jugadores profesionales del juego de mesa Go, lo que acaban de anunciar los desarrolladores dejará a más de uno sin respiración. En un trabajo publicado este miércoles en la revista Nature los creadores presentan una nueva versión de AlphaGo que es capaz de enseñarse a sí misma a jugar sin necesidad de recibir datos previos de partidas humanas. Y no solo eso, ha ganado a su predecesor por 100 partidas a 0.

AlphaGo Zero ha aprendido a partir de partidas que juega consigo misma desde el principio

El programa ha sido bautizado como AlphaGo Zero y a diferencia del anterior, que derrotó al campeón Lee Sedol con una facilidad asombrosa, no ha sido entrenado a partir de infinidad de partidas humanas, sino que ha aprendido a partir de partidas que juega consigo misma desde el principio, comenzando por movimientos al azar y unas pocas reglas de inicio. La primera versión de AlphaGo, además, necesitó muchos meses de entrenamiento y hasta 48 unidades TPU (chips especializados para el entrenamiento de redes neuronales), mientras que el nuevo programa le han bastado unos días y ha usado una sola red neuronal y 4 TPUs.

El programa ha diseñado nuevas estrategias que dan una nueva perspectiva de este juego tan antiguo

En esos pocos días, el programa diseñado por David Silver, Julian Schrittwieser, Karen Simonyan y Demis Hassabis jugó alrededor de 5 millones de partidas consigo mismo, lo que no solo le ha permitido ser mejor que cualquier humano, sino vapulear a la versión anterior del sistema. A medida que el programa entrenaba, dicen los autores, descubrió de manera independiente algunos de los principios básicos del juego que han llevado a los humanos varios miles de años descubrir, al tiempo que ha diseñado nuevas estrategias que dan una nueva perspectiva de este juego tan antiguo.

Referencia: Mastering the game of Go without human knowledge (Nature) DOI 10.1038/nature24270


Comentar | Comentarios 0

Tienes que estar registrado para poder escribir comentarios.

Puedes registrarte gratis aquí.

  • Comentarios…

Más comentarios

  • Mejores comentarios…
Volver arriba