Un algoritmo aprende de sus malas decisiones para ser imbatible en póquer

Tras muchos intentos, la informática ha encontrado la manera de ser invencible en un juego tan taimado como el póquer. Un grupo de investigadores canadienses ha desarrollado un programa, basado en un nuevo algoritmo, que aprende de las malas decisiones y utiliza esta información para desentrañar el azar y crear una enorme base de datos en la que se recogen prácticamente todas las jugadas posibles.

Un algoritmo aprende de sus malas decisiones para ser imbatible en póquer
Cepheus es capaz de pasar una vida humana jugando al póquer sin que nadie logre vencerlo. / Images Money

Un programa informático, denominado Cepheus, es capaz de pasar una vida humana jugando al póquer sin que nadie logre vencerlo. Investigadores de la Universidad de Alberta (Canadá) han creado un algoritmo que permite resolver por primera vez juegos en forma extensiva y con información imperfecta, como la versión más extendida del póquer: Limit Texas Hold'em. Los resultados del estudio se han publicado en el último número de la revista Science.

Según la teoría de juegos, el póquer es un juego de información imperfecta, lo cual significa que los datos que manejan los jugadores no son conocidos por el resto, con el añadido de que incluso pueden ser falsos si el jugador se marca un farol.

“Cepheus ha creado y desarrollado su propia estrategia desde cero, únicamente conociendo las normas del juego. El resultado son más de 260 terabytes de información, 1.000 veces más que lo que ocupa la versión en inglés de la Wikipedia”, explica a Sinc Michael Bowling, investigador de la universidad canadiense y uno de los desarrolladores del programa.

“Cepheus ha creado y desarrollado su propia estrategia desde cero", señala Bowling

Sin embargo, el algoritmo del programa incluye un novedoso método de compresión que permite que la información se almacene finalmente en solo 10 terabytes.

Lo que ha logrado el equipo “es que en una partida de dos jugadores, la posibilidad de una persona de perder contra la máquina sea insignificante”, añade Bowling. Como entrenamiento, el programa jugó contra sí mismo en 4.000 ordenadores durante dos meses.

Todas las combinaciones posibles

Durante este tiempo acumuló información sobre cada combinación de cartas posibles que pueden ser repartidas y exploró todas las posibilidades que existen de jugar una mano. Teniendo en cuenta que cada ordenador es capaz de analizar 6.000 millones de manos cada segundo, el entrenamiento de Cepheus incluyó más partidas de las que el ser humano ha jugado en la historia.

El algoritmo en el que se basa el programa, llamado CFR+, consiste en un conjunto de ecuaciones matemáticas “con una premisa relativamente simple: La inteligencia de Cepheus es fruto de su entrenamiento. Empieza actuando al azar y, partir de ahí, calcula el valor de todas las acciones posibles en todas las posibles situaciones” explica Bowling.

El programa crea una enorme base de datos en la que se recogen prácticamente todas las jugadas posibles

Cepheus calcula el ‘arrepentimiento’ de cada decisión que toma. Si los resultados demuestran que no ha escogido la opción más adecuada, calcula si es mejor optar por otro movimiento como retirarse, pasar o apostar más. Estos cálculos actualizan la estrategia que se pone en marcha en la siguiente mano, en la que los niveles de arrepentimiento vuelven a estar a cero.

Retirarse, igualar o subir la apuesta

No obstante, el programa sabe de antemano la probabilidad con la que debería retirarse, igualar o subir la apuesta en cada posible situación. Así que, mientras juega, explora en su gigantesca base de datos la situación a la que se enfrenta y actúa de tal modo que la mano coincida con las probabilidades previamente calculadas.

Sin embargo, la máquina no gana todas las manos. El programa confirma la idea general de que el que reparte las cartas adquiere una ventaja significativa. “Cepheus cuenta con perder dinero cuando no es el que distribuye las cartas pero cuando lo es, gana casi tanto o más. Hay un 50% de probabilidades de ganarle en la primera mano, pero únicamente en esa” reconoce el investigador.

El investigador asegura que la probabilidad de perder es tan pequeña que un jugador experto “podría estar jugando toda su vida contra el programa sin cometer fallos y aun así no podría encontrar ninguna imperfección”.

“Si me preguntan si alguien sin la ayuda de un ordenador puede ganar a este programa, la respuesta es un rotundo no", dice el investigador

Sin embargo, una persona puede ver como mejora su juego practicando contra la máquina. “Después de que un ordenador venciera varias veces al ajedrecista ruso Gari Kasparov, muchos profesionales han declarado haber mejorado jugando con programas informáticos de ajedrez” comenta el investigador.

Bowling añade que también son muchos los que han perfeccionado su estrategia en el póquer “tras practicar con Polaris, nuestro anterior programa de Limit Texas Hold’em. Las personas pueden aprender mucho si usan sus cerebros para lo que son mejores que la máquina: encontrar una explicación lógica a los cálculos que hace el programa”.

“Si me preguntan si alguien sin la ayuda de un ordenador puede ganar a este programa, la respuesta es un rotundo no. Y le reto a que lo intente”, bromea el científico.

Aplicaciones en ciberseguridad

Los investigadores afirman que este tipo de programa podría ser útil para el tratamiento de otros problemas de información imperfecta en los ámbitos de la seguridad y ciberseguridad y en la toma de decisiones médicas. “El póquer puede tomarse como una representación a escala de las incertidumbres que se presentan en la vida real. Es un gran banco de pruebas para el desarrollo de algoritmos que pueden ser aplicados en importantes tomas de decisiones, incluso cuando no hay adversario aparente”, concluye Michael Bowling.

Referencia bibliográfica:

M. Bowling et al. "Heads-up limit hold’em poker is solved" Science (2015).

Fuente: SINC
Derechos: Creative Commons
Artículos relacionados