Jugando al póker con robots

Algunas ideas del matemático Adam Kucharski sobre las inteligencias artificiales

Adam Kucharski es un matemático y epidemiólogo inglés. En este momento es profesor asociado de la London School of Hygiene & Tropical Medicine, y trabaja en el análisis matemático de cómo se esparce una enfermedad infecciosa, como por ejemplo, el Covid-19 (nada menos).

Por razones obvias, sus dos profesiones tienen una importancia vital en este momento (octubre del 2020). Le escuché varias charlas en diferentes lugares, y he tomado notas/apuntes que me interesa compartir. Como fueron charlas anteriores a que se desatara la pandemia que azota al mundo desde diciembre del año 2019, no espere encontrar acá nada específico sobre el tema, sino muchas observaciones sobre computadoras, robots, inteligencia artificial, análisis de datos, probabilidades, juegos como ajedrez, go, poker, ‘damas’… En fin, le sugiero que lea estas notas con la mente abierta. Guarde lo que le interesa. Descarte el resto. El problema que tuve yo es que no pude descartar nada… Fíjese qué le parece a usted. Por supuesto, el crédito de todo lo que está escrito acá abajo, en este resumen, le corresponde todo a él. Yo soy —sencillamente— un intermediario.

1) “Podemos diseñar robots (o bots), pero no alcanza con enseñarles que repliquen lo que hacemos nosotros: aprendé ‘esto y esto otro’. No sirve así porque entonces, no vamos a aprender nada nuevo nosotros. Solo habremos creado una copia (y pobre) de nosotros mismos. En realidad, no hay que enseñarles como a adultos, sino enseñarles como a chicos: dejarlos que ellos aprendan por su cuenta”.

2) “Para quien diseña un robot, es muy frustrante ver que hace cosas que nosotros no haríamos. Nos confunden tomando decisiones que nosotros no tomaríamos… pero, por otro lado, nosotros tenemos que luchar contra el ‘qué dirán’, o sobre lo que ‘se supone que es lo correcto’. Un bot no tiene esas restricciones: hace lo que tiene que hacer. El resto, le resulta irrelevante”.

3) “Cuando la computadora creada por IBM ‘Deep Blue’ le ganó a Garry Kasparov [1] (en ajedrez), nosotros no aprendimos nada de ese hecho. Mejor dicho: aprendimos que una computadora le podía ganar a un ser humano, en ajedrez, pero fue un subproducto de la ‘fuerza bruta’ que utilizó la computadora. No fue que Deep Blue nos enseñó ‘algo’ en ajedrez que no sabíamos. ¡Desde ese lugar, no aprendimos nada! En cambio, cuando los bots diseñados en Canadá pudieron ganar al póker, entonces SÍ… Allí aprendimos muchísimo más, aunque más no sea porque para poder jugar al póker hay que poder hacer ‘bluff’. Y ojo, porque no digo que conviene hacer bluff por lo que significa psicológicamente, por el ‘daño’ que podríamos hacerle a un rival, sino porque matemáticamente tiene sentido hacer bluff… y eso, es algo que definitivamente no esperábamos de parte de una computadora. En ese lugar estamos hoy”.

4) “Es interesante notar que el póker tiene muchísimas menos posiciones y posibilidades que las ‘damas’ y ni hablar del ajedrez o el go. Sin embargo, en el póker, las computadoras sufrieron muchísimo más y por muchísimo más tiempo. ¿Por qué? Es que en juegos como las damas, el ajedrez o incluso en el go, uno tiene toda la información, uno ve dónde tiene distribuidas las piezas el rival, no hay nada oculto. Estos juegos se conocen con el nombre de “Juegos con Información Perfecta”. En algún sentido, uno tiene toda la información que le hace falta para tomar una decisión, está todo delante suyo. En cambio en el póker, esto decididamente no es cierto”.

5) “El póker se parece más a la vida real: hay información que falta, que está escondida. Cuando uno tiene que tomar una decisión, en una negociación, en una subasta, en discusiones que involucran elegir qué conviene ofrecer o qué no, todas estas situaciones tienen información oculta. En algún sentido, si las computadoras intentaran replicar lo que sucede con un humano o con los humanos, con lo que llamamos ‘inteligencia humana’, tendrá que enfrentarse con este tipo de situaciones en forma mucho más frecuente. En ese sentido, el póker es una fuente mucho mayor de aprendizaje que cualquiera de los otros juegos con información completa”.

6) “Cuando los robots que jugaban al póker empezaron a hacerse populares, hace 10 ó 15 años, una estrategia común era decirles ‘qué hacer’ ante cada situación. Entonces, si uno está escribiendo un algoritmo, uno le enseña al robot: ‘Si pasa esto, hacé tal cosa; si pasa esto otro, hacé tal otra cosa’. Todo bien, pero el problema con esta forma de abordar el problema es que el robot que uno construye será A LO SUMO tan bueno como sos vos. Si uno le dice ‘qué hacer’, el robot estará limitado por las propias habilidades de quien está escribiendo el programa”.

7) “Pero hay una mejor manera de hacerlo. Lo que uno quiere es construir una mente como si fuera la de un niño y dejar que funcione tratando de aprender sola/o, y esto es lo que están haciendo los investigadores. Están construyendo robots específicos para jugar al póker, pero de manera tal que lo hagan jugando entre ellos y aún más: que cada robot pueda jugar contra sí mismo. Lo más sorprendente es la forma en la que aprenden. En lugar de detenerse en el juego y pensar cuál sería la estrategia que me garantizaría la mayor probabilidad para ganar esta partida, el robot mira hacia atrás y se pregunta: ¿qué tendría que haber hecho yo antes para no haber llegado a esta situación? ¿Qué habría pasado si yo (el robot) hubiera hecho algo distinto?

8) “En estudios que hemos hecho, hay un grupo de personas que han sufrido daños cerebrales que les impiden sentir remordimiento, y esas personas tienen muchos problemas para tomar decisiones que involucran incertezas y aleatoriedad. Mientras se trate de ‘ordenar cartas’ por ejemplo, no tienen ningún tipo de problemas, aprenden muy rápido y resuelven lo que uno les ponga delante. Sin embargo, si descubren que hay información escondida o algún tipo de ‘riesgo’, entonces les cuesta muchísimo trabajo identificar la estrategia óptima. Esto sugiere que la imposibilidad de sentir remordimiento, parece ser muy importante en cuanto a cómo aprendemos a tomar decisiones en un mundo incierto y este tipo de técnicas fue muy importante para el diseño de estos robots”.

9) “Más aún: estos robots específicamente diseñados para jugar al póker, han jugado entre ellos miles de millones de partidas. Aprendieron tanto, son tan buenos, que un grupo de investigadores en Canadá anunció que el póker, como juego, está ¡resuelto! En realidad, lo que hicieron fue mostrar que encontraron una estrategia que les permite… ¡no perder! Y no pierden o perderían, aún contra un rival perfecto. En algún sentido estos robots son ¡invencibles!”

10) “Hay veces en que los robots reciben muy malas cartas y sin embargo hacen una apuesta que es incomprensible para nosotros, los humanos. O al revés, tienen muy buenas cartas y deciden apostar el mínimo. Estos robots desafían nuestra forma de tomar decisiones. De hecho, múltiples veces y a pesar de eso, resultan ganadores de las partidas. ¿Qué relación tiene esto con la vida real, con la vida cotidiana? Muchas veces nosotros, enfrentados a situaciones muy complejas, tendemos a simplificarlas y los robots nos enseñan que muchas veces las reducimos demasiado, tanto que obrar como hacen ellos, sin estar restringidos por lo que ‘el afuera’ considera una buena estrategia, resulta claramente beneficioso. En la medida que los robots mejoran, es muy probable que comencemos a advertir modificaciones en nuestro comportamiento y en la forma en que la emoción o las emociones terminan torciendo nuestras determinaciones”.

“En el año 2018 cuatro de los mejores jugadores de póker del mundo jugaron contra estos robots. La idea es que este particular juego de cartas (el póker) parecía más un arte que algo científico, ligado a la psicología humana y a la creatividad. Lamentablemente se olvidaron de avisarle a los robots, porque terminaron ganando todas las partidas que jugaron frente a los humanos… ¡todas!”

11) “Para terminar: puede que todo esto suene muy apocalíptico y terminal, pero yo (él, Kucharski) pienso que usando lo que vemos en este tipo de robots nos ayudará a tomar decisiones y riesgos cotidianos de una forma muy distinta a la que las hacemos hoy. En todo caso, al perder contra estas máquinas, ganamos la oportunidad de entendernos mejor a nosotros mismos”.

Final

Estos apuntes están tomados en forma anárquica. Fueron observaciones que me impactaron a mí. Quizás, si en lugar de haber estado yo en esas charlas, hubiera estado usted (quien está leyendo estas líneas), es muy probable que le impactaran otras cosas que Kucharski dijo. No lo sé, y no hay manera de comprobarlo ahora. Lo que me parece valioso es que el humano no se detiene y más allá del uso que luego le dé a la tecnología que inventa (un tema enorme, pero que escapa a estas líneas) la evolución que se está produciendo es asombrosa. Continuará…

[1] Inmediatamente después de haber escuchado a Kucharski por primera vez, empecé un artículo escribiendo estas líneas: “En el año 1997, Deep Blue, la computadora diseñada por IBM, le ganó a Garry Kasparov quien en ese momento era el campeón mundial de ajedrez. Pero lo notable de ese triunfo es que los humanos no aprendimos virtualmente nada que no supiéramos antes que se jugaran esas partidas. De hecho, la computadora le ganó al humano por la fuerza bruta. Le ganó porque un humano no puede retener tantas jugadas en su cabeza, y no puede —por lo tanto— pensar tantas jugadas hacia delante. Ahora bien: en términos específicos, en términos de aprendizaje, no hubo virtualmente nada nuevo. En algún sentido, aprendimos sobre computadoras, pero no aprendimos nada de ajedrez. NO aprendimos —virtualmente— nada sobre la inteligencia humana y decisiones humanas. Por supuesto: si el objetivo es aprovechar la capacidad de memoria de una computadora, entonces no hay discusión: los humanos perdemos por escándalo. Es otra liga. Eso sí: una computadora era ya muy superior en el año 1997, ni hablar ahora. Pero esa no es la razón por la cual uno quiere enfrentar al mejor de nuestra especie en este juego contra una computadora. No, lo que uno querría es aprender de ellas ‘algo’ que no sabíamos hasta acá”.

--------------------------------

Para suscribirte con $ 8.000/mes al Cohete hace click aquí

Para suscribirte con $ 10.000/mes al Cohete hace click aquí

Para suscribirte con $ 15.000/mes al Cohete hace click aquí