Qué significa que un chatbot haya superado el test de Turing

Por Francisco R. Villatoro, el 10 junio, 2014. Categoría(s): Ciencia • Historia • Informática • Noticias • Science ✎ 22

Dibujo20140610 eugene goostman - chatbot - turing test winner 2014

Un chatbot (o chatterbot) es un programa de ordenador que simula una conversación fluida con uno o más humanos. Como todos los años hay competiciones, los chatbots se diseñan para superar el test de Turing «oficial» de algún concurso. El software Eugene Goostman, que simula la conversación de un adolescente de 13 años, ha sido el ganador del Turing Test 2014, organizado por la Universidad de Reading, Gran Bretaña. Su primera versión fue desarrollada en 2001 por los rusos Vladimir Veselov y Sergey Ulasen, y el ucraniano Eugene Demchenko.

Todos los medios se han hecho eco de esta noticia porque el porcentaje de acierto de Eugene en el concurso ha sido del 33% (en el año 2012 Eugene alcanzó el 29%). Se afirma a la ligera que se ha superado el test de Turing por primera vez ya que al menos el 30% de una muestra aleatoria de humanos adultos, tras chatear durante 5 minutos con este chatbot, no fueron capaces de discernir si era una máquina u otro humano. Muchos medios han metido la pata hasta el fondo al discutir esta noticia.

Como nos ha contado Iñaki Úcar (@Enchufa2) en la lista interna de Naukas: ¿Se ha superado por primera vez el test de Turing? No, el test consiste en charlar con un humano y se ha superado montones de veces. ¿El mínimo para superar la prueba es confundir al 30% de los jurados? Tampoco. Turing predijo en 1950 que en el año 2000 se superaría el test con una probabilidad del 30% y hemos alcanzado esa probabilidad en 2014. Podemos considerar este hito como un homenaje a Turing, nada más.

¿Eugene es tan inteligente como un adolescente de 13 años? No, rotundamente no. ¿Eugene es inteligente? No, los chatbots suelen ser programas de ordenador bastante «tontos» en el sentido de la inteligencia artificial. ¿Eugene podría engañar a un experto en test de Turing? Quizás a alguno sí, pero no a la mayoría.

¿Entonces por qué tanto jaleo con esta noticia? Porque los organizadores del concurso quieren que se hable de ellos. Ya pasó con Deep Blue, que ganó a Garry Kasparov jugando al ajedrez. Estos hitos nos recuerdan que se sigue trabajando, pero que el objetivo final todavía está muy lejos, pero muy lejos. Más información en español en Javier Peláez, «Una máquina supera por primera vez el Test de Turing,» Yahoo, Cuaderno de Ciencias, 09 Jun 2014; Javier Salas, «El test de Turing, un logro histórico en una vía muerta,» Materia, 9 Jun 2014.

Por supuesto, mucha gente es escéptica respecto a la noticia: Fernando Gomollón Bel, «Skynet está lejos, la derrota de Turing que no es lo que parece,» Divúlgame.org, 10 Jun 2014 (que traduce a Celeste Biever, «No Skynet: Turing test ‘success’ isn’t all it seems,» New Scientist, 9 Jun 2014); Adam Mann, «Artificial Intelligence machine learning Turing Test,» Wired.com, 9 Jun 2014; Dean Burnett, «13-year-old boy passes the Turing test,» The Guardian, Brain Flapping, 9 Jun 2014; «Turing Test ‘Pass’ Doesn’t Convince All,» Geeks are Sexy, 9 Jun 2014; Jack Copeland, «Why Eugene Goostman Did Not Pass the Turing Test,» Huffington Post, 10 Jun 2014;y muchos otros más.

Alan M Turing and colleagues working on the Ferranti Mark I Computer, 1951.

Alan Mathison Turing (1912-1954) está considerado uno de los padres de las ciencias de la computación y de la inteligencia artificial (por cierto, mi área de conocimiento en la universidad española). En esta foto de 1951 aparece a la derecha, de pie. Turing predijo (como de pasada) que en el año 2000, un ordenador con 1 Gb de memoria sería capaz de engañar al 30% de los humanos sometidos a un test de Turing de 5 minutos. Por eso, el concurso Turing Test que se celebra en la Roya Society de Londres requiere superar estos números tan arbitrarios.

«It will simplify matters for the reader if I explain first my own beliefs in the matter. Consider first the more accurate form of the question. I believe that in about fifty years time it will be possible to programme computers with a storage capacity of about 109, to make them play the imitation game so well that an average interrogator will not have more than 70 per cent chance of making the right identification after five minutes of questioning. The original question, ‘Can machines think?’ I believe to be too meaningless to deserve discussion. Nevertheless I believe that at the end of the century the use of words and general educated opinion will have altered so much that one will be able to speak of machines thinking without expecting to be contradicted.»

A. M. Turing, «Computing machinery and intelligence,» Mind 59: 433-460, 1950. Quotation from Section 6 (gracias a Iñaki Úcar aka @Enchufa2).

«Newman: I should like to be there when your match between a man and a machine takes place, and perhaps to try my hand at making up some of the questions. But that will be a long time from now, if the machine is to stand any chance with no-questions barred?

Turing: Oh yes, at least 100 years, I should say.»

A. M. Turing, «Can Automatic Calculating Machines Be Said to Think,» Broadcast discussion transmitted on BBC Third Programme, 14 and 23 Jan. 1952. From B. Jack Copeland (editor), «The Essential Turing,» Clarendon Press, Oxford, 2004. Copy at Turing Archive.

Este artículo de Turing ha sido uno de las más influyentes de la informática en el siglo XX. En lugar de abordar la cuestión de manera formal, definiendo con rigor que es la inteligencia y cuándo podemos afirmar que una máquina es inteligente, el genio nos propone un juego de imitación (el test de Turing). Turing no inventa nada nuevo, todo lo contrario, hace suyos los dos criterios de inteligencia que propuso Descartes en el siglo XVII (en el marco del racionalismo dualista): el lenguaje y la capacidad general de resolver problemas.

El filósofo francés sostenía que algunas especies, como los loros, pueden repetir secuencias de palabras, pero no crean expresiones nuevas, ni saben tampoco usarlas en el contexto pertinente. A diferencia del filósofo francés, que afirma que la competencia lingüística es condición necesaria para la inteligencia, Turing la considera una condición suficiente. En su opinión, un chimpancé no superaría el test de Turing, pues no tiene una competencia lingüística humana, lo que no implica que no sea inteligente (o tenga cierto grado de inteligencia).

En su artículo original,  Turing sostiene que el único criterio que empleamos para decidir si alguien es inteligente es la conducta: Si alguien o algo se comporta de manera inteligente, entonces se le concede el atributo de la inteligencia (Turing, 1950, p. 29). Hay un refrán que dice: si parece vino, huele a vino y sabe a vino, entonces es vino. Turing aplica el mismo razonamiento a la inteligencia.

Este enfoque conductista fue criticado por Claude Shannon y John McCarthy en 1956, dos años tras la muerte de Turing, porque un chatbot podría superar el test de Turing sin ser inteligente (Jack Copeland llamó a esta máquina SUPERPARRY o «superloro»). Por supuesto, hay quienes critican esta crítica. Aunque un chatbot no fuera calificado como inteligente por los informáticos que conocen cómo está programado, sería inteligente a los ojos de los legos que interaccionasen con él.

Muchos programas han superado el test de Turing. El más famoso entre ellos, por ser uno de los primeros, fue ELIZA, escrito por Joseph Weizenbaum. En 1966 simulaba a un psicoterapeuta y su conversación era muy fluida. Otro también muy famoso es PARRY, escrito por el psiquiátra  Kenneth Colby en 1972, que simulaba un esquizofrénico paranoide. Desde entonces ha habido cientos de programas que han superado el test de Turing. Aunque sólo unos pocos han sido los ganadores de los concursos internacionales sobre test de Turing. Para el estado actual recomiendo leer a Saygin, Cicekli, Akman, «Turing Test: 50 Years Later,» Minds and Machines 10: 463-518, 2000.

Muchos chatbots actuales tienen un comportamiento que se adapta al contexto. Por ello, muchos informáticos prefieren el argumento de la sala china de John Searle en lugar del test de Turing. No quiero entrar en una discusión sobre la diferencia entre inteligencia artificial fuerte y débil, ni tampoco quiero discutir en detalle la metáfora de Searle, ni los argumentos contra ella. A los que quieran profundizar más en estos asuntos sobre filosofía en inteligencia artificial les recomiendo la tesis doctoral de Manuel Carabantse López, «Inteligencia artificial: Condiciones de posibilidad técnicas y sociales para la creación de máquinas pensantes,» Universidad Complutense de Madrid, 2014 [PDF].

Me gustaría recordar que hay muchos tipos de inteligencia. Una máquina que no posea la inteligencia lingüística necesaria para superar el test de Turing, o el argumento de la sala china, quizás sería excluida como inteligente en un mundo poblado por humanos, pero podría estar muy cerca de ser tan inteligente como un ser humano. Aún no tenemos una definición rigurosa del concepto de inteligencia que sea aplicable a un agente abstracto sin que esté demasiado inspirada en nosotros mismos.

Coda final. Esta entrada está dedicada a Natalia Ruiz Zelmanovitch (@bynzelman), que inició el hilo en la lista interna de Naukas sobre este peliagudo, a la vez que interesante, asunto.



22 Comentarios

  1. El hecho que me llamó la atención del anuncio fue que simulara un muchacho ucraniano… Recordé inmediatamente el libro «¿Sueñan los androides con ovejas eléctricas?», donde una de las «replicantes» engaña por un tiempo a Deckard y su test diciendo que, como el inglés no era su lengua materna le costaba comprender las preguntas… 😉

    Saludos y muchas gracias, Francis, por tenernos siempre tan bien informados.

  2. ¿¿Superar el argumento de la sala china?? ¿Cómo? ¿Acaso nosotros podríamos superarlo?

    Lo único que podemos hacer es demostrarlo con nuestra conducta.

    Alucino…alucino que el nombre de John Searle siga por ahí rondando en artículos serios.

    1. Una persona puede razonar sobre la relación entre símbolos y significados (generalmente por un origen lingüístico o institucional), por lo que sí, nosotros podríamos superarlo. En el fondo, de eso se trata el argumento de la sala china.

      Eso sí, me interesa que haya alguien que esté tan en contra de Searle. Soy todo oídos, sin acritud en absoluto 🙂

  3. Hola:
    Algo que no he visto es como se realiza el supuesto test. Turing describe claramente su test empleando una máuina y una persona y el interrogador debe adivinar quien es quien. Por como lo cuentan, parece simplemente que un interrogador humano se planta delnate del ordenador y chatea. Que pasa, ¿que a los 5 minutos debe decir que chatea con un humano o una máquina? ¿La máquina está programada para mentir y hacerse pasar por humano o simplemente muestra «conocimientos»?

    Estos simulacros de Test de Turing siempre me han parecido tramposos puesto que no se ajustan a las condiciones del Test. empezando por que el interrogador sabe que está hablando con un programa.

    1. Nacho, te equivocas completamente. Cada test requiere 3 agentes, dos humanos y un ordenador. El juez humano, el que interroga, nunca sabe si está chateando con un humano (un adolescente) o una máquina (que simula ser un adolescente).

      En concreto, en el concurso anual Loebner, que se celebra en Bletchley Park, hay 30 jueces humanos, 25 humanos «ocultos» y 5 programas chatbot (que son finalistas de una fase previa). Se realizaron en total 150 conversaciones (cada juez conversó 5 veces, sin saber si lo hacía con algún humano «oculto» o con un chatbot). En 2012, cuando Eugene obtuvo un porcentaje del 29%, sus otros contendientes fueron JFred, Cleverbot, Ultra HAL y Elbot.

  4. Ya se que esto sonará un poco paranoico, pero alguien se imagina un chatbot como este interaccionando con nosotros a través de Internet. Bien programados podrían confundir a mucha, pero mucha, gente dando pie a un nuevo mundo de Spam. Podrías llevarte semanas intimando con uno (no estarían limitados solo al correo, podrían estar dados de alta como usuarios en foros, chats o redes sociales) y que te saque los cuartos con ingeniería social bien llevada … Ríete del correo del príncipe senegales …

    1. También es verdad que vendría muy bien para interaccionar con personas con problemas sociales, programandolos para ser empáticos con autistas por ejemplo. O personas mayores.

      1. Tojeiro, lamento que te hayas dejado llevar por la recesiva moda de la «empatía».
        Pero aceptando pulpo por animal de compañía, tengo que decirte -cordialmente- no has entendido de qué va ese asunto. Por definición, el bot no podría «ser empático» con un autista, puesto que el autista no emite información gestual que el bot pudiera percibir.

        Lo que sí podría hacer un bot es ser un buen amigo de un autista, o de un anciano, interactuar con él si se le ha programado con una INTELIGENCIA suficiente y entrenado suficientemente. La empatía es una característica común con el resto de animales, no así la inteligencia.

    2. Si lees las conversaciones distan demasiado de ser coherentes,sólo muy pocas personas podrían caer,aunque esta práctica de estafadores en redes sociales lleva bastantes años,con seres humanos,por eso todavía falta demasiado.

  5. Pues podría engañar al 33% de la población mundial (o más, dependiendo de si el jurado es especializado o totalmente aleatorio). Yo sí creo que la inteligencia artificial llegará a mucho más.

  6. Tengo dos preguntas que aunque parezcan una tomadura de pelo no lo son. La primera, ¿alguien ha hecho algún tipo de experimento al revés, es decir, que un humano sea tomado (erróneamente) por un algoritmo de conversación? Por supuesto, no deliberadamente. Si algunas personas «no pasan» el test de Turing podría arrojar cierta luz sobre el particular.

    La segunda es más de aurora boreal: ¿alguien tiene una definición de «inteligencia» ya no mínimamente formal, sino tan siquiera utilitarista? Porque tengo la impresión (seguramente equivocada) de que en el campo se actúa a ciegas, en ese escenario tan horroroso de que estamos buscando algo pero es que ni somos capaces de definir lo que estamos buscando. Esto no es nuevo en ciencia, pero pone los horizontes por lo poco a muchísimas décadas en el futuro (y eso suponiendo que la inteligencia dependa exclusivamente de la dinámica de la información exclusivamente, y no requiera algún tipo de interacción o, peor aún, soporte, con el mundo físico ordinario «de toda la vida»).

    1. La manzana de Turing, muchos humanos son confundidos como programas de ordenador en los tests de Turing. De hecho, hay muchas variantes del test del Turing y alguna corresponde a lo que dices.

      Hay varias definiciones «prácticas» (o utilitaristas) de inteligencia, puedes consultar cualquier libro de inteligencia artificial para disfrutar con varias. Se ha avanzado mucho en el campo en los últimos 70 años.

  7. El nombre de UltraHAL parece un poco pretencioso, teniendo en cuenta que en la famosa película de Kubrick los dos tripulantes no hibernados de la Descubrimiento, ambos con sendos doctorados en carreras de Ingeniería, parecían dos asnos de tiro en comparación con la elocuencia y la retórica del computador HAL 9000.
    Por otro lado, ¿no debería someterse también el autor de este artículo al Test de Turing? O todavía mejor, a una evaluación de la ANECA… Ya que si mal no recuerdo la especialidad de Francisco Villatoro eran los gráficos por computador. En fin… ¡que no se puede fiar uno de nadie!

    1. Kubrick no sabía demasiado de ciencia (lo imprescindible) y sus relaciones con técnicos y peritos asesores solían ser de lamentables a brutalmente desagradables. No era personal, era su método de trabajo. Es bastante sorprendente 1) que no se llevara a bofetadas con Clarke (y eso que le hizo la hornada de putadas de rigor) y 2) que le hiciera caso a Carl Sagan sobre cómo debería sugerir a los seres extraterrestres (Sagan le dijo que sería más astuto no mostrarlos directamente), eso sí, después de fundir un pastón en chorradas cada cual más delirante.

      Por eso las diferencias entre peli y novela son inmensas. Hay la teoría de que Kubrick se dio cuenta a mitad de rodaje que estaban reciclando la teoría NIetzschesiana de Simio – Hombre – Superhombre (con ciertos resbalones paranazis), que es más o menos la que sigue la novela, así que siguiendo la línea habitual metió varios torpedos en el guión para que gente como Rock Hudson saliera estupefacta del estreno (en el sentido más psicotrópico del término). Para muestra dos botones: la partida que juegan, en la peli, HAL y Bowman es REAL (y Kubrick era muy buen jugador de ajedrez),
      http://en.wikipedia.org/wiki/Poole_versus_HAL_9000
      HAL miente y engaña. O se equivoca burdamente. La peli original fue estrenada en Cinerama, que era una barbaridad con una pantalla casi en 120º, así que podría verse en una sala en esas condiciones. Hasta donde yo sé, no pudo ser identificada la partida hasta que hubo DVDs, prácticamente.

      El otro punto burdo es la conversación entre Bowman y HAL negándole el acceso a la Discovery. Todo el diálogo de HAL es infantil 100%, rezumando emocionalidad que se le supone inexistente. Lo que quiso decir Kubrick con todo esto y más, seguramente no lo sabía ni él, así que si ellos (aunque después lo negaron) le llamaron HAL para ir un paso por delante de IBM, supongo que cualquiera puede interpretar el personaje cinematográfico a placer y llamarle HAL Vader a lo que le dé la gana.

      1. Probablemente Kubrick era bastante arrogante, aunque otros grandes artistas y escritores con los que trabajó me imagino que tampoco lo serían en mucho menor grado. Por lo que tenía entendido, sus cualidades más notorias eran su obsesión por la perfección y su meticulosa atención a los detalles. Cualidades que, al parecer, llegaron a sacar de quicio al sr. Nicholson durante el rodaje de El resplandor (prueba a repetir 157 veces la frase:

        ¡Aquí esta Jack…!

        Y eso que surgió de una «morcilla» que metió Nicholson). Pero bueno, todos recordamos algunas escenas antológicas del cine que nos ha dejado esta película .

        Es cierto que Kubrick introdujo bastantes cambios en el guión con respecto a la novela, algunos por razones técnicas (los efectos especiales no alcanzaban para recrear Saturno, así que se quedaron en Jupiter) y otros, imagino, para inducir un mayor dramatismo (el rescate de Poole, la conversación en la cápsula que HAL adivina por los movimientos de los labios y la famosa frase:

        Se me va la cabeza…

        no suceden en la novela). No obstante, es la única película que conozco en la que el guión mejora en algún aspecto al libro, como sucede con los diálogos de HAL, ya que en la película utilizada un lenguaje más culto y refinado, que junto con la acertada voz del doblaje (aparenta ser un señor maduro, culto y elocuente), parece sugerir la superioridad intelectual del computador frente a los dos acompañantes humanos.

      2. En cuanto a la estupefacción del sr Hudson, es comprensible teniendo en cuenta que la película se apartaba en gran medida de los cánones del cine de Hollywood de la época y que es extremadamente difícil, sino imposible, entender muchas escenas de la película si no se ha leído el libro.

        Algunas cuestiones fundamentales que plantea el libro se diluyen en la cuidada escenografía y banda sonora de la película, por ejemplo:
        -¿Puede el hombre fabricar una herramienta que muestre un comportamiento inteligente?
        -En tal caso, ¿pueden las máquinas alcanzar o rebasar la inteligencia humana?
        -¿Existen seres extraterrestres inteligentes en nuestra galaxia o en el universo?
        -Si existen tales seres, ¿habrán sido capaces de desarrollar una ciencia y una tecnología lo suficientemente avanzadas para visitar nuestro Sistema Solar?
        -¿Podrían alcanzar unos seres extraterrestres tal grado de conocimientos científicos y tal desarrollo tecnológico que pareciesen inalcanzables para los seres humanos y que los dotasen de cualidades y de habilidades que en el pasado los hombres atribuían a los dioses o a potencias divinas? (P. Ej. viajes a lugares arbitrarios del espacio-tiempo, persistencia de la mente frente al deterioro del cuerpo, etc)

  8. Por cierto que en su concepto original, el test de Turing consistía en que un humano y un ordenador (programa, chatbot, wahtever…) tenían que convencer al experimentador de que eran una mujer, y de ahí debía sacar dicho experimentador sus conclusiones. Viene a ser algo así como mentir con sutileza puesto que ¿que sabe una máquina de lo que es sentirse humano hombre, humano mujer…? ¿y si añadimos condicionantes socio-culturales?. Para nosotros como humanos es algo cotidiano e interiorizado y asumido generalmente, pero imaginad si tuviéramos que entender cómo se «siente» ser una máquina inteligente, por ejemplo, y tratar de comunicarnos con otra máquina similar, en su contexto y desde nuestra condición de seres biológicos (es un ejemplo tontorrón pero creo que me explico…)

Deja un comentario