La revisión por pares es incapaz de identificar artículos generados con ChatGPT

Por Francisco R. Villatoro, el 12 septiembre, 2023. Categoría(s): Bibliometría • Ciencia • Noticias • Peer Review (Revisión por pares) • Science ✎ 13

La revisión por pares es una garantía de la calidad de las publicaciones científicas. El uso de herramientas de inteligencia artificial, como ChatGPT, por parte de los autores supone todo un reto para la revisión por pares. ¿Debe un revisor cuestionarse si un artículo ha sido generado, en parte, con ChatGPT? ¿Debe un revisor rechazar un artículo que contenga «Regenerate response» como párrafo? Un artículo en la revista Physica Scripta (Q2 en JCR 2023) recibido el 31 de mayo y aceptado el 27 de julio incluye dicho párrafo sin que los revisores científicos, ni el editor, ni el maquetador editorial se dieran cuenta. Lo notó Guillaume Cabanac, que lo publicó en PubPeer; Gemma Conroy se hizo eco en la revista Nature. El editor de Physica Scripta va a retirar (retractar) al artículo porque los autores han confesado que usaron ChatGPT sin decir nada. Si hubieran dicho algo en los agradecimientos, ¿sería aceptable su artículo? ¿Los revisores habrían estado atentos y hubieran detectado el gazapo? ¿Deberían ser las editoriales las que detectaran ChatGPT y los revisores limitarse al contenido científico? Con la llegada de ChatGPT las publicaciones científicas han cambiado para siempre y jamás.

El artículo en cuestión presenta las soluciones en funciones elípticas de Jacobi de una ecuación en derivadas parciales (llamada ecuación de la amplitud hamiltoniana, HEM). Para ello se usa un método trivial(∗), usar un desarrollo en serie de funciones elípticas de Jacobi (JEFEM). ChatGPT es incapaz de aplicar dicho método, a pesar de su trivialidad. Con toda seguridad ha sido usado para la escritura del texto en inglés, para revisar párrafo a párrafo el artículo completo. En el proceso de cortar y pegar los autores incluyeron el «Regenerate response» marca de la casa ChatGPT. Un gazapo sin importancia, pero que desvela que han usado esta herramienta. Muchas revistas exigen que los autores indiquen de forma explícita si han usado o no este tipo de herramientas en la sección de Agradecimientos. Pero a muchos autores les da vergüenza confesar de este modo que su nivel de inglés es deficiente; por ello, omiten el agradecimiento que hoy en día se considera obligatorio (y que en los próximos años será muy popular). Los detectives de artículos científicos como Cabanac han detectado frases típicas de ChatGPT en muchos artículos publicados en revistas de muchas editoriales. Cada día avanzan más las técnicas de detección de los rastros sutiles que dejan estas inteligencias artificiales. Igual que los software de detección de plagio, todas las editoriales acabarán usando estos software para analizar los artículos antes de la revisión por pares. Quizás así los revisores solo tendrán que preocuparse por el contenido científico.

El artículo en liza es Sibel Tarla, Karmina K. Ali, Abdullahi Yusuf, «Exploring new optical solutions for nonlinear Hamiltonian amplitude equation via two integration schemes,» Physica Scripta 98: 095218 (09 Aug 2023), doi: https://doi.org/10.1088/1402-4896/aceb40. El artículo periodístico del que me he hecho eco es Gemma Conroy, «Scientific sleuths spot dishonest ChatGPT use in papers. Manuscripts that don’t disclose AI assistance are slipping past peer reviewers,» News, Nature, 08 Sep 2023, doi: https://doi.org/10.1038/d41586-023-02477-w.

(∗) En este contexto, cuando uso la palabra trivial, quiero decir que cualquier estudiante de los grados de matemática o física puede aplicar este método usando un software simbólico como Mathematica sin ni siquiera haber estudiado la teoría de las funciones elípticas de Jacobi. Trivial significa mecanizable.

[PS 07 nov 2023] Se publicado en la revista Cell Reports Physical Science un artículo que presenta un algoritmo para detectar los artículos científicos escritos por ChatGPT (basado en GPT-3.5) con una precisión del 99 %. Dicho algoritmo podrá ser usado por las editoriales de revistas científicas. Por desgracia, no se analizan los artículos escritos con ChatGPT+ (basado en GPT-4), ni con ChatGPT+v (que usa GPT-4V). El artículo es Heather Desaire, Aleesa E. Chua, …, David Hua, «Distinguishing academic science writing from humans or ChatGPT with over 99% accuracy using off-the-shelf machine learning tools,» Cell Reports Physical Science 4: 101426 (21 Jun 2023), doi: https://doi.org/10.1016/j.xcrp.2023.101426. Más información divulgativa en McKenzie Prillaman, «‘ChatGPT detector’ catches AI-generated papers with unprecedented accuracy. Tool based on machine learning uses features of writing style to distinguish between human and AI authors,» News, Nature, 06 Nov 2023, doi: https://doi.org/10.1038/d41586-023-03479-4.



13 Comentarios

  1. No considero que utilizar ChatGPT deba tener relevancia alguna a la hora de aceptar un artículo, como no la tiene el corrector de ortografía, es una herramienta más. Si el artículo por lo demás es correcto, adelante.

    1. Yeil, gran parte del problema es de copyright. Los científicos transferimos el copyright de nuestros artículos a la editorial de la revista. Sin embargo, el copyright de los resultados de ChatGPT es de OpenAI (el humano solo tiene copyright de sus comandos o prompts); el autor de un artículo que use ChatGPT no tiene permiso de OpenAI para transferir el copyright de la contribución de ChatGPT de dicho artículo a la editorial. Algún día, si se desarrollan técnicas capaces de determinar qué parte de los artículos científicos es producida por ChatGPT, podría haber una demanda colectiva de OpenAI a todas las editoriales que hayan publicado dichos artículos (pues la editorial tiene el copyright de lo que hayan producido los autores humanos, pero el de lo producido por ChatGPT sigue siendo de OpenAI). Estas demandas podrían se multimillonarias, por ello las editoriales deben curarse en salud.

      1. Eso es falso: como usuario, tienes la propiedad sobre el contenido creado por el modelo a través de tus interacciones con él. OpenAI reconoce que los usuarios son responsables de lo que crean utilizando su API y les anima a cumplir las leyes aplicables y a respetar los derechos de propiedad intelectual.

          1. Lo primero, Enhorabuena por tu blog. De ciencia no me atrevería a matizar contigo.

            He ido a la fuente https://openai.com/policies/terms-of-use y creo que OpenAI no se reserva más derecho que a mismos inputs generará mismas salidas. En otras palabras puede que otra persona tenga la misma salida, y tu no le puedes reclamar nada… de derechos de autor

            Pero no te quita tu derecho como usuario a poder usar la salida con todos los derechos, en concreto dice(resumiendo):

            Usted puede proporcionar información de «Entrada»y recibir resultados generados «Salida. Ambos forman el»Contenido». Entre las partes y en la medida permitida por la ley aplicable, usted es propietario de todos los Aportes. Sujeto a su cumplimiento de estos Términos, OpenAI le asigna todos sus derechos, títulos e intereses en y para la Salida. Esto significa que puede utilizar el Contenido para cualquier fin, incluidos fines comerciales como venta o publicación, si cumple con estos Términos.

          2. Santas Pascuas, si es así, entonces OpenAI se limpia las manos si la salida de ChatGPT viola un copyright; si tú lo usas en una obra tuya que, por tanto, también violará dicho copyright, le ley irá contra ti (aunque haya sido ChatGPT el culpable sin que tú lo supieras) y tú pagarás las consecuencias. Debe haber cambiado la política de OpenAI al respecto, pues hace unos meses era diferente.

      2. Bueno, la responsabilidad de OpenAI con los derechos de autor es algo que determinarán las legislaciones de cada país. Pero al menos parece que, por el momento, OpenAI no está interesado en reclamar derechos sobre el contenido generado por ChatGPT. Las revistas que piden a los autores ser transparentes o incluso prohibir el uso de esta tecnología para asistir la escritura creo que están tratando de proteger más la manera que los editores sienten que es la manera «tradicional» de escribir un artículo científico más que violar algún derecho de autor de OpenAI.
        Pienso que esta herramienta ayuda a la gente con inglés limitado. Al menos en mi área, definitivamente les va peor en propuestas y postulaciones debido a la barrera de lenguaje. Siento que esta herramienta es de mucha ayuda gramatical en inglés.

    2. Coincido con tu enfoque. En realidad, estos textos generados parcialmente por AI agregan a los revisores una carga extra, de separar el verdadero contenido de su envoltura convincente.

  2. Yo diría que ya se ha superado el famoso Test de Turing. No digo que eso signifique algo (quizás sea un concepto obsoleto), pero yo diría que se ha superado de un forma en la que Turing creo que estaría de acuerdo. Creo que se ha superado un hito tradicionalmente considerado relevante.

    Saludos.

  3. Me dan ganas de desarrollar una extensión de Chrome que identifique, resalte y elimine este tipo de textos que podría delatarte como usuario de chatGPT y que cuando pegues texto desde el portapapeles (o cuando hagas clic) que compruebe estas «pistas» en el texto pegado o en el contenido de una página web en la que estés 😀

    Por una publicación en una revista de categoría enumere textos que podrían delatarte como usuario de chatGPT, ,por ejemplo «Regenerate response» … 1,2, 3 responda otra vez!

    «Something went wrong», «An error occurred», «oops, an error occurred”…

    Lo que no tengo claro es si esto sería bueno o malo para la humanidad hahaha.

  4. Podría ser un buen tema a tratar, como queda en pleno 2023 un test fiable de Turing 2.0 .

    No creo que A.Turing se pudiera imaginar la potencia de cálculo y el desarrollo «charlatán» de una herramienta, que con los filtros adecuados «es» una persona indetectable. Los postulados en ciencia deben ir evolucionando y creo que cualquier herramienta basada en IA, podría ser detectable hoy por otra herramienta PILLA-GPT, pero que en la siguiente generacón volvería a ser indetectable, y así sucesivamente. O téoricamente ¿se puede pensar en un test infalible y perdurable en el tiempo?

    Gracias por tu tiempo

  5. Como cardiólogo aficionado a la física me atrevo por una vez a escribir en este foro. Chat-GPT y similares son increíbles a la hora de escribir en un inglés académico que excede incluso las habilidades de un nativo. Así se reconoce en un reciente editorial de nuestro cardiólogo más eminente en JACC (Valentín Fuster), una de las revistas más importantes en mi campo (10.1016/j.jacc.2023.07.006). Es inevitable, no solo eso, es deseable, que se traduzca/reescriba un paper («paraphrasing») con un sistema de AI: es rápido y ahorra costos. Otra cosa bien distinta es la generación de contenidos. El tema del «copy right» debe esclarecerse, sin duda. Un saludo y gracias por este imperdible canal de información.

Deja un comentario