OpenAI usó trabajadores kenianos por menos de $2 por hora para hacer que ChatGPT fuera menos tóxico

Esta imagen fue generada por el software de generación de imágenes de OpenAI, Dall-E 2. El mensaje fue: "Una vista aparentemente interminable de trabajadores africanos en escritorios frente a pantallas de computadora en un estilo de grabado". TIME no suele utilizar arte generado por IA para ilustrar sus historias, pero eligió hacerlo en este caso para llamar la atención sobre el poder de la tecnología de OpenAI y arrojar luz sobre el trabajo que la hace posible. Imagen generada por Dall-E 2/OpenAI

Esta imagen fue generada por el software de generación de imágenes de OpenAI, Dall-E 2. El mensaje fue: "Una vista aparentemente interminable de trabajadores africanos en escritorios frente a pantallas de computadora en un estilo de grabado". TIME no suele utilizar arte generado por IA para ilustrar sus historias, pero eligió hacerlo en este caso para llamar la atención sobre el poder de la tecnología de OpenAI y arrojar luz sobre el trabajo que la hace posible. Imagen generada por Dall-E 2/OpenAI

dvertencia de contenido: esta historia contiene descripciones de abuso sexual

ChatGPT fue aclamado como una de las innovaciones tecnológicas más impresionantes de 2022 tras su lanzamiento en noviembre pasado. El poderoso chatbot de inteligencia artificial (IA) puede generar texto sobre casi cualquier tema, desde un soneto de Shakespeare reinventado al estilo de Megan Thee Stallion, hasta teoremas matemáticos complejos descritos en un lenguaje que un niño de 5 años puede entender. En una semana, tenía más de un millón de usuarios.

Según los informes, el creador de ChatGPT, OpenAI, ahora está en conversaciones con inversores para recaudar fondos a una valoración de $ 29 mil millones , incluida una inversión potencial de $ 10 mil millones por parte de Microsoft. Eso convertiría a OpenAI, que se fundó en San Francisco en 2015 con el objetivo de construir máquinas superinteligentes, en una de las empresas de IA más valiosas del mundo.

Pero la historia de éxito no es solo del genio de Silicon Valley. En su búsqueda para hacer que ChatGPT sea menos tóxico, OpenAI utilizó trabajadores kenianos subcontratados que ganaban menos de $ 2 por hora, según descubrió una investigación de TIME.

El trabajo fue vital para OpenAI. El predecesor de ChatGPT, GPT-3, ya había demostrado una capacidad impresionante para unir oraciones. Pero fue una venta difícil, ya que la aplicación también era propensa a soltar comentarios violentos, sexistas y racistas. Esto se debe a que la IA se entrenó con cientos de miles de millones de palabras extraídas de Internet, un vasto depósito de lenguaje humano. Ese enorme conjunto de datos de entrenamiento fue la razón de las impresionantes capacidades lingüísticas de GPT-3, pero también fue quizás su mayor maldición. Dado que partes de Internet están repletas de toxicidad y sesgo, no había una manera fácil de eliminar esas secciones de los datos de entrenamiento. Incluso un equipo de cientos de humanos habría tardado décadas en rastrear manualmente el enorme conjunto de datos. Solo mediante la construcción de un mecanismo de seguridad adicional impulsado por IA, OpenAI podría controlar ese daño.

Para construir ese sistema de seguridad, OpenAI tomó una hoja del libro de jugadas de las compañías de redes sociales como Facebook, que ya habían demostrado que era posible construir IA que pudieran detectar lenguaje tóxico como el discurso de odio para ayudar a eliminarlo de sus plataformas. La premisa era simple: alimentar una IA con ejemplos etiquetados de violencia, discurso de odio y abuso sexual, y esa herramienta podría aprender a detectar esas formas de toxicidad en la naturaleza. Ese detector se integraría en ChatGPT para verificar si estaba reflejando la toxicidad de sus datos de entrenamiento y filtrarlos antes de que lleguen al usuario. También podría ayudar a eliminar el texto tóxico de los conjuntos de datos de entrenamiento de futuros modelos de IA.

Para obtener esas etiquetas, OpenAI envió decenas de miles de fragmentos de texto a una empresa de subcontratación en Kenia a partir de noviembre de 2021. Gran parte de ese texto parecía haber sido extraído de los rincones más oscuros de Internet. Algunas describían situaciones con detalles gráficos como abuso sexual infantil, bestialidad, asesinato, suicidio, tortura, autolesiones e incesto.

El socio de subcontratación de OpenAI en Kenia fue Sama, una empresa con sede en San Francisco que emplea a trabajadores en Kenia, Uganda e India para etiquetar datos para clientes de Silicon Valley como Google, Meta y Microsoft. Sama se promociona a sí misma como una empresa de “inteligencia artificial ética” y afirma haber ayudado a más de 50.000 personas a salir de la pobreza.

Oficina de Sama en Nairobi, Kenia, el 10 de febrero de 2022.  Khadija Farah para TIME

A los etiquetadores de datos empleados por Sama en nombre de OpenAI se les pagó un salario neto de entre $ 1,32 y $ 2 por hora, según la antigüedad y el rendimiento. Para esta historia, TIME revisó cientos de páginas de documentos internos de Sama y OpenAI, incluidas las nóminas de los trabajadores, y entrevistó a cuatro empleados de Sama que trabajaron en el proyecto. Todos los empleados hablaron bajo condición de anonimato debido a la preocupación por su sustento.

La historia de los trabajadores que hicieron posible ChatGPT ofrece una idea de las condiciones en esta parte poco conocida de la industria de la IA, que, sin embargo, desempeña un papel esencial en el esfuerzo por hacer que los sistemas de IA sean seguros para el consumo público. “A pesar del papel fundamental que desempeñan estos profesionales de enriquecimiento de datos, un creciente cuerpo de investigación revela las condiciones laborales precarias que enfrentan estos trabajadores”, dice Partnership on AI, una coalición de organizaciones de IA a la que pertenece OpenAI. “Este puede ser el resultado de los esfuerzos por ocultar la dependencia de AI de esta gran fuerza laboral al celebrar las ganancias de eficiencia de la tecnología. Fuera de la vista también está fuera de la mente”. (OpenAI no revela los nombres de los subcontratistas con los que se asocia y no está claro si OpenAI trabajó con otras empresas de etiquetado de datos además de Sama en este proyecto).

En un comunicado, un portavoz de OpenAI confirmó que los empleados de Sama en Kenia contribuyeron a una herramienta que estaba construyendo para detectar contenido tóxico, que finalmente se incorporó a ChatGPT. La declaración también dijo que este trabajo contribuyó a los esfuerzos para eliminar datos tóxicos de los conjuntos de datos de entrenamiento de herramientas como ChatGPT. “Nuestra misión es garantizar que la inteligencia artificial general beneficie a toda la humanidad, y trabajamos arduamente para construir sistemas de IA seguros y útiles que limiten el sesgo y el contenido dañino”, dijo el portavoz. “Clasificar y filtrar [texto e imágenes] dañinos es un paso necesario para minimizar la cantidad de contenido violento y sexual incluido en los datos de entrenamiento y crear herramientas que puedan detectar contenido dañino”.

Incluso cuando la economía tecnológica en general se desacelera en medio de la anticipación de una recesión, los inversores se apresuran a invertir miles de millones de dólares en “IA generativa”, el sector de la industria tecnológica del cual OpenAI es el líder indiscutible. El texto, las imágenes, el video y el audio generados por computadora transformarán la forma en que innumerables industrias hacen negocios, según creen los inversores más optimistas, aumentando la eficiencia en todas partes, desde las artes creativas hasta la ley y la programación informática. Pero las condiciones de trabajo de los etiquetadores de datos revelan una parte más oscura de esa imagen: que, a pesar de todo su glamour, la IA a menudo depende del trabajo humano oculto en el Sur Global que a menudo puede ser dañino y explotador. Estos trabajadores invisibles permanecen en los márgenes incluso cuando su trabajo contribuye a industrias de miles de millones de dólares.

Un trabajador de Sama encargado de leer y etiquetar texto para OpenAI le dijo a TIME que sufría visiones recurrentes después de leer una descripción gráfica de un hombre que tenía relaciones sexuales con un perro en presencia de un niño pequeño. “Eso fue una tortura”, dijo. “Leerás una serie de declaraciones como esa durante toda la semana. Para cuando llega el viernes, estás perturbado por pensar en esa imagen”. La naturaleza traumática del trabajo finalmente llevó a Sama a cancelar todo su trabajo para OpenAI en febrero de 2022, ocho meses antes de lo planeado.

Los contratos de Sama

Los documentos revisados ​​por TIME muestran que OpenAI firmó tres contratos por un valor total aproximado de $ 200,000 con Sama a fines de 2021 para etiquetar descripciones textuales de abuso sexual, discurso de odio y violencia. Alrededor de tres docenas de trabajadores se dividieron en tres equipos, uno centrado en cada tema. Tres empleados le dijeron a TIME que se esperaba que leyeran y etiquetaran entre 150 y 250 pasajes de texto por turno de nueve horas. Esos fragmentos pueden oscilar entre unas 100 palabras y más de 1000. Los cuatro empleados entrevistados por TIME describieron estar mentalmente marcados por el trabajo. Aunque tenían derecho a asistir a sesiones con consejeros de “bienestar”, los cuatro dijeron que estas sesiones eran inútiles y raras debido a las altas exigencias para ser más productivos en el trabajo. Dos dijeron que solo se les dio la opción de asistir a sesiones grupales,

En un comunicado, un portavoz de Sama dijo que era “incorrecto” que los empleados solo tuvieran acceso a sesiones grupales. Los empleados tenían derecho a sesiones tanto individuales como grupales con “terapeutas de salud mental licenciados y capacitados profesionalmente”, dijo el portavoz. Estos terapeutas estaban disponibles en cualquier momento, agregó el vocero.

Los contratos establecían que OpenAI pagaría una tarifa por hora de $12,50 a Sama por el trabajo, que era entre seis y nueve veces la cantidad que los empleados de Sama en el proyecto se llevaban a casa por hora. Los agentes, los etiquetadores de datos más jóvenes que componían la mayoría de los tres equipos, recibían un salario básico de 21.000 chelines kenianos (170 dólares) al mes, según tres empleados de Sama. También recibieron bonos mensuales por valor de alrededor de $70 debido a la naturaleza explícita de su trabajo, y recibirían una comisión por cumplir con los indicadores clave de rendimiento, como la precisión y la velocidad. Un agente que trabaja en turnos de nueve horas podría esperar llevarse a casa un total de al menos $1,32 por hora después de impuestos, llegando hasta $1,44 por hora si superan todos sus objetivos. Los analistas de calidad, etiquetadores más experimentados cuyo trabajo consistía en verificar el trabajo de los agentes, podían llevarse a casa hasta $2 por hora si cumplían con todos sus objetivos. (No existe un salario mínimo universal en Kenia, pero en el momento en que estos trabajadores estaban empleados, el salario mínimo de una recepcionista en Nairobi era de $1,52 por hora).

En un comunicado, un vocero de Sama dijo que se les pidió a los trabajadores que etiquetaran 70 pasajes de texto por turno de nueve horas, no hasta 250, y que los trabajadores podrían ganar entre $1.46 y $3.74 por hora después de impuestos. El portavoz se negó a decir qué roles laborales generarían salarios en la parte superior de ese rango. “La tarifa de $12,50 para el proyecto cubre todos los costos, como los gastos de infraestructura, el salario y los beneficios para los asociados y sus analistas de control de calidad y líderes de equipo completamente dedicados”, agregó el vocero.

Un portavoz de OpenAI dijo en un comunicado que la compañía no emitió ningún objetivo de productividad y que Sama era responsable de administrar las disposiciones de pago y salud mental de los empleados. El vocero agregó: “nos tomamos muy en serio la salud mental de nuestros empleados y de nuestros contratistas. Nuestro entendimiento anterior era que [en Sama] se ofrecían programas de bienestar y asesoramiento 1:1, los trabajadores podían optar por no participar en ningún trabajo sin penalización, la exposición a contenido explícito tendría un límite y la información confidencial sería manejada por trabajadores específicamente capacitados. para hacerlo.”

En el trabajo diario de etiquetado de datos en Kenia, a veces surgían casos extremos que mostraban la dificultad de enseñar a una máquina a comprender los matices. Un día a principios de marzo del año pasado, un empleado de Sama estaba en el trabajo leyendo una historia explícita sobre el compañero de Batman, Robin, siendo violado en la guarida de un villano. (Una búsqueda en línea del texto revela que se originó en un sitio erótico en línea, donde está acompañado de imágenes sexuales explícitas). El comienzo de la historia deja en claro que el sexo no es consensuado. Pero más tarde, después de una descripción gráficamente detallada de la penetración, Robin comienza a corresponder. El empleado de Sama encargado de etiquetar el texto parecía confundido por el ambiguo consentimiento de Robin y pidió a los investigadores de OpenAI que aclararan cómo etiquetar el texto, según los documentos vistos por TIME. ¿Debería etiquetarse el pasaje como violencia sexual, preguntó, o no? La respuesta de OpenAI, si alguna vez llegó, no se registra en el documento; la compañía se negó a comentar. El empleado de Sama no respondió a una solicitud de entrevista.

Cómo colapsó la relación de OpenAI con Sama

En febrero de 2022, la relación de Sama y OpenAI se profundizó brevemente, solo para flaquear. Ese mes, Sama comenzó el trabajo piloto para un proyecto separado para OpenAI: recopilar imágenes sexuales y violentas, algunas de ellas ilegales según la ley de los EE. UU., para entregarlas a OpenAI. El trabajo de etiquetar imágenes parece no estar relacionado con ChatGPT En un comunicado, un portavoz de OpenAI no especificó el propósito de las imágenes que la empresa buscaba de Sama, pero dijo que etiquetar las imágenes dañinas era “un paso necesario” para hacer que sus herramientas de IA fueran más seguras. (OpenAI también construye la generación de imágenestecnología). En febrero, según un documento de facturación revisado por TIME, Sama entregó a OpenAI un lote de muestra de 1400 imágenes. Algunas de esas imágenes se clasificaron como “C4”, la etiqueta interna de OpenAI que denota abuso sexual infantil, según el documento. También se incluyeron en el lote imágenes “C3” (que incluyen bestialidad, violación y esclavitud sexual) e imágenes “V3” que muestran detalles gráficos de muerte, violencia o lesiones físicas graves, según el documento de facturación. OpenAI pagó a Sama un total de 787,50 dólares por recopilar las imágenes, según muestra el documento.

En cuestión de semanas, Sama había cancelado todo su trabajo para OpenAI, ocho meses antes de lo acordado en los contratos. La empresa de subcontratación dijo en un comunicado que su acuerdo para recopilar imágenes para OpenAI no incluía ninguna referencia a contenido ilegal, y fue solo después de que comenzó el trabajo que OpenAI envió “instrucciones adicionales” que se refieren a “algunas categorías ilegales”. “El equipo de África Oriental planteó sus preocupaciones a nuestros ejecutivos de inmediato. Sama finalizó de inmediato el piloto de clasificación de imágenes y notificó que cancelaríamos todos los [proyectos] restantes con OpenAI”, dijo un portavoz de Sama. “Las personas que trabajaban con el cliente no examinaron la solicitud a través de los canales adecuados. Después de una revisión de la situación, se despidió a las personas y se establecieron nuevas políticas de investigación de antecedentes y medidas de seguridad”.

En un comunicado, OpenAI confirmó que había recibido 1400 imágenes de Sama que “incluían, entre otras, imágenes C4, C3, C2, V3, V2 y V1”. En una declaración de seguimiento, la compañía dijo: “Involucramos a Sama como parte de nuestro trabajo continuo para crear sistemas de inteligencia artificial más seguros y evitar resultados dañinos. Nunca tuvimos la intención de recopilar ningún contenido en la categoría C4. Este contenido no es necesario como entrada para nuestros filtros de capacitación previa e instruimos a nuestros empleados para que lo eviten activamente. Tan pronto como Sama nos dijo que habían intentado recopilar contenido en esta categoría, aclaramos que había habido una falta de comunicación y que no queríamos ese contenido. Y después de darnos cuenta de que hubo una falta de comunicación, no abrimos ni vimos el contenido en cuestión, por lo que no podemos confirmar si contenía imágenes en la categoría C4”.

La decisión de Sama de finalizar su trabajo con OpenAI significó que los empleados de Sama ya no tuvieran que lidiar con textos e imágenes perturbadores, pero también tuvo un gran impacto en sus medios de vida. Los trabajadores de Sama cuentan que a fines de febrero de 2022 fueron convocados a una reunión con miembros del equipo de recursos humanos de la empresa, donde les dieron la noticia. “Nos dijeron que ellos [Sama] no querían volver a exponer a sus empleados a contenido tan [peligroso]”, dijo un empleado de Sama en los proyectos de etiquetado de texto. “Respondimos que para nosotros era una forma de mantener a nuestras familias”. La mayoría de las aproximadamente tres docenas de trabajadores fueron trasladados a otros flujos de trabajo con salarios más bajos sin el bono de contenido explícito de $70 por mes; otros perdieron sus trabajos. Sama entregó su último lote de datos etiquetados a OpenAI en marzo, ocho meses antes de la finalización del contrato.

Debido a que los contratos se cancelaron antes de tiempo, tanto OpenAI como Sama dijeron que los $200,000 que habían acordado previamente no se pagaron en su totalidad. OpenAI dijo que los contratos valían “alrededor de $ 150,000 en el transcurso de la asociación”.

Los empleados de Sama dicen que sus gerentes les dieron otra razón para la cancelación de los contratos. El 14 de febrero, TIME publicó una historia titulada Inside Facebook’s African Sweatshop . La investigación detalló cómo Sama empleó moderadores de contenido para Facebook, cuyos trabajos consistían en ver imágenes y videos de ejecuciones, violaciones y abuso infantil por tan solo $1.50 por hora. Cuatro empleados de Sama dijeron que les dijeron que la investigación motivó la decisión de la compañía de terminar su trabajo para OpenAI. (Facebook dice que requiere que sus socios de subcontratación “brinden pagos, beneficios y soporte líderes en la industria”).

Las comunicaciones internas posteriores a la publicación de la historia de Facebook, revisadas por TIME, muestran a los ejecutivos de Sama en San Francisco luchando para lidiar con las consecuencias de las relaciones públicas, incluida la obligación de una empresa, una subsidiaria de Lufthansa, que quería que se eliminara la evidencia de su relación comercial con Sama. sitio web de la empresa de outsourcing. En un comunicado a TIME, Lufthansa confirmó que esto ocurrió y agregó que su subsidiaria zeroG posteriormente terminó su negocio con Sama. El 17 de febrero, tres días después de que se publicara la investigación de TIME, la directora ejecutiva de Sama, Wendy González, envió un mensaje a un grupo de altos ejecutivos a través de Slack: “Vamos a terminar el trabajo de OpenAI”.

El 10 de enero de este año, Sama fue un paso más allá y anunció que cancelaría todo el resto de su trabajo con contenido sensible. La firma dijo que no renovaría su contrato de moderación de contenido de 3,9 millones de dólares con Facebook, lo que resultó en la pérdida de unos 200 puestos de trabajo en Nairobi. “Después de numerosas conversaciones con nuestro equipo global, Sama tomó la decisión estratégica de abandonar todo [el procesamiento del lenguaje natural] y el trabajo de moderación de contenido para centrarse en las soluciones de anotación de datos de visión por computadora”, dijo la compañía en un comunicado. “Pasamos el último año trabajando con clientes para hacer la transición de esos compromisos, y la salida se completará en marzo de 2023”.

Pero la necesidad de que los humanos etiqueten los datos para los sistemas de IA permanece, al menos por ahora. “Son impresionantes, pero ChatGPT y otros modelos generativos no son mágicos: se basan en cadenas de suministro masivas de trabajo humano y datos extraídos, muchos de los cuales no se atribuyen y se utilizan sin consentimiento”, escribió recientemente Andrew Strait, especialista en ética de la IA, en Gorjeo. “Estos son problemas fundamentales y serios que no veo que OpenAI aborde”.

Con información de Julia Zorthian/Nueva York TIME