ChatGPT ha impresionado a millones con su capacidad para unir oraciones coherentes, a veces incluso precisas, notas publicitarias, guiones y más. Para escribir como un ser humano, el bot de IA fue entrenado con algoritmos de aprendizaje automático en un catálogo masivo de material extraído de la web. Pero el desarrollo de ChatGPT no fue completamente automatizado: se requirió trabajo humano para evitar que ChatGPT cayera en la misma trampa que su predecesor GPT-3, que era capaz de hacer comentarios inapropiados, a veces incluso racistas. (se abre en una pestaña nueva)comentarios.
Según una investigación reciente de Time (se abre en una pestaña nueva)el creador de ChatGPT, OpenAI, subcontrató esta desagradable tarea de procesamiento de datos a los trabajadores de Kenia, muchos de los cuales, según se informa, ganan menos de $ 2 por hora.
ChatGPT está entrenado en conjuntos de datos de un tamaño tan inmenso que no se pueden seleccionar a mano, al igual que las herramientas de generación de imágenes como DALL-E (también operada por OpenAI), Stable Diffusion y Midjourney. Sin capacitación, ChatGPT no funcionaría en absoluto, pero no todo el texto que puede encontrar en Internet conduce al tipo de comentarios que desea que haga su bot de IA.
El trabajo subcontratado implicó etiquetar ejemplos del tipo de texto ofensivo que podría aparecer en el material de capacitación. Luego, una colección de estas muestras de texto etiquetado se introdujo en otra IA, entrenándola para detectar y eliminar texto ofensivo similar de las respuestas de ChatGPT a los usuarios.
Entrenar a la IA para evitar lenguaje y temas inapropiados mantiene ChatGPT más limpio y hace que sea más difícil de usar para producir contenido perturbador. Pero en este esfuerzo por mejorar el bot, OpenAI expuso a los trabajadores mal pagados en Kenia a algunos de los peores materiales en la web.
«Para obtener esas etiquetas, OpenAI envió decenas de miles de fragmentos de texto a una empresa de subcontratación en Kenia, a partir de noviembre de 2021», informa Time. «Gran parte de ese texto parecía haber sido sacado de los rincones más oscuros de Internet. Parte de él describía situaciones con detalles gráficos como abuso sexual infantil, bestialidad, asesinato, suicidio, tortura, autolesiones e incesto».
El informe de Time dice que un trabajador sufría de visiones recurrentes como resultado del contenido que encontraba en el trabajo. Los cuatro trabajadores con los que habló Time dijeron que estaban «mentalmente marcados por el trabajo».
Según los informes, se emplearon alrededor de 36 trabajadores para llevar a cabo la tarea en nombre de OpenAI, cada uno de los cuales esperaba «leer y etiquetar entre 150 y 250 pasajes de texto por turno de nueve horas».
La empresa responsable del trabajo de subcontratación se llama Sama, una empresa con sede en San Francisco con trabajadores en Kenia, Uganda e India. Time informa que OpenAI firmó tres contratos para el trabajo de etiquetado a fines de 2021, por un valor total de alrededor de $ 200,000.
Sama dice que sus empleados tuvieron acceso a sesiones individuales y grupales con terapeutas profesionales de salud mental, accesibles en cualquier momento. Sin embargo, los trabajadores con los que habló Time dicen que solo tenían disponibles sesiones grupales.
«Nuestra misión es garantizar que la inteligencia artificial general beneficie a toda la humanidad, y trabajamos arduamente para construir sistemas de IA seguros y útiles que limiten el sesgo y el contenido dañino», dijo un portavoz de OpenAI a Time sobre el trabajo de procesamiento de datos subcontratado. «Clasificación y filtrado nocivos [text and images] es un paso necesario para minimizar la cantidad de contenido violento y sexual incluido en los datos de entrenamiento y crear herramientas que puedan detectar contenido dañino».
Según Time, la naturaleza del trabajo de Sama para OpenAI dio un giro diferente en febrero de 2022 cuando comenzó a recopilar «imágenes sexuales y violentas», algunas de las cuales se considerarían ilegales en los EE. UU. OpenAI dijo que etiquetar imágenes dañinas era «un paso necesario» para hacer que sus herramientas fueran seguras, pero que nunca tuvo la intención de que Sama recopilara la categoría más extrema de imágenes y que esto fue una falta de comunicación.
Sama finalmente rescindió su contrato con OpenAI antes de tiempo. El informe sugiere que el equipo de Sama expresó su preocupación por el contenido de las imágenes, lo que eventualmente llevó al colapso del acuerdo de las dos compañías. Posteriormente, algunos de los trabajadores de Sama fueron trasladados a contratos con salarios más bajos o sus puestos fueron rescindidos por completo. El informe de tiempo completo (se abre en una pestaña nueva) entra en muchos más detalles sobre la relación de OpenAI con Sama.
OpenAI actualmente está valorado en miles de millones de dólares. Según se informa, Microsoft busca invertir más dinero en la empresa de IA, a pesar de sus propios despidos masivos recientes, y ha anunciado planes para integrar las tecnologías OpenAI en sus servicios.
El trabajo de moderación ha implicado durante mucho tiempo cierto grado de sufrimiento humano: un informe de 2019 (se abre en una pestaña nueva) sobre el bienestar mental de los empleados de los equipos de moderación utilizados por Facebook describieron síntomas de trauma duraderos como resultado del trabajo.
Las necesidades de etiquetado de OpenAI también son una faceta de una crisis ética más grande que crece en el centro de la investigación de IA: el problema de qué usar como material de capacitación. Las máquinas no pueden aprender a comportarse como humanos sin material creado por humanos, pero no todo el mundo quiere que su trabajo se alimente a un algoritmo, y el año pasado los artistas comenzaron a etiquetar su trabajo como «sin IA» en un intento de evitar que las empresas recopilen datos de capacitación. para generadores de imágenes. Ahora aquí está el problema inverso: material que los fabricantes de bots no quieren influir en su IA. Nuevamente, la tarea de criar bots de IA respetuosos se reduce a las personas, en este caso, trabajadores pagados para leer el contenido más perturbador de la web.