Imágenes falsas de personas de color no solucionarán el sesgo de la IA


armado con un Creyendo en el potencial generativo de la tecnología, una facción creciente de investigadores y empresas tiene como objetivo resolver el problema del sesgo en la IA mediante la creación de imágenes artificiales de personas de color. Los defensores argumentan que los generadores alimentados por IA pueden rectificar las brechas de diversidad en las bases de datos de imágenes existentes al complementarlas con imágenes sintéticas. Algunos investigadores están utilizando arquitecturas de aprendizaje automático para mapear fotos existentes de personas en nuevas razas para «equilibrar la distribución étnica» de los conjuntos de datos. Otros, como Generated Media y Qoves Lab, están utilizando tecnologías similares para crear retratos completamente nuevos para sus bancos de imágenes, «construyendo… caras de todas las razas y etnias», como dice Qoves Lab, para garantizar un «conjunto de datos faciales verdaderamente justo». Tal como lo ven, estas herramientas resolverán los sesgos de datos al producir diversas imágenes a pedido de manera económica y eficiente.

El problema que estos tecnólogos buscan solucionar es crítico. Las IA están plagadas de defectos, desbloquean teléfonos para la persona equivocada porque no pueden distinguir las caras asiáticas, acusan falsamente a las personas de delitos que no cometieron y confunden a las personas de piel más oscura con gorilas. Estas fallas espectaculares no son anomalías, sino consecuencias inevitables de los datos en los que se entrenan las IA, que en su mayor parte sesgan mucho a los blancos y los hombres, lo que hace que estas herramientas sean instrumentos imprecisos para cualquiera que no encaje en este arquetipo estrecho. En teoría, la solución es sencilla: solo necesitamos cultivar conjuntos de entrenamiento más diversos. Sin embargo, en la práctica, se ha demostrado que es una tarea increíblemente laboriosa gracias a la escala de insumos que requieren dichos sistemas, así como al alcance de las omisiones actuales en los datos (una investigación de IBM, por ejemplo, reveló que seis de ocho destacados los conjuntos de datos faciales estaban compuestos por más del 80 por ciento de rostros de piel más clara). Que se puedan crear diversos conjuntos de datos sin fuentes manuales es, por lo tanto, una posibilidad tentadora.

Sin embargo, a medida que observamos más de cerca las formas en que esta propuesta podría impactar tanto en nuestras herramientas como en nuestra relación con ellas, las largas sombras de esta solución aparentemente conveniente comienzan a tomar forma aterradora.

La visión artificial tiene estado en desarrollo de alguna forma desde mediados del siglo XX. Inicialmente, los investigadores intentaron construir herramientas de arriba hacia abajo, definiendo reglas manualmente («los rostros humanos tienen dos ojos simétricos») para identificar una clase deseada de imágenes. Estas reglas se convertirían en una fórmula computacional, luego se programarían en una computadora para ayudarla a buscar patrones de píxeles que correspondieran a los del objeto descrito. Sin embargo, este enfoque resultó en gran parte infructuoso dada la gran variedad de sujetos, ángulos y condiciones de iluminación que podían constituir una fotografía, así como la dificultad de traducir incluso reglas simples en fórmulas coherentes.

Con el tiempo, un aumento en las imágenes disponibles públicamente hizo posible un proceso más ascendente a través del aprendizaje automático. Con esta metodología, los agregados masivos de datos etiquetados se introducen en un sistema. A través del “aprendizaje supervisado”, el algoritmo toma estos datos y se enseña a sí mismo a discriminar entre las categorías deseadas designadas por los investigadores. Esta técnica es mucho más flexible que el método de arriba hacia abajo, ya que no se basa en reglas que pueden variar según las diferentes condiciones. Al entrenarse en una variedad de entradas, la máquina puede identificar las similitudes relevantes entre las imágenes de una clase dada sin que se le diga explícitamente cuáles son esas similitudes, creando un modelo mucho más adaptable.

Aún así, el método de abajo hacia arriba no es perfecto. En particular, estos sistemas están limitados en gran medida por los datos que se les proporcionan. Como dice el escritor de tecnología Rob Horning, las tecnologías de este tipo “presuponen un sistema cerrado”. Tienen problemas para extrapolar más allá de sus parámetros dados, lo que lleva a un rendimiento limitado cuando se enfrentan a temas en los que no están bien capacitados; las discrepancias en los datos, por ejemplo, llevaron a FaceDetect de Microsoft a tener una tasa de error del 20 por ciento para las mujeres de piel más oscura, mientras que su tasa de error para los hombres blancos rondaba el 0 por ciento. Los efectos dominó de estos sesgos de capacitación en el rendimiento son la razón por la que los especialistas en ética de la tecnología comenzaron a predicar la importancia de la diversidad de conjuntos de datos y por qué las empresas y los investigadores están en una carrera para resolver el problema. Como dice el dicho popular en IA, «basura que entra, basura que sale».

Esta máxima se aplica igualmente a los generadores de imágenes, que también requieren grandes conjuntos de datos para entrenarse en el arte de la representación fotorrealista. La mayoría de los generadores faciales de hoy en día emplean Generative Adversarial Networks (o GAN) como su arquitectura fundamental. En esencia, las GAN funcionan al tener dos redes, un generador y un discriminador, en juego entre sí. Mientras que el Generador produce imágenes a partir de entradas de ruido, un Discriminador intenta separar las imágenes falsas generadas de las imágenes reales proporcionadas por un conjunto de entrenamiento. Con el tiempo, esta «red adversaria» permite que el Generador mejore y cree imágenes que un Discriminador no puede identificar como falsas. Las entradas iniciales sirven como ancla para este proceso. Históricamente, se han requerido decenas de miles de estas imágenes para producir resultados suficientemente realistas, lo que indica la importancia de un conjunto de entrenamiento diverso en el desarrollo adecuado de estas herramientas.



Source link-46