raspando – Magazine Office

Editor: Los robots de la tienda GPT de OpenAI están raspando ilegalmente nuestros libros de texto

John — Sat, 06 Apr 2024 19:06:20 +0000

Durante los últimos meses, Morten Blichfeldt Andersen ha pasado muchas horas recorriendo la tienda GPT de OpenAI. Desde su lanzamiento en enero, el mercado de bots personalizados se ha llenado con una gran cantidad de herramientas de inteligencia artificial útiles y, a veces, extravagantes. Los generadores de dibujos animados giran Neoyorquino–Ilustraciones de estilo e imágenes fijas de anime vívidas. Los asistentes de programación y escritura ofrecen atajos para elaborar código y prosa. También hay un robot de análisis de color, un identificador de araña y un entrenador de citas llamado RizzGPT. Sin embargo, Blichfeldt Andersen sólo está buscando un tipo muy específico de bot: aquellos construidos sin permiso a partir de libros de texto protegidos por derechos de autor de su empleador.

Blichfeldt Andersen es director editorial de Praxis, un proveedor danés de libros de texto. La empresa ha adoptado la IA y ha creado sus propios chatbots personalizados. Pero actualmente está jugando al golpe al topo en la tienda GPT, y Blichfeldt Andersen es el hombre que sostiene el mazo.

«He buscado personalmente infracciones y las he denunciado», afirma Blichfeldt Andersen. «Siguen apareciendo». Sospecha que los culpables son principalmente jóvenes que suben material de libros de texto para crear bots personalizados para compartir con sus compañeros de clase, y que ha descubierto sólo una pequeña fracción de los bots infractores en la Tienda GPT. “La punta del iceberg”, dice Blichfeldt Andersen.

Es fácil encontrar bots en la Tienda GPT cuyas descripciones sugieren que podrían estar aprovechando contenido protegido por derechos de autor de alguna manera, como señaló Techcrunch en un artículo reciente que afirma que la tienda de OpenAI estaba invadida por «spam». El uso de material protegido por derechos de autor sin permiso está permitido en algunos contextos, pero en otros los titulares de derechos pueden emprender acciones legales. WIRED encontró un GPT llamado Westeros Writer que afirma «escribir como George RR Martin», el creador de Game of Thrones. Otro, Voice of Atwood, pretende imitar a la escritora Margaret Atwood. Otro más, Write Like Stephen, pretende emular a Stephen King.

Cuando WIRED intentó engañar al robot King para que revelara el «mensaje del sistema» que ajusta sus respuestas, el resultado sugirió que tenía acceso a las memorias de King. Sobre la escritura. Write Like Stephen pudo reproducir pasajes del libro palabra por palabra a pedido, incluso observando de qué página provenía el material. (WIRED no pudo ponerse en contacto con el desarrollador del bot porque no proporcionó una dirección de correo electrónico, un número de teléfono o un perfil social externo).

La portavoz de OpenAI, Kayla Wood, dice que responde a las solicitudes de eliminación de GPT realizadas con contenido protegido por derechos de autor, pero se negó a responder las preguntas de WIRED sobre la frecuencia con la que cumple con dichas solicitudes. También dice que la empresa busca de forma proactiva GPT problemáticos. «Utilizamos una combinación de sistemas automatizados, revisión humana e informes de usuarios para encontrar y evaluar GPT que potencialmente violen nuestras políticas, incluido el uso de contenido de terceros sin el permiso necesario», dice Wood.

Nuevas disputas

El problema de derechos de autor de la tienda GPT podría sumarse a los dolores de cabeza legales existentes de OpenAI. La compañía se enfrenta a una serie de demandas de alto perfil que alegan infracción de derechos de autor, incluida una presentada por The New York Times y varias presentadas por diferentes grupos de autores de ficción y no ficción, incluidos grandes nombres como George RR Martin.

Los chatbots que se ofrecen en la tienda GPT de OpenAI se basan en la misma tecnología que su propio ChatGPT, pero son creados por desarrolladores externos para funciones específicas. Para adaptar su bot, un desarrollador puede cargar información adicional que puede aprovechar para aumentar el conocimiento integrado en la tecnología de OpenAI. El proceso de consultar esta información adicional para responder a las consultas de una persona se llama generación de recuperación aumentada o RAG. Blichfeldt Andersen está convencido de que los archivos RAG detrás de los bots en la tienda GPT son un semillero de materiales protegidos por derechos de autor cargados sin permiso.

Source link-49

Kim Kardashian asada por los piqueteros de WGA después de twittear desde el set de ‘American Horror Story’: «¡Sigue raspando, reina!»

John — Sat, 24 Jun 2023 11:41:29 +0000

Tal vez se abstenga de twittear en el set mientras ocurre una huelga, Kim Kardashian.

El viernes, la superestrella del programa de telerrealidad decidió comunicarse con sus 74,9 millones de seguidores al escribir: “Estoy en el set de AHS y tenemos algo de tiempo entre programas. ¿Qué están haciendo todos ustedes? Kardashian protagoniza la temporada 12 de Historia de horror americana — una de varias producciones de Ryan Murphy que han permanecido en producción durante la huelga de WGA.

En lugar de recibir las consultas habituales sobre sus Skims, su familia y su estado de noviazgo, los escritores sorprendentes le respondieron de inmediato, muchos de ellos.

“Piquetes, gracias por preguntar”, escribió un escritor.

“No ser un esquirol”, dijo otro.

«¿Puedes publicar una linda selfie con la hoja de llamadas (horario avanzado frente a la cámara)?» agregó un capitán de ataque.

“Kim, esta es una hermosa oportunidad para mostrar algo de solidaridad y decirnos si alguien está haciendo modificaciones de guiones en el sitio”, publicó uno. Otro simplemente tuiteó: “Necesitas obtener un reembolso por ese título de abogado y despedir a todas las personas que te dijeron que era una buena idea twittear esto”.

Kardashian anunció a través de Instagram en abril que aparecería en la nueva temporada que se basará en la novela de suspenso de Danielle Valentine. Condición delicada. Saldrá en agosto.

Aquí hay más de ella, ejem, fanáticos (para su crédito, dejó todo el hilo porque, bueno, todavía tiene 74.8 millones de seguidores que quieren saber sobre sus Skims, su familia y su estado de citas).

Huelga en apoyo a nuestro sindicato. Gracias por cruzar nuestra línea.

— Jorge A. Reyes (@JorgeCoolReyes) 23 de junio de 2023

Lograr que muchos escritores de WGA se dirijan allí y hagan piquetes.

—Glenn Farrington (@HaHaScribe) 23 de junio de 2023

¿Va a abogar por los escritores en huelga mientras trabaja en SU programa, señora? Esta es una oportunidad de usar su privilegio para una buena causa

— Meg (@sassybibrarian) 23 de junio de 2023

escucho a fran drescher divagar sobre un contrato justo para artistas mientras hago gestos de masturbación debajo de la mesa y cuento los segundos hasta que pueda almorzar en el patio de comidas sherman oaks galleria

—Carol Lombardini (@ItsMeCarolAMPTP) 23 de junio de 2023

Leer la habitación???

— John Levenstein (@johnlevenstein) 23 de junio de 2023

Oh, solo estoy buscando otro trabajo (después de más de 20 años de actuación profesional y cine) debido a la codicia corporativa, lo que resulta en una #WGAstrike para luchar por salarios justos para la mayoría de la comunidad del entretenimiento.

nos vemos en el #SagAftra líneas de huelga?
Sí, probablemente no.

— Lisa Catara (@lisa_catara) 23 de junio de 2023

Me encanta el terror Kim, ¿te gustaría unirte a nosotros en los piquetes? Tanto SAG como WGA están disponibles. Mujeres realmente grandiosas como Annette Bening, Kerry Washington y Hannah Waddingham han estado con nosotros. Estoy seguro de que verías a los escritores de AHS también. ¡Eres bienvenido a unirte a nosotros!

— Dani Fernández (@msdanifernandez) 23 de junio de 2023

¿Se pregunta si las corporaciones gigantes usarán Ai para reemplazar primero a los abogados, actores o estrellas de la realidad? ¿Qué opinas?

— Steven Martini (@stevenmartini) 23 de junio de 2023

¿Por qué no apoyas la huelga de escritores?

—Paul Myers (@pulmyears) 23 de junio de 2023

Bueno, Kimmy, los escritores de programas como el tuyo están en huelga e intentan que los financistas de programas como el tuyo tengan una conversación.

— John Turman (@theTurman) 23 de junio de 2023

Pensaría que estaría bastante ocupado tratando de encontrar formas de seguir cruzando nuestras líneas de piquete. Pero así soy yo, mejor amiga

– ashley sims (@ashsims) 23 de junio de 2023

Caminar en línea de huelga con mis compañeros escritores para conseguir un trato justo. Asegúrate de mencionarlo cuando entres al set para leer las palabras que un escritor escribió para que las digas.

— Cary Okmin (@eekman) 23 de junio de 2023

Estoy en huelga, sirviendo como capitán de huelga de WGA y coordinador de lotes en los estudios de Amazon, donde hoy llevamos a cabo una manifestación por el derecho al aborto. Me alejé de mi trabajo hace 53 días para luchar por salarios justos y equitativos, y ahora hago piquetes todos los días a un ritmo acelerado bajo el sol.

— Rachel Lewis – Capitán WGA (@eddie_rachel) 23 de junio de 2023

¡Hola! Tal vez… ¿alguna vez has pensado en no cruzar la línea de piquete y mostrar solidaridad con los escritores… ya sabes, la gente talentosa que tanto necesitas?

— Sí, Yup (@YupYdown) 23 de junio de 2023

Source link-18

Yandex atrapado raspando el código SEO de Google

John — Wed, 01 Feb 2023 01:35:41 +0000

Como TechRadar Pro reportado a principios de enero de 2023, un ex Yandex empleado con un motivo «político» supuestamente filtró un amplio repositorio de código fuente para muchos de los productos del portal web, lo que podría arrojar luz sobre el oscuro arte de optimización de motores de búsqueda.

BleepingEquipo (se abre en una pestaña nueva) informa que el empleado filtró fuentes de git por un total de 44,7 GB de archivos, que contenían «todo» el código fuente de Yandex, excepto sus reglas antispam, que se obtuvieron en julio de 2022.

El código fuente sin procesar no será de interés para todos, Tierra del motor de búsqueda (se abre en una pestaña nueva)El informe de que se han descubierto 17.854 factores de clasificación de búsqueda como parte de la filtración debería ser de interés para cualquier persona, empresa o publicación que desee ver sus páginas clasificadas en los primeros puestos de los motores de búsqueda.

Yandex filtra información de SEO

A lista parcial de factores clasificados por el motor de búsqueda Yandex de un archivo en el código base, compartido por el CEO de la consultora SEO MOG Media Martin MacDonald, arroja algo de luz sobre los aspectos de la copia a los que Yandex aplica peso.

Por Ruso Buscar noticias (se abre en una pestaña nueva)estos incluyen PageRank y varios aspectos de los enlaces, como la antigüedad y la relevancia, la relevancia percibida de la copia, la confiabilidad del host y las preferencias innatas hacia sitios específicos con autoridad percibida, como Wikipedia.

Una inmersión más profunda, más larga y más técnica por Tierra del motor de búsqueda (se abre en una pestaña nueva) también muestra que esta prioridad también incluye una «NOTICIAS_AGENCY_RATING», lo que permite que el motor de búsqueda de Yandex muestre preferencia por ciertas organizaciones de noticias.

Otros incluyen la cantidad de visitantes únicos, los porcentajes de tráfico orgánico y las clasificaciones promedio de dominio en todas las consultas.

Sin embargo, es quizás melodramático, o un poco desolador, que MacDonald lo describa como “lo más interesante que ha sucedido en SEO en años”.

Si bien el código base filtrado ciertamente ofrece una gran cantidad de información, vale la pena señalar que muchos sitios web buscarán una buena clasificación en Google sobre Yandex, simplemente porque el primero es mucho más conocido.

Ambas compañías han compartido ingenieros web a lo largo de los años, Yandex usa muchas de las tecnologías de código abierto de Google, como TensorFlow y BERT, y las referencias a los datos de Google aparecen en la base de código filtrada.

Sin embargo, la inmersión profunda de Search Engine Land argumenta que la fuga de Yandex puede brindar una visión general de la anatomía de un motor de búsqueda moderno, pero, según Russian Search News, muchos de los factores de búsqueda de clasificación filtrados de Yandex no se utilizan o se consideran oficialmente depreciados.

Incluso la inmersión técnica profunda admite que muchos de los aspectos conocidos de Google (el motor de búsqueda), como sus sistemas de rastreo e índice, difieren de los de Yandex.

Todo esto, combinado con la antigüedad del código base filtrado, hace que no quede claro cómo les irá a las suposiciones sobre cómo Yandex y Google pueden clasificar las páginas.

El nuevo robot de Google aprendió a tomar pedidos raspando la Web

John — Tue, 16 Aug 2022 21:11:44 +0000

A fines de la semana pasada, El científico investigador de Google, Fei Xia, se sentó en el centro de una luminosa cocina de planta abierta y escribió un comando en una computadora portátil conectada a un robot con ruedas y un solo brazo que se asemejaba a una gran lámpara de pie. “Tengo hambre”, escribió. El robot se acercó rápidamente a una encimera cercana, recogió con cautela una bolsa de chips multigrano con una gran pinza de plástico y se acercó a Xia para ofrecerle un refrigerio.

Lo más impresionante de esa demostración, realizada en el laboratorio de robótica de Google en Mountain View, California, fue que ningún codificador humano había programado el robot para saber qué hacer en respuesta a la orden de Xia. Su software de control había aprendido a traducir una frase hablada en una secuencia de acciones físicas utilizando millones de páginas de texto extraídas de la web.

Eso significa que una persona no tiene que usar una redacción específica aprobada previamente para emitir comandos, como puede ser necesario con asistentes virtuales como Alexa o Siri. Dile al robot «Estoy sediento», y debería intentar encontrarte algo para beber; dile «Vaya, acabo de derramar mi bebida», y debería volver con una esponja.

Cortesía de Google

“Para lidiar con la diversidad del mundo real, los robots deben poder adaptarse y aprender de sus experiencias”, dijo Karol Hausman, científica investigadora sénior de Google, durante la demostración, que también incluyó al robot trayendo una esponja. para limpiar un derrame. Para interactuar con los humanos, las máquinas deben aprender a comprender cómo se pueden juntar las palabras en una multitud de formas para generar diferentes significados. “Depende del robot entender todas las pequeñas sutilezas y complejidades del lenguaje”, dijo Hausman.

La demostración de Google fue un paso hacia el objetivo de larga data de crear robots capaces de interactuar con humanos en entornos complejos. En los últimos años, los investigadores han descubierto que introducir grandes cantidades de texto extraído de libros o de la web en grandes modelos de aprendizaje automático puede generar programas con impresionantes habilidades lingüísticas, incluido el generador de texto GPT-3 de OpenAI. Al digerir las muchas formas de escribir en línea, el software puede adquirir la capacidad de resumir o responder preguntas sobre el texto, generar artículos coherentes sobre un tema determinado o incluso mantener conversaciones convincentes.

Google y otras empresas de Big Tech están haciendo un amplio uso de estos grandes modelos de lenguaje para la búsqueda y la publicidad. Varias empresas ofrecen la tecnología a través de API en la nube, y han surgido nuevos servicios que aplican capacidades de lenguaje de IA a tareas como generar código o escribir textos publicitarios. El ingeniero de Google, Blake Lemoine, fue despedido recientemente después de advertir públicamente que un chatbot impulsado por la tecnología, llamado LaMDA, podría ser inteligente. Un vicepresidente de Google que sigue empleado en la empresa escribió en los Economista que chatear con el bot se sentía como «hablar con algo inteligente».

A pesar de esos avances, los programas de IA todavía son propensos a confundirse o regurgitar galimatías. Los modelos de lenguaje entrenados con texto web también carecen de una comprensión de la verdad y, a menudo, reproducen sesgos o lenguaje odioso que se encuentra en sus datos de entrenamiento, lo que sugiere que se puede requerir una ingeniería cuidadosa para guiar de manera confiable a un robot sin que se vuelva loco.

El robot demostrado por Hausman estaba impulsado por el modelo de lenguaje más poderoso que Google ha anunciado hasta ahora, conocido como PaLM. Es capaz de muchos trucos, incluyendo explicar, en lenguaje natural, cómo llega a una conclusión particular al responder una pregunta. El mismo enfoque se utiliza para generar una secuencia de pasos que el robot ejecutará para realizar una tarea determinada.

Source link-46