Dark Web ChatGPT Unleashed: Conoce DarkBERT


Todavía estamos en las primeras etapas del efecto de bola de nieve desatado por el lanzamiento de modelos de lenguaje grande (LLM) como ChatGPT en la naturaleza. Junto con el código abierto de otros modelos GPT (Transformador preentrenado generativo), la cantidad de aplicaciones que emplean IA se está disparando; y como sabemos, el mismo ChatGPT se puede utilizar para crear malware muy avanzado.

A medida que pasa el tiempo, los LLM aplicados solo aumentarán, cada uno especializado en su propia área, capacitado en datos cuidadosamente seleccionados para un propósito específico. Y una de esas aplicaciones acaba de salir, una que fue entrenada con datos de la web oscura. DarkBERT, como lo llamaron sus creadores de Corea del Sur, ha llegado: siga ese enlace para ver el documento de lanzamiento, que brinda una introducción general a la web oscura.

DarkBERT se basa en la arquitectura RoBERTa, un enfoque de IA desarrollado en 2019. Ha experimentado una especie de renacimiento, y los investigadores descubrieron que en realidad tenía más rendimiento que el que se podía extraer de él en 2019. Parece que el modelo estaba muy poco entrenado. cuando se libera, muy por debajo de su máxima eficiencia.

Para entrenar el modelo, los investigadores rastrearon la Dark Web a través del cortafuegos anónimo de la red Tor y luego filtraron los datos sin procesar (aplicando técnicas como deduplicación, equilibrio de categorías y preprocesamiento de datos) para generar una base de datos de la Dark Web. DarkBERT es el resultado de que esa base de datos se utilice para alimentar el modelo de lenguaje grande Roberta, un modelo que puede analizar una nueva pieza de contenido de Dark Web, escrita en sus propios dialectos y mensajes fuertemente codificados, y extraer información útil de ella.

Decir que el inglés es el idioma de negocios de la Dark Web no sería del todo correcto, pero es un brebaje lo suficientemente específico como para que los investigadores crean que un LLM específico tuvo que ser capacitado en él. Al final, tenían razón: los investigadores demostraron que DarkBERT superó a otros grandes modelos de lenguaje, lo que debería permitir a los investigadores de seguridad y a las fuerzas del orden penetrar más profundamente en los recovecos de la web. Ahí es, después de todo, donde está la mayor parte de la acción.

Al igual que con otros LLM, eso no significa que DarkBERT esté terminado, y la capacitación y el ajuste adicionales pueden continuar para mejorar sus resultados. Queda por ver cómo se usará y qué conocimiento se puede obtener.



Source link-41