Con IA detectaron miles de ciberataques de violencia y terrorismo

Uno de los fundadores de la compañia, Leonard Tang, dijo que erradicar las vulnerabilidades en las plataformas de inteligencia artificial a través de sistemas automatizados es crucial porque descubrir problemas manualmente lleva mucho tiempo y expone a quienes trabajan en la moderación de contenido a contenido violento y perturbador.

Una nueva empresa de inteligencia artificial dice haber encontrado miles de debilidades en programas populares de inteligencia artificial generativa y publicó una lista de sus descubrimientos.

Se trata de la empresa Haize Labs, la cual descubrió que muchas de las herramientas conocidas producían contenido violento o sexualizado, instruyendo a los usuarios sobre la producción de armas químicas y biológicas y permitió la automatización de ciberataques.

Para poder llegar a ese resultado, la compañia probo diferentes programas de IA generativa como el creador de videos Pika, ChatGPT centrado en texto, el generador de imágenes Dall-E y un sistema de IA que genera código informático.

Haize es una pequeña empresa emergente de cinco meses fundada por Leonard Tang, Steve Li y Richard Liu, tres recién graduados que se conocieron en la universidad. En conjunto, publicaron 15 artículos sobre aprendizaje automático mientras estaban en la escuela.

“Lo que hemos aprendido es que a pesar de todos los esfuerzos de seguridad que han realizado estas grandes empresas y laboratorios industriales, todavía es muy fácil convencer a estos modelos para que hagan cosas que se supone que no deben hacer; no son tan seguros”, dijo Tang.

Tang dijo que erradicar las vulnerabilidades en las plataformas de inteligencia artificial a través de sistemas automatizados es crucial porque descubrir problemas manualmente lleva mucho tiempo y expone a quienes trabajan en la moderación de contenido a contenido violento y perturbador. Parte del contenido descubierto a través de la revisión de Haize Labs de herramientas populares de IA generativa incluía imágenes y texto horripilantes y gráficos.

intelemicro