Atacar la inteligencia artificial: la vulnerabilidad de seguridad de la IA y qué pueden hacer los formuladores de políticas al respecto

Machine Learning and AI to Identify Objects, Image recognition, Suspect Tracking, Speed Limit Radar

Los sistemas de inteligencia artificial pueden ser atacados.

Los métodos que sustentan los sistemas de inteligencia artificial de última generación son sistemáticamente vulnerables a un nuevo tipo de ataque de ciberseguridad llamado “ataque de inteligencia artificial”. Con este ataque, los adversarios pueden manipular estos sistemas para alterar su comportamiento y cumplir un objetivo final malicioso. A medida que los sistemas de inteligencia artificial se integran cada vez más en los componentes críticos de la sociedad, estos ataques de inteligencia artificial representan una vulnerabilidad emergente y sistemática con el potencial de tener efectos significativos en la seguridad del país.

Estos “ataques de IA” son fundamentalmente diferentes de los ciberataques tradicionales.

A diferencia de los ciberataques tradicionales que son causados ​​por “errores” o errores humanos en el código, los ataques de IA están habilitados por limitaciones inherentes en los algoritmos de IA subyacentes que actualmente no se pueden reparar. Además, los ataques de IA amplían fundamentalmente el conjunto de entidades que se pueden utilizar para ejecutar ciberataques. Por primera vez, los objetos físicos ahora se pueden usar para ataques cibernéticos (por ejemplo, un ataque de IA puede transformar una señal de alto en una luz verde a los ojos de un automóvil autónomo simplemente colocando algunos trozos de cinta adhesiva en la señal de alto). ). Los datos también pueden convertirse en armas de nuevas formas utilizando estos ataques, lo que requiere cambios en la forma en que se recopilan, almacenan y utilizan los datos.

Partes críticas de la sociedad ya son vulnerables.

Hay cinco áreas que se ven más afectadas de inmediato por los ataques de inteligencia artificial: los filtros de contenido, las fuerzas armadas, las fuerzas del orden público, las tareas tradicionalmente basadas en humanos que se reemplazan por IA y la sociedad civil. Estas áreas son objetivos atractivos para los ataques y se están volviendo más vulnerables debido a la creciente adopción de inteligencia artificial para tareas críticas.

Este informe propone programas de “Cumplimiento de la seguridad de la IA” para protegerse contra los ataques de la IA.

La política pública que crea programas de “Cumplimiento de la seguridad de la IA” reducirá el riesgo de ataques a los sistemas de IA y reducirá el impacto de los ataques exitosos. Los programas de cumplimiento lograrían esto alentando a las partes interesadas a adoptar un conjunto de mejores prácticas para proteger los sistemas contra ataques de IA, incluida la consideración de riesgos y superficies de ataque al implementar sistemas de IA, la adopción de reformas de TI para dificultar la ejecución de ataques y la creación de planes de respuesta a ataques. Este programa se basa en los programas de cumplimiento existentes en otras industrias, como el cumplimiento de PCI para asegurar las transacciones de pago, y sería implementado por los organismos reguladores apropiados para sus componentes relevantes.

Los reguladores deben exigir el cumplimiento de los usos gubernamentales y de alto riesgo de la IA.

Los reguladores deben exigir el cumplimiento tanto para el uso gubernamental de sistemas de IA como condición previa para vender sistemas de IA al gobierno. En el sector privado, los reguladores deberían hacer que el cumplimiento sea obligatorio para usos de IA de alto riesgo donde los ataques tendrían graves consecuencias sociales, y opcional para usos de menor riesgo a fin de evitar la interrupción de la innovación.

 

Introducción

El terrorista del siglo XXI no necesitará necesariamente bombas, uranio o armas biológicas. Solo necesitará cinta aislante y un buen par de zapatos para caminar. Colocando unos pequeños trozos de cinta discretamente en una señal de alto en una intersección, puede transformar mágicamente la señal de alto en una luz verde a los ojos de un automóvil autónomo. Hecho en una intersección soñolienta, esto causaría un accidente. Hecho en las intersecciones más grandes de las principales áreas metropolitanas, pondría de rodillas al sistema de transporte. Es difícil discutir con ese tipo de retorno de una inversión de $1.50 en cinta.

Este es un estudio de cómo un oscuro problema dentro de la inteligencia artificial, actualmente la preocupación de un pequeño subcampo de otro subcampo de la informática, está en un peligroso curso de colisión con la seguridad económica, militar y social del futuro, y qué puede hacerse al respecto. Los algoritmos de inteligencia artificial a los que se recurre para entregar este futuro tienen un problema: en virtud de la forma en que aprenden, pueden ser atacados y controlados por un adversario. Lo que vemos como una señal de alto ligeramente destrozada, un sistema de inteligencia artificial comprometido lo ve como una luz verde. Llámalo un “ataque de inteligencia artificial” (ataque AI).

Esta vulnerabilidad se debe a las limitaciones inherentes a los métodos de IA de última generación que los dejan expuestos a un conjunto devastador de ataques que son tan insidiosos como peligrosos. Bajo un tipo de ataque, los adversarios pueden obtener el control de un sistema de IA de última generación con una manipulación pequeña pero cuidadosamente elegida, que va desde un trozo de cinta en una señal de alto 1 hasta una pizca de polvo digital invisible para el ser humano . ojo en una imagen digital. 2  Bajo otro, los adversarios pueden envenenar los sistemas de IA, instalando puertas traseras que pueden usarse en el momento y lugar que elijan para destruir el sistema. Ya sea que haga que un automóvil pase una luz roja, engañe a un dron que busca actividad enemiga en una misión de reconocimiento o altere los filtros de contenido para publicar propaganda de reclutamiento de terroristas en las redes sociales, el peligro es grave, generalizado y ya está aquí.

Sin embargo, así como no todas las aplicaciones de IA son “buenas”, no todos los ataques de IA son necesariamente “malos”. A medida que los regímenes autocráticos recurren a la IA como una herramienta para monitorear y controlar a sus poblaciones, los “ataques” de la IA pueden usarse como una medida de protección contra la opresión del gobierno, al igual que las tecnologías como Tor y las VPN.

Independientemente de su uso, los ataques de IA son diferentes de los problemas de ciberseguridad que han dominado los titulares recientes. Estos ataques no son errores en el código que se puedan corregir, son inherentes al corazón de los algoritmos de IA. Como resultado, explotar estas vulnerabilidades de la IA no requiere “hackear” el sistema de destino. De hecho, atacar estos sistemas críticos ni siquiera siempre requiere una computadora. Este es un nuevo conjunto de problemas de seguridad cibernética, y no se puede resolver con los conjuntos de herramientas de política y seguridad cibernética existentes que los gobiernos y las empresas han reunido. En cambio, abordar este problema requerirá nuevos enfoques y soluciones.

Con el tiempo, los investigadores pueden descubrir una panacea técnica para algunos de estos problemas. Pero el tiempo se acabó ayer. Para una tecnología que nació hace una década, la IA ahora se usa como un ingrediente clave en todas las industrias, desde Main Street hasta Wall Street, desde el campo de béisbol hasta el campo de batalla. Y en el momento justo, como con cualquier otro desarrollo tecnológico reciente (Internet, las redes sociales y el Internet de las cosas), en nuestra prisa estamos haciendo la vista gorda a los problemas fundamentales que existen.

Este informe busca proporcionar a los legisladores, políticos, líderes de la industria y la comunidad de seguridad cibernética una comprensión de este problema emergente, identificar qué áreas de la sociedad son las más vulnerables de inmediato y establecer políticas que se pueden adoptar para encontrar seguridad en esta importante nueva era.

El informe se divide en cuatro secciones. Primero, comienza brindando una descripción accesible pero completa de cómo se pueden atacar los sistemas de IA actuales, las formas de estos ataques y una taxonomía para categorizarlos.   

En segundo lugar, el informe identifica las áreas más críticas afectadas por esta nueva clase de vulnerabilidades. Si bien la cantidad de sistemas afectados por esta nueva amenaza solo crecerá a medida que la IA aumente su penetración en el mundo moderno, este informe se enfoca en cinco áreas de alta prioridad que requieren atención inmediata: filtros de contenido, militares, aplicación de la ley, tareas humanas reemplazadas por IA. , y la sociedad civil.

En tercer lugar, el informe contextualiza las vulnerabilidades de la IA dentro del panorama más amplio de la ciberseguridad. Argumenta que los ataques de IA constituyen una nueva vertical de ataques de naturaleza distinta y requieren una respuesta de las vulnerabilidades de seguridad cibernética existentes. Esta sección también analiza el uso de ataques de IA como arma cibernética ofensiva.

En cuarto lugar, el informe propone la idea de programas de “Cumplimiento de la seguridad de la IA” para protegerse contra los ataques de la IA. Estos programas de cumplimiento reducirán el riesgo de ataques a los sistemas de IA y disminuirán el impacto de los ataques exitosos. Lo lograrán alentando a las partes interesadas a adoptar un conjunto de mejores prácticas para proteger los sistemas contra los ataques de IA, incluida la consideración de los riesgos y las superficies de los ataques al implementar sistemas de IA, la adopción de reformas de TI que dificultarán la ejecución de los ataques y la creación de planes de respuesta a los ataques. para mitigar el daño del ataque.

El informe sugiere además que los reguladores deberían exigir el cumplimiento en partes de los sectores público y privado. En el sector público, el cumplimiento debe ser obligatorio para los usos gubernamentales de IA y ser una condición previa para las empresas privadas que venden sistemas de IA al gobierno. En el sector privado, el cumplimiento debe ser obligatorio para las aplicaciones de IA del sector privado de alto riesgo, pero debe ser opcional para los usos de menor riesgo a fin de evitar interrumpir la innovación en este campo que cambia rápidamente.

Esta política mejorará la seguridad de la comunidad, el ejército y la economía frente a los ataques de IA. Pero tanto para los formuladores de políticas como para las partes interesadas, el primer paso hacia la realización de esta seguridad comienza con la comprensión del problema, al que dirigimos nuestra atención ahora.

 

Parte I: Problema Técnico

Comprender el problema a través de una analogía histórica

El general George Patton pudo haber ganado la campaña del Día D para los aliados sin siquiera disparar un tiro. En apoyo de los futuros desembarcos del Día D, Patton se hizo cargo del Primer Grupo de Ejércitos de los Estados Unidos (FUSAG). En lugar de luchar con las armas, la FUSAG luchó con engaños. Para convencer al mando alemán de que el punto de invasión sería Paso de Calais en lugar de Normandía, el FUSAG orquestó un importante despliegue de fuerzas, incluidos cientos de tanques y otros vehículos, directamente al otro lado del Canal de la Mancha.

Estos tanques, sin embargo, no eran lo que parecían. Incapaces de prescindir de los vehículos necesarios para esta demostración de fuerza del esfuerzo de guerra real, los Aliados usaron globos inflables pintados para parecerse a tanques. Aunque más característico de una técnica empleada por Bugs Bunny contra Elmer Fudd que George Patton contra los nazis, funcionó. El reconocimiento alemán fue engañado. Las imágenes captadas por los aviones de la Luftwaffe se interpretaron como una gran acumulación de fuerzas en previsión de una invasión de Pas de Calais, dejando las playas de Normandía poco fortificadas. 3

Dado el acceso al sitio, no esperaríamos que un humano confundiera lo que era esencialmente un globo pintado con una máquina de metal de varias toneladas. Pero el reconocimiento alemán funcionó mediante el reconocimiento de patrones: las formas y marcas que representan tanques y otros activos militares en imágenes. Relegado a la coincidencia de patrones, el reconocimiento alemán fue fácil de engañar con algunas marcas estratégicas colocadas en los globos inflables. Aunque sorprendente, esta es la misma falla que condena a los algoritmos de IA, permitiéndoles ser engañados de maneras similares e incluso más perniciosas.

Para comprender por qué los sistemas de IA son vulnerables a la misma debilidad, debemos examinar brevemente cómo “aprenden” los algoritmos de IA, o más específicamente las técnicas de aprendizaje automático que emplean. Al igual que los oficiales de reconocimiento, los algoritmos de aprendizaje automático que impulsan los sistemas de inteligencia artificial “aprenden” extrayendo patrones de los datos. Estos patrones están vinculados a conceptos de nivel superior relevantes para la tarea en cuestión, como qué objetos están presentes en una imagen. Como ejemplo, considere la tarea de un algoritmo de IA en un automóvil autónomo que aprende a reconocer una señal de alto. Para esta tarea, el algoritmo “aprende” mostrándole un conjunto de datos que contiene cientos o miles de ejemplos de señales de alto y extrayendo patrones de colores y formas que los representan. Cuando más tarde se le encomendó identificar si una señal en particular es una señal de alto, el algoritmo escanea la imagen en busca de los patrones que ha aprendido a asociar con una señal de alto. Si los patrones coinciden, el algoritmo puede indicarle al automóvil que se detenga. Si los patrones coinciden con los de una señal diferente, como un nuevo límite de velocidad más rápido, el algoritmo puede indicar de manera similar que el automóvil acelere.

Así como el FUSAG podría idear de manera experta qué patrones debían pintarse en los globos inflables para engañar a los alemanes, con un tipo de ataque de IA llamado “ataque de entrada”, los adversarios pueden crear patrones de cambios en un objetivo que engañarán al sistema de IA. en cometer un error. Este ataque es posible porque cuando los patrones en el objetivo son inconsistentes con las variaciones vistas en el conjunto de datos, como es el caso cuando un atacante agrega estos patrones inconsistentes a propósito, el sistema puede producir un resultado arbitrario. Sin embargo, a diferencia del ejemplo del tanque, estos patrones o marcas no necesitan ser tan evidentes. Esto se debe a que los algoritmos de IA procesan la información de manera diferente a como lo hacen los humanos. Como resultado, si bien puede haber sido necesario hacer que los globos parecieran tanques para engañar a un humano, para engañar a un sistema de IA,

Estos ataques de entrada son solo un tipo de ataque de IA. Otro, conocido como ataque de envenenamiento, puede impedir que un sistema de IA funcione correctamente en situaciones, o incluso insertar una puerta trasera que luego puede ser explotada por un adversario. Continuando con la analogía, los ataques de envenenamiento equivaldrían a hipnotizar a los analistas alemanes para que cerraran los ojos cada vez que estuvieran a punto de ver información valiosa que pudiera usarse para dañar a los Aliados.

En conjunto, estos ataques tienen las características de una amenaza cibernética grave: son versátiles en su forma, ampliamente aplicables a muchos dominios y difíciles de detectar. Pueden tomar la forma de una mancha o un garabato en un objetivo físico, o estar ocultos dentro del ADN de un sistema de IA. Pueden apuntar a activos y sistemas en el mundo real, como hacer que las señales de alto sean invisibles para los automóviles sin conductor, y en el mundo cibernético, como ocultar la pornografía infantil de los detectores de contenido que buscan detener su propagación. Quizás lo más preocupante es que los ataques de IA pueden ser perniciosos y difíciles de detectar. Los ataques pueden ser completamente invisibles al ojo humano. Por el contrario, pueden ser grandiosos y ocultos a simple vista, hechos para parecer que encajan perfectamente con su entorno.

Pero, ¿qué son exactamente los ataques de IA? ¿Por qué existen? ¿Y cómo se ven? Ahora centramos nuestra atención en comprender la base técnica de estos ataques para responder a estas preguntas.

 

Descripción general de los ataques de inteligencia artificial

Un ataque de inteligencia artificial (ataque de IA) es la manipulación deliberada de un sistema de IA con el objetivo final de provocar un mal funcionamiento. Estos ataques pueden tomar diferentes formas que atacan diferentes debilidades en los algoritmos subyacentes:

  • Ataques de entrada: manipular lo que se alimenta al sistema de IA para alterar la salida del sistema para servir al objetivo del atacante. Debido a que, en esencia, cada sistema de IA es una máquina simple: toma una entrada, realiza algunos cálculos y devuelve una salida, la manipulación de la entrada permite a los atacantes afectar la salida del sistema.
  • Ataques de envenenamiento: corromper el proceso durante el cual se crea el sistema de IA para que el sistema resultante funcione mal de la manera deseada por el atacante. Una forma directa de ejecutar un ataque de envenenamiento es corromper los datos utilizados durante este proceso. Esto se debe a que los métodos de aprendizaje automático de última generación que impulsan la IA funcionan “aprendiendo” cómo realizar una tarea, pero “aprenden” de una fuente y solo de una fuente: los datos. Los datos son su agua, comida, aire y amor verdadero. Envenene los datos, envenene el sistema de IA. Los ataques de envenenamiento también pueden comprometer el proceso de aprendizaje en sí.

Dado que los sistemas de IA se integran en aplicaciones comerciales y militares críticas, estos ataques pueden tener consecuencias graves, incluso de vida o muerte. Los ataques de IA se pueden usar de varias maneras para lograr un objetivo final malicioso:

  • Causar daño: el atacante quiere causar daño haciendo que el sistema de IA no funcione correctamente. Un ejemplo de esto es un ataque para hacer que un vehículo autónomo ignore las señales de alto. Al atacar el sistema de inteligencia artificial para que reconozca incorrectamente una señal de alto como una señal o símbolo diferente, el atacante puede hacer que el vehículo autónomo ignore la señal de alto y choque contra otros vehículos y peatones.
  • Ocultar algo: el atacante quiere evadir la detección por parte de un sistema de IA. Un ejemplo de esto es un ataque para causar un mal funcionamiento de un filtro de contenido encargado de bloquear la publicación de propaganda terrorista en una red social, lo que permite que el material se propague sin trabas.
  • Degradar la fe en un sistema: el atacante quiere que un operador pierda la fe en el sistema de IA, lo que lleva al cierre del sistema. Un ejemplo de esto es un ataque que hace que una alarma de seguridad automatizada clasifique erróneamente los eventos regulares como amenazas de seguridad, lo que desencadena un aluvión de falsas alarmas que pueden hacer que el sistema se desconecte. Por ejemplo, atacar un sistema de seguridad basado en video para clasificar un gato callejero que pasa o un árbol que vuela como una amenaza para la seguridad puede hacer que el sistema de seguridad se desconecte, lo que permite que una verdadera amenaza eluda la detección.

Dado el éxito sin precedentes de la IA durante la última década, sorprende saber que estos ataques son posibles y, más aún, que aún no se han solucionado. Ahora dirigimos nuestra atención a por qué existen estos ataques y por qué es tan difícil prevenirlos.

 

¿Por qué existen los ataques de inteligencia artificial?

Los ataques de IA existen porque existen limitaciones fundamentales en los algoritmos de IA subyacentes que los adversarios pueden explotar para hacer que el sistema falle. A diferencia de los ataques de ciberseguridad tradicionales, estas debilidades no se deben a errores cometidos por programadores o usuarios. Son simplemente deficiencias de los métodos actuales de última generación. Dicho más claramente, los algoritmos que hacen que los sistemas de IA funcionen tan bien son imperfectos, y sus limitaciones sistemáticas crean oportunidades para que los adversarios ataquen. Al menos en el futuro previsible, esto es solo un hecho de la vida matemática.

Para ver por qué este es el caso, necesitamos entender cómo funcionan los algoritmos que sustentan la IA. Muchos sistemas de IA actuales funcionan con aprendizaje automático, 4 un conjunto de técnicas que extraen información de los datos para “aprender” cómo realizar una tarea determinada. Un algoritmo de aprendizaje automático “aprende” de manera análoga a cómo aprenden los humanos. Los humanos aprenden al ver muchos ejemplos de un objeto o concepto en el mundo real y almacenan lo que aprenden en el cerebro para su uso posterior. Los algoritmos de aprendizaje automático “aprenden” al ver muchos ejemplos de un objeto o concepto en un conjunto de datos y almacenan lo aprendido en un modelo para su uso posterior. En muchas, si no en la mayoría, de las aplicaciones de IA basadas en el aprendizaje automático, no se utiliza ningún conocimiento externo u otra magia en este proceso: depende completamente del conjunto de datos y nada más. 5  

La clave para comprender los ataques de IA es comprender qué es realmente el “aprendizaje” en el aprendizaje automático y, lo que es más importante, qué no es. Recuerde que el aprendizaje automático “aprende” al observar muchos ejemplos de un concepto u objeto en un conjunto de datos. Más específicamente, utiliza algoritmos que extraen y generalizan patrones comunes en estos ejemplos. Estos patrones se almacenan dentro del modelo. Tomando el ejemplo de reconocer una señal de alto, el algoritmo de aprendizaje identificará patrones en los píxeles que componen las imágenes de ejemplo, como grandes áreas de rojo, las formas de las letras “S”, “T”, “O” y “P”. , y otras características definitorias. Cuando más tarde se le pide al modelo que detecte una señal de alto en una nueva imagen, buscará en esa imagen los mismos patrones de píxeles. Si encuentra patrones que coinciden con los que ha aprendido a asociar con una señal de alto, mostrará que ha encontrado una señal de alto. Si, en cambio, encuentra patrones que coinciden con los que ha aprendido a asociar con un objeto diferente, como una luz verde, indicará que ha encontrado una luz verde. Estos patrones son “generales” en el sentido de que deberían funcionar en entornos nuevos, no solo en los ejemplos de los que aprendió. Por ejemplo, los patrones del ejemplo anterior deberían poder reconocer todas las señales de alto, no solo las particulares incluidas en el conjunto de datos.

Con suficientes datos, los patrones aprendidos de esta manera son de tan alta calidad que incluso pueden superar a los humanos en muchas tareas. Esto se debe a que si el algoritmo ve suficientes ejemplos en todas las diferentes formas en que el objetivo aparece naturalmente, aprenderá a reconocer todos los patrones necesarios para realizar bien su trabajo. Continuando con el ejemplo de la señal de alto, si el conjunto de datos contiene imágenes de señales de alto al sol y a la sombra, desde el frente y desde diferentes ángulos, durante el día y la noche, aprenderá todas las formas posibles en que una señal de alto puede aparecer en la naturaleza.

Sin embargo, este proceso ya presenta una vulnerabilidad significativa: depende totalmente del conjunto de datos. Debido a que el conjunto de datos es la única fuente de conocimiento del modelo, si un atacante lo corrompe o lo “envenena”, el modelo aprendido de estos datos se verá comprometido. Los atacantes pueden envenenar el conjunto de datos para evitar que el modelo aprenda patrones específicos o, de manera más insidiosa, instalar puertas traseras secretas que pueden usarse para engañar al modelo en el futuro. 6  

Pero los problemas no acaban ahí. Incluso suponiendo un conjunto de datos no dañado y un modelo de alta precisión, este éxito viene con una advertencia muy importante: los patrones “aprendidos” por los modelos de aprendizaje automático de última generación actuales son relativamente frágiles. Como resultado, el modelo solo funciona con datos de naturaleza similar a los datos utilizados durante el proceso de aprendizaje. Si se usa en datos que son incluso un poco diferentes en naturaleza de los tipos de variaciones que vio en el conjunto de datos original, el modelo puede fallar por completo. Esta es una limitación importante que los atacantes pueden explotar: mediante la introducción de variaciones artificiales, como un trozo de cinta u otros patrones aberrantes, el atacante puede alterar el modelo y controlar su comportamiento en función del patrón artificial que se introduzca.

Esto explica cómo el ataque de la cinta de la señal de alto puede hacer que un automóvil autónomo se estrelle. Si bien el conjunto de datos utilizado para entrenar el detector de señales de alto contiene muchas variaciones de las señales de alto en diferentes condiciones naturales, no contiene ejemplos de las infinitas formas en que un atacante puede manipularlas artificialmente, como con cinta y graffiti. Debido a esto, las manipulaciones artificiales muy pequeñas elegidas de la manera correcta pueden romper los patrones relativamente frágiles que aprendió el modelo y tener impactos absurdamente enormes en el resultado del modelo. Esta es la razón por la que un pequeño trozo de cinta puede transformar una señal de alto en una luz verde tan fácilmente: no tiene que hacer que toda la señal de alto parezca una luz verde, solo tiene que engañar a los pequeños patrones frágiles específicos que el modelo aprendió. Desafortunadamente, esto es fácil de hacer.

Muchos pueden sorprenderse al saber que el aprendizaje automático tiene una deficiencia tan evidente. Esto se debe a que la cultura popular ha dado forma a una creencia generalizada pero errónea de que el aprendizaje automático realmente “aprende” en el sentido humano de la palabra. Los humanos son buenos para aprender verdaderamente conceptos y asociaciones. Si una señal de alto está distorsionada o desfigurada con graffiti o suciedad, incluso un ser humano que nunca haya visto graffiti o una señal de alto sucia aún la identificaría de manera confiable y consistente como una señal de alto, y ciertamente no la confundiría con un objeto completamente diferente. , como una luz verde. Pero ahora sabemos que los sistemas de IA actuales no funcionan de la misma manera. Incluso un modelo que puede reconocer casi perfectamente una señal de alto todavía no tiene conocimiento del concepto de una señal de alto, o incluso de una señal, como lo hace un ser humano.

Si bien puede parecer que esta distinción entre el aprendizaje humano y el “aprendizaje” automático es arbitraria, especialmente porque si el modelo funciona, parece que deberíamos estar contentos, ahora entendemos por qué tiene ramificaciones tan graves: en condiciones disputadas, los sistemas de IA pueden ser hecho para fallar incluso si son extremadamente exitosos en condiciones “normales”.

Un paso lógico para combatir esto sería comprender por qué los patrones que aprende el modelo son tan frágiles. Sin embargo, esto no se admite actualmente en los modelos más utilizados, como las redes neuronales profundas, ya que aún no se comprende exactamente cómo e incluso qué aprenden estos modelos. Como resultado, los algoritmos de aprendizaje automático más populares que impulsan la IA, como las redes neuronales, se conocen como “cajas negras”: sabemos qué entra, sabemos qué sale, pero no sabemos exactamente qué sucede en el medio. No podemos arreglar de forma fiable lo que no entendemos. Y por esta misma razón, es difícil, si no imposible, incluso saber si un modelo está siendo atacado o simplemente está haciendo un mal trabajo. Mientras que otros métodos de ciencia de datos, como los árboles de decisión y los modelos de regresión, permiten mucha más explicación y comprensión,

A partir de este entendimiento, ahora podemos establecer las características de los algoritmos de aprendizaje automático que sustentan la IA que hacen que estos sistemas sean vulnerables a los ataques.

  • Característica 1: el aprendizaje automático funciona mediante el “aprendizaje” de patrones relativamente frágiles que funcionan bien pero que son fáciles de interrumpir. Contrariamente a la creencia popular, los modelos de aprendizaje automático no son “inteligentes” ni capaces de imitar verdaderamente la capacidad humana en las tareas, incluso las tareas que realizan bien. En cambio, funcionan aprendiendo asociaciones estadísticas frágiles que son relativamente fáciles de interrumpir. Los atacantes pueden explotar esta fragilidad para crear ataques que destruyan el rendimiento de un modelo excelente.
  • Característica 2: la dependencia únicamente de los datos proporciona un canal principal para corromper un modelo de aprendizaje automático. El aprendizaje automático “aprende” únicamente mediante la extracción de patrones de un conjunto de ejemplos conocido como conjunto de datos. A diferencia de los humanos, los modelos de aprendizaje automático no tienen un conocimiento básico que puedan aprovechar: todo su conocimiento depende por completo de los datos que ven. Envenenar los datos envenena el sistema de IA. Los ataques en este sentido esencialmente convierten un sistema de IA en un candidato de Manchuria que los atacantes pueden activar en el momento que elijan.
  • Característica 3: La naturaleza de caja negra de los algoritmos de última generación dificulta su auditoría. Se sabe relativamente poco acerca de cómo aprenden y funcionan los algoritmos de aprendizaje automático de última generación ampliamente utilizados, como las redes neuronales profundas; incluso hoy en día, siguen siendo en muchos sentidos una caja negra mágica. Esto hace que sea difícil, si no imposible actualmente, saber si un modelo de aprendizaje automático se ha visto comprometido, o incluso si está siendo atacado o simplemente no funciona bien. Esta característica diferencia a los ataques de IA de los problemas tradicionales de ciberseguridad donde existen definiciones claras de vulnerabilidades, incluso si son difíciles de encontrar.

En conjunto, estas debilidades explican por qué no existen soluciones técnicas perfectas para los ataques de IA. Estas vulnerabilidades no son “errores” que se puedan parchear o corregir como se hace con las vulnerabilidades de ciberseguridad tradicionales. Son problemas profundamente arraigados en el corazón de la propia IA de última generación actual.

Ahora que entendemos por qué estos ataques son posibles, ahora centramos nuestra atención en ver ejemplos reales de estos ataques.

 

Ataques de entrada

Los ataques de entrada hacen que un sistema de IA funcione mal al alterar la entrada que se alimenta al sistema. Como se muestra en la figura a continuación, esto se hace agregando un “patrón de ataque” a la entrada, como colocar una cinta en una señal de alto en una intersección o agregar pequeños cambios a una foto digital que se carga en una red social.

Los ataques de entrada no requieren que el atacante haya corrompido el sistema de IA para poder atacarlo. Los sistemas de inteligencia artificial completamente avanzados que son altamente precisos y nunca han visto comprometida su integridad, conjunto de datos o algoritmos siguen siendo vulnerables a los ataques de entrada. Y en marcado contraste con otros ataques cibernéticos, ¡el ataque en sí no siempre usa una computadora!

Figura 1: En uso regular (arriba), el sistema de IA toma una entrada válida, la procesa con el modelo (cerebro) y devuelve una salida. 
En un ataque de entrada (abajo), la entrada al sistema de IA se altera con un patrón de ataque, lo que hace que el sistema de IA devuelva una salida incorrecta.

Estos ataques son particularmente peligrosos porque los patrones de ataque no tienen que ser perceptibles e incluso pueden ser completamente indetectables. Los adversarios pueden ser quirúrgicos, cambiando solo un pequeño aspecto de la entrada de manera precisa y exacta para romper los patrones aprendidos previamente por el modelo. Para los ataques a objetos físicos que deben ser capturados por un sensor o una cámara antes de ingresar a un sistema de IA, los atacantes pueden crear pequeños cambios que son lo suficientemente grandes como para ser capturados por el sensor. Este es el “ataque de cinta” canónico: los atacantes descubren que colocar un trozo de cinta blanca de dos pulgadas en la esquina superior de una señal de alto explotará una fragilidad particular en los patrones aprendidos por el modelo, convirtiéndolo en una luz verde. 7  Para los ataques a objetos digitales que se introducen directamente en el sistema de IA, como una imagen cargada en una red social, los patrones de ataque pueden ser imperceptibles para el ojo humano. Esto se debe a que en este entorno completamente digital, las alteraciones pueden ocurrir en un nivel de píxel individual, creando alteraciones que son tan pequeñas que son literalmente invisibles para el ojo humano.

 

Categorización de ataques de entrada

El aspecto más interesante de los ataques de entrada es lo variados que son. Los ataques de entrada a los sistemas de IA son como copos de nieve: no hay dos exactamente iguales. El primer paso para proteger los sistemas de estos ataques es crear una taxonomía para ordenar las infinitas posibilidades de ataque. “La forma se ajusta a la función” es un lente apropiado para hacerlo: los adversarios elegirán una forma para su ataque que se ajuste a su escenario y misión particulares. Por tanto, una taxonomía debería seguir esta misma tendencia.

Las formas de ataque de entrada se pueden caracterizar a lo largo de dos ejes: perceptibilidad y formato. La perceptibilidad caracteriza si el ataque es perceptible para los humanos (p. ej., para ataques de IA contra entidades físicas, el ataque es visible o invisible para el ojo humano). El formato caracteriza si el vector de ataque es un objeto físico del mundo real (p. ej., una señal de alto) o un activo digital (p. ej., un archivo de imagen en una computadora). La siguiente figura muestra esta taxonomía.

Figura 2: Taxonomía para categorizar ataques de entrada. El eje horizontal caracteriza el formato del ataque, ya sea en el mundo físico o digital. 
El eje vertical caracteriza la perceptibilidad del ataque, ya sea perceptible para los humanos o imperceptible para los humanos.

Eje de perceptibilidad

Primero discutimos el eje de perceptibilidad. En un extremo del eje hay ataques “perceptibles” en los que los humanos pueden notar el patrón de ataque de entrada. Los patrones de ataque pueden ser alteraciones del propio objetivo, como deformar, eliminar una parte o alterar el color del objetivo. Alternativamente, el patrón de ataque puede ser una adición al objetivo, como pegar cinta adhesiva u otras calcomanías al objetivo físico, o agregar marcas digitales a un objetivo digital. Los ejemplos de ataques perceptibles incluyen desfigurar una señal de alto con patrones formados a partir de cinta, 9 o usar software para superponer objetos como anteojos 10 en una imagen digital de un sujeto (como lo hacen muchas aplicaciones populares como Snapchat).

La siguiente figura muestra cómo se forma un ataque perceptible para un objeto físico. Un objeto regular se altera con un patrón de ataque visible (unas pocas piezas de cinta) para formar el objeto de ataque. Si bien el sistema de IA clasificaría correctamente el objeto normal, el objeto de ataque se clasifica incorrectamente como una “luz verde”.

Figura 3:  elaboración de un ataque de entrada visible. Se fija un pequeño patrón de ataque al objeto físico, lo que hace que el sistema de IA clasifique erróneamente la imagen con un pequeño cambio en su apariencia.

Aunque los ataques perceptibles son perceptibles para los humanos, aún pueden ser muy efectivos por varias razones. Primero, los ataques perceptibles no necesitan ser ostentosos. Un ataque visible en la forma de unas pocas piezas de cinta cuidadosamente seleccionadas colocadas en una señal de alto se puede percibir, pero no necesariamente se notará. Los seres humanos están naturalmente condicionados a ignorar los pequeños cambios en su entorno, como el graffiti, el vandalismo y el desgaste natural. Como tal, los ataques perceptibles pueden pasar completamente desapercibidos. En segundo lugar, los ataques perceptibles pueden diseñarse para ocultarse a simple vista. Un ataque visible en forma de anteojos especialmente diseñados o un logotipo especialmente diseñado agregado a la camiseta de una persona se notaría, pero no se sospecharía que se trata de un ataque, escondiéndose efectivamente a simple vista. En este caso,

En el otro extremo del eje de visibilidad están los ataques “imperceptibles” que son invisibles para los sentidos humanos. Los ataques imperceptibles pueden tomar muchas formas. Para contenido digital como imágenes, estos ataques se pueden ejecutar rociando “polvo digital” sobre el objetivo. 12Técnicamente, este polvo tiene la forma de pequeñas perturbaciones imperceptibles en todo el objetivo. Cada pequeña porción del objetivo cambia tan levemente que el ojo humano no puede percibir el cambio, pero en conjunto, estos cambios son suficientes para alterar el comportamiento del algoritmo rompiendo los frágiles patrones aprendidos por el modelo. La siguiente figura muestra cómo se forma un ataque imperceptible de esta manera. Una imagen digital normal se altera con perturbaciones diminutas e imperceptibles a nivel de píxeles dispersas por toda la imagen, formando la imagen de ataque. Si bien el sistema de IA clasificaría correctamente la imagen normal como un “panda”, el objeto de ataque se clasifica incorrectamente como un “mono”. Sin embargo, debido a que el patrón de ataque hace cambios tan pequeños, para el ojo humano, la imagen de ataque se ve idéntica a la imagen normal original.

Figura 4: elaboración de un ataque de entrada invisible. Se agrega una pequeña cantidad de ruido que es invisible para el ojo humano a toda la imagen, lo que hace que el sistema de IA clasifique erróneamente la imagen sin cambiar su apariencia.

Los ataques imperceptibles no se limitan solo a objetos digitales. Por ejemplo, los patrones de ataque se pueden agregar de manera imperceptible a un objeto físico en sí. Los investigadores han demostrado que una tortuga impresa en 3D con un patrón de ataque de entrada imperceptible podría engañar a los detectores de objetos basados ​​en IA. 15  Si bien la detección de tortugas puede no tener consecuencias de vida o muerte (todavía…), la misma estrategia aplicada a un arma impresa en 3D sí puede tener. En el dominio del audio, los sonidos de tono alto que son imperceptibles para los oídos humanos pero que pueden ser captados por micrófonos pueden usarse para atacar sistemas de inteligencia artificial basados ​​en audio, como los asistentes digitales.

Estos ataques imperceptibles son particularmente perniciosos desde el punto de vista de la seguridad. A diferencia de los ataques visibles, los humanos no tienen forma de observar si un objetivo ha sido manipulado. Esto plantea una barrera adicional para detectar estos ataques.

Los ataques imperceptibles son muy aplicables a objetivos sobre los que el adversario tiene control total, como imágenes digitales u objetos fabricados. Por ejemplo, un usuario que publica una imagen ilícita, como una que contiene pornografía infantil, puede alterar la imagen de modo que evada la detección por parte de los filtros de contenido basados ​​en IA, pero también permanece visualmente sin cambios desde la perspectiva humana. Esto permite que el atacante distribuya el contenido sin restricciones y, para todos los fines prácticos, sin alteraciones y sin detección.

 

Formato

A continuación discutimos el eje del formato. En un extremo del eje están los ataques “físicos”. Estos son ataques en los que el objetivo atacado existe en el mundo físico. Si bien es más fácil pensar en los ataques físicos en términos de objetos, incluidas señales de alto, camiones de bomberos, anteojos e incluso humanos, también se aplican a otros fenómenos físicos, como el sonido. Por ejemplo, se han mostrado ataques a asistentes digitales controlados por voz, donde se ha utilizado un sonido para activar la acción del asistente digital. 16 Las alteraciones se realizan directamente o se colocan encima de estos objetivos para diseñar un ataque. En la siguiente figura se muestran ejemplos de ataques físicos a objetos del mundo real.

En algunos entornos, los ataques a objetos físicos pueden requerir patrones de ataque más grandes y gruesos. Esto se debe a que estos objetos físicos primero deben digitalizarse, por ejemplo, con una cámara o un sensor, para incorporarlos al algoritmo de IA, un proceso que puede destruir detalles de nivel más fino. Sin embargo, incluso con este requisito de digitalización, los ataques aún pueden ser difíciles de percibir. La “tortuga de ataque” que se clasifica incorrectamente como un rifle en el ejemplo que se muestra a continuación es un ejemplo de un ataque físico que es casi invisible. La tortuga impresa en 3D está fabricada para tener un patrón muy sutil que se combina naturalmente con los patrones de su caparazón y aletas, lo que hace que el ataque sea imperceptible, pero engaña constantemente al clasificador, independientemente del ángulo y la posición desde la que la cámara lo vea. 17Al “ocultar” el objeto en este patrón de ataque, puede engañar al sistema de IA sin que parezca un ataque para un observador humano.

Figura 5: Ejemplos de ataques físicos a objetos del mundo real. Los ataques físicos pueden ser perceptibles, como con la señal de alto o los anteojos amarillos, o imperceptibles, como con la tortuga y la pelota de béisbol impresas en 3D que se muestran aquí.

En el otro extremo del eje del formato están los ataques “digitales”. Estos son ataques en los que el objetivo atacado es un activo digital. Los ejemplos incluyen imágenes, videos, publicaciones en redes sociales, música, archivos y documentos. A diferencia de los objetivos físicos que primero deben detectarse y digitalizarse, los objetivos digitales se introducen directamente en su estado original en el sistema de IA. Esto brinda a los adversarios una selección ampliada de ataques y reduce la dificultad de crear un ataque exitoso, ya que no necesitan tener en cuenta la posible distorsión del patrón de ataque durante este proceso de detección. Como tal, los ataques digitales se adaptan particularmente bien a la invisibilidad. En la siguiente figura se muestran ejemplos de ataques digitales a imágenes digitales. (Si bien los ataques digitales que se muestran en esta figura son todas imágenes digitales, esta elección es para fines de presentación,

Figura 6: Ejemplos de ataques digitales a imágenes digitales. Los ataques digitales pueden ser perceptibles, como con los anteojos tontos superpuestos en la imagen de una celebridad (centro), o imperceptibles, como con las imágenes de panda y pato que se muestran aquí (izquierda, derecha).

Elaboración de un ataque de entrada

Una vez que los atacantes han elegido una forma de ataque que se adapta a sus necesidades, deben diseñar el ataque de entrada. La dificultad de diseñar un ataque está relacionada con los tipos de información disponibles para el atacante. Sin embargo, es importante tener en cuenta que los ataques siguen siendo prácticos (aunque potencialmente más difíciles de fabricar) incluso en condiciones muy difíciles y restrictivas.  

Un ataque de entrada es relativamente fácil de crear si el atacante tiene acceso al modelo de IA que está siendo atacado. Armado con esto, el atacante puede crear ataques automáticamente utilizando métodos simples de optimización de libros de texto. El software disponible públicamente que implementa estos métodos ya está disponible. 20 Los atacantes también pueden usar redes generativas antagónicas (GAN), un método creado específicamente para explotar las debilidades en los modelos de IA, para diseñar estos ataques. 21

Si bien puede parecer sorprendente que los atacantes tengan acceso al modelo, hay una serie de escenarios comunes en los que esto ocurriría de manera rutinaria. En el lado más inocente del espectro, los modelos a menudo se hacen públicos porque han sido optimizados por investigadores o empresas para una tarea general importante, como el reconocimiento de objetos, y luego se hacen públicos para que cualquiera los use como parte del “código abierto”. movimienot. 22  En el lado más siniestro del espectro, los atacantes pueden piratear el sistema que almacena el modelo para robarlo. El modelo en sí es solo un archivo digital que vive en una computadora, no es diferente de una imagen o documento y, por lo tanto, puede ser robado como cualquier otro archivo en una computadora. Debido a que los modelos no siempre se consideran activos altamente confidenciales, es posible que los sistemas que contienen estos modelos no tengan altos niveles de protección de seguridad cibernética. La historia ha demostrado que cuando las capacidades del software se mercantilizan, como sucede con los sistemas de IA, a menudo no se manejan o invocan con cuidado en un sentido de seguridad, como lo demuestra la prevalencia de las contraseñas raíz predeterminadas. Si este historial es una indicación, los sistemas que contienen estos modelos sufrirán debilidades similares que pueden llevar a que el modelo sea fácilmente robado.

Incluso en los casos en que el atacante no tiene el modelo, todavía es posible montar un ataque de entrada. Si los atacantes tienen acceso al conjunto de datos utilizado para entrenar el modelo, pueden usarlo para construir su propia copia del modelo y usar este “modelo de copia” para diseñar su ataque. Los investigadores han demostrado que los ataques elaborados con estos “modelos de copia” son fácilmente transferibles a los modelos objetivo originales. 23Como ocurría con los modelos, hay una serie de escenarios comunes en los que el atacante tendría acceso al conjunto de datos. Al igual que los propios modelos, los conjuntos de datos están ampliamente disponibles como parte del movimiento de código abierto o, de manera similar, podrían obtenerse pirateando el sistema que almacena este conjunto de datos. En un entorno aún más restrictivo donde el conjunto de datos no está disponible, los atacantes podrían compilar su propio conjunto de datos similar y utilizar este conjunto de datos similar para construir un “modelo de copia” en su lugar.

En un caso cada vez más restrictivo en el que los atacantes no tienen acceso al modelo o al conjunto de datos, pero tienen acceso a la salida del modelo, aún pueden diseñar un ataque. Esta situación ocurre a menudo en la práctica, con empresas que ofrecen inteligencia artificial como servicio a través de una API pública. 24 Este servicio brinda a los usuarios el resultado de un modelo de IA entrenado para una tarea en particular, como el reconocimiento de objetos. Si bien estos modelos y sus conjuntos de datos asociados se mantienen privados, los atacantes pueden usar la información de salida de sus API para diseñar un ataque. Esto se debe a que esta información de salida reemplaza la necesidad de tener el modelo o el conjunto de datos.

En el caso más difícil en el que el atacante no dispone de nada sobre el modelo, su conjunto de datos o su salida, el atacante aún puede intentar crear ataques mediante prueba y error de fuerza bruta. Por ejemplo, un atacante que intenta superar un filtro de contenido en línea puede seguir generando patrones de ataque aleatorios y cargando el contenido para ver si se elimina. Una vez que se encuentra un patrón de ataque exitoso, se puede usar en futuros ataques.

 

Ataques de envenenamiento

Los ataques de envenenamiento son la segunda clase de ataques de IA. En los ataques de envenenamiento, el atacante busca dañar el modelo de IA en sí mismo para que, una vez que se implemente, tenga fallas inherentes y pueda ser controlado fácilmente por el atacante. A diferencia de los ataques de entrada, los ataques de envenenamiento de modelos tienen lugar mientras se aprende el modelo, lo que compromete fundamentalmente el propio sistema de IA.

Para envenenar un sistema de IA, el atacante debe comprometer el proceso de aprendizaje de tal manera que el modelo falle en ciertas entradas elegidas por el atacante, o “aprende” una puerta trasera que el atacante puede usar para controlar el modelo en el futuro. Una motivación es envenenar un modelo para que falle en una tarea o tipo de entrada en particular. Por ejemplo, si un ejército está entrenando un sistema de IA para detectar aeronaves enemigas, el enemigo puede intentar envenenar el modelo aprendido para que no reconozca ciertas aeronaves.

Los datos son una vía importante a través de la cual ejecutar un ataque de envenenamiento. Debido a que la información en el conjunto de datos se destila en el sistema de IA, cualquier problema en el conjunto de datos será heredado por el modelo entrenado con él. Los datos pueden verse comprometidos de múltiples maneras. Una forma es corromper un conjunto de datos válido, como se ilustra en la figura a continuación. Al cambiar datos válidos por datos envenenados, el modelo de aprendizaje automático que sustenta el propio sistema de IA se envenena durante el proceso de aprendizaje. Como un ejemplo de juguete de este tipo de ataque de envenenamiento, considere entrenar un sistema de seguridad basado en reconocimiento facial que debería admitir a Alice pero rechazar a Bob. Si un atacante envenena el conjunto de datos cambiando algunas de las imágenes de “Alice” por las de “Bob”, el sistema fallaría en su misión porque aprendería a identificar a Bob como Alice.

Figura 7: En el aprendizaje automático normal (izquierda), el algoritmo de aprendizaje extrae patrones de un conjunto de datos y el conocimiento “aprendido” se almacena en el modelo de aprendizaje automático, el cerebro del sistema. 
En un ataque de envenenamiento (derecha), el atacante cambia los datos de entrenamiento para envenenar el modelo aprendido.

Una segunda forma de comprometer los datos para ejecutar un ataque de envenenamiento es atacar el proceso de recopilación de conjuntos de datos, el proceso en el que se adquieren los datos. Esto envenena efectivamente los datos desde el principio, en lugar de cambiar un conjunto de datos válido como se muestra en el ejemplo anterior.

La capacidad de atacar el proceso de recopilación de conjuntos de datos representa el comienzo de una nueva era de actitudes hacia los datos. Hoy en día, los datos generalmente se ven como una representación veraz del mundo y se han utilizado con éxito para enseñar a los sistemas de inteligencia artificial a realizar tareas dentro de este mundo. Como resultado, las prácticas de recopilación de datos actuales se asemejan a una red de arrastre: se recopila todo lo que se puede recopilar. La razón de esto es clara: la IA funciona casi en su totalidad con datos, y tener más datos generalmente se correlaciona con un mejor rendimiento del sistema de IA.

Sin embargo, ahora que el propio proceso de recopilación de conjuntos de datos puede ser atacado, los usuarios de IA ya no pueden confiar ciegamente en que los datos que recopilan son válidos. Los datos representan el estado de algo en el mundo, y este estado puede ser alterado por un adversario. Esto representa un nuevo desafío: incluso si los datos se recopilan con equipos no comprometidos y se almacenan de forma segura, lo que se representa en los datos en sí puede haber sido manipulado por un adversario para envenenar los sistemas de IA posteriores. Esta es la clásica campaña de desinformación actualizada para la era de la IA.

Frente a los ataques de IA, las prácticas actuales de recopilación de datos de redes de arrastre pronto pueden ser una reliquia pintoresca de una época más simple. Si un adversario conoce las prácticas de recopilación de datos de un usuario de IA, el adversario puede influir en el proceso de recopilación para atacar el sistema de IA resultante a través de un ataque de envenenamiento. Como resultado, la era de los ataques de IA requiere nuevas actitudes hacia los datos que contrastan marcadamente con las prácticas actuales de recopilación de datos.

 

Crear un ataque de envenenamiento

Para implementar un ataque de envenenamiento, el atacante apunta a uno de los activos utilizados en el proceso de aprendizaje: ya sea el conjunto de datos utilizado para aprender el modelo, el algoritmo utilizado para aprender el modelo o el propio modelo. Independientemente del método, el resultado final es un modelo que tiene una debilidad oculta o una puerta trasera que luego puede ser atacada mediante la explotación de esta debilidad conocida.

Envenenamiento de conjuntos de datos

La forma más directa de envenenar un modelo es a través del conjunto de datos. Como se discutió anteriormente, el modelo depende completamente del conjunto de datos para todo su conocimiento: envenenar el conjunto de datos, envenenar el modelo. Un atacante puede hacer esto introduciendo datos incorrectos o mal etiquetados en el conjunto de datos. Debido a que los algoritmos de aprendizaje automático aprenden un modelo mediante el reconocimiento de patrones en este conjunto de datos, los datos envenenados interrumpirán este proceso de aprendizaje, dando lugar a un modelo envenenado que, por ejemplo, puede haber aprendido a asociar patrones con resultados mal etiquetados que cumplen el propósito del atacante. Alternativamente, el adversario puede cambiar su comportamiento para que los datos recopilados en primer lugar sean incorrectos.

Descubrir datos envenenados para detener los ataques de envenenamiento puede ser muy difícil debido a la escala de los conjuntos de datos. Los conjuntos de datos contienen habitualmente millones de muestras. Estas muestras muchas veces provienen de fuentes públicas en lugar de esfuerzos de recolección privados. Incluso en el caso de que el conjunto de datos se recopile de forma privada y se verifique, un atacante puede piratear el sistema donde se almacenan los datos e introducir muestras envenenadas, o tratar de corromper muestras válidas.

Envenenamiento de algoritmos

Otra vía para ejecutar un ataque de envenenamiento aprovecha las debilidades de los algoritmos utilizados para aprender el modelo. Esta amenaza es particularmente pronunciada en el aprendizaje federado, un nuevo algoritmo de aprendizaje automático de última generación que está surgiendo. 25  El aprendizaje federado es un método para entrenar modelos de aprendizaje automático mientras se protege la privacidad de los datos de un individuo. En lugar de recopilar de forma centralizada datos potencialmente confidenciales de un conjunto de usuarios y luego combinar sus datos en un conjunto de datos, el aprendizaje federado entrena un conjunto de pequeños modelos directamente en el dispositivo de cada usuario y luego combina estos pequeños modelos para formar el modelo final. Debido a que los datos de los usuarios nunca salen de sus dispositivos, su privacidad está protegida y se disipan sus temores de que las empresas puedan hacer un uso indebido de sus datos una vez recopilados. El aprendizaje federado se considera una solución potencialmente innovadora para los complejos problemas de política pública relacionados con la privacidad y los datos de los usuarios, ya que permite a las empresas analizar y utilizar los datos de los usuarios sin necesidad de recopilarlos.

Sin embargo, existe una debilidad en el algoritmo de aprendizaje federado que lo deja vulnerable a los ataques de envenenamiento de modelos. Como los atacantes tienen control sobre sus propios datos en su dispositivo, pueden manipular tanto los datos como el algoritmo que se ejecuta en su dispositivo para envenenar el modelo. Los ataques que instalan una puerta trasera particular en los modelos, 26 así como los que generalmente degradan el modelo, 27 ya han sido demostrados.

modelo de envenenamiento

Una vía final para envenenar un modelo es simplemente reemplazar un modelo legítimo por uno envenenado. Esto es fácil de hacer con un ciberataque tradicional. Una vez entrenado, un modelo es solo un archivo que vive dentro de una computadora, no es diferente a una imagen o un documento PDF. Los atacantes pueden piratear los sistemas que contienen estos modelos y luego alterar el archivo del modelo o reemplazarlo por completo con un archivo del modelo envenenado. En este sentido, incluso si un modelo se entrenó correctamente con un conjunto de datos que se verificó minuciosamente y no se encontró envenenado, este modelo aún puede reemplazarse con un modelo envenenado en varios puntos de la tubería de distribución.

Parte II: Sistemas afectados

Ahora centramos nuestra atención en qué sistemas y segmentos de la sociedad tienen más probabilidades de verse afectados por los ataques de IA. Los sistemas de IA ya están integrados en muchas facetas de la sociedad, y cada vez más cada día. Para la industria y los formuladores de políticas, las cinco áreas vulnerables más apremiantes son los filtros de contenido, los sistemas militares, los sistemas de aplicación de la ley, las tareas tradicionalmente basadas en humanos que se reemplazan con IA y la sociedad civil.

 

Filtros de contenido

Los filtros de contenido son los sistemas inmunológicos digitales de la sociedad. Al eliminar los activos extranjeros que son peligrosos, ilegales o contrarios a los términos de servicio de una aplicación en particular, mantienen las plataformas en buen estado y erradican las infecciones.

Los filtros de contenido también están especialmente calificados para vigilar el contenido a la escala que requiere Internet. El contenido subido a Internet cada minuto es una cantidad asombrosa que crece a un ritmo asombroso. Cada día se comparten más de tres mil millones de imágenes en Internet. 28   Los filtros de contenido basados ​​en IA se han convertido en la herramienta principal, si no la única, capaz de operar a esta escala, y han sido ampliamente adoptados por la industria. Por ejemplo, Facebook eliminó 21 millones de piezas de contenido lascivo solo en el primer trimestre de 2018, el 96% de las cuales fueron marcadas por estos algoritmos. 29

El filtrado de contenido ha adquirido una mayor urgencia en los últimos años. ISIS utilizó con éxito las redes sociales como una de sus principales vías de reclutamiento. 30  nacionalistas en Myanmar usaron Facebook como portavoz para incitar una campaña de genocidio rohingyan. 31  Las campañas de desinformación que despliegan contenido falso en las redes sociales se han utilizado para influir en las elecciones democráticas en los EE. UU. y Europa. 32  Dado que este contenido arma con éxito las plataformas basadas en los EE. UU., la eficacia de los filtros de contenido basados ​​en IA tiene implicaciones de amplio alcance, incluida la defensa de la seguridad nacional y las poblaciones oprimidas.

Más allá de estos asuntos más nuevos, los filtros de contenido deben seguir siendo efectivos con tareas importantes que ya están dentro de su alcance, como la detección de pornografía infantil. Tal vez el único concepto que podría convertir a los estadounidenses, rusos, chinos e iraníes en extraños compañeros de cama, la pornografía infantil fue aceptada universalmente como objetivo de la censura, incluso desde los primeros días de Internet. Los filtros de contenido basados ​​en IA permiten a los operadores de sitios web y plataformas escanear de manera eficiente y efectiva los millones de imágenes cargadas cada minuto en busca de contenido ilícito y destruir de inmediato las imágenes ofensivas. Además de las herramientas personalizadas que las empresas crearon para su propio uso, este software de detección finalmente se proporcionó a través del modelo de distribución de Software como servicio (SaaS),33

Incluso en usos más banales, los filtros de contenido están vinculados a muchos modelos comerciales. A medida que los anunciantes comienzan a ser considerados responsables ante el tribunal de la opinión pública por el contenido que aparece junto a sus anuncios, existe una creciente necesidad de detectar un número cada vez mayor de tipos de contenido objetables. Esto se extiende a la detección de desnudez, violencia, crímenes de odio, armas, pornografía para adultos, blasfemias y comentarios inapropiados. YouTube enfrentó el boicot de anunciantes como AT&T, Disney, Hasbro y Nestlé por no filtrar de manera efectiva los comentarios sexuales dejados por los espectadores en videos en los que aparecían niños. 34

A medida que se incluyan filtros de contenido en estas batallas, habrá fuertes incentivos tanto para atacarlos como para generar herramientas que faciliten la ejecución de estos ataques. Los adversarios ya han visto el poder de usar plataformas digitales en la búsqueda de su misión. ISIS creció orgánicamente en seguidores internacionales y ejecutó con éxito un programa de reclutamiento a gran escala utilizando las redes sociales. Éstos son éxitos que, aparte de la moral, pueden haber despertado los celos de los departamentos de marketing de las empresas Fortune 500. Es probable que futuras organizaciones de malicia sigan el mismo libro de jugadas. Si se enfrentan a mejores filtros de contenido, es probable que sean los primeros en adoptar los ataques de IA contra estos filtros.

En un entorno con ataques de IA, no se puede confiar en que los filtros de contenido realicen su trabajo. Debido a que los filtros de contenido ahora se utilizan como la primera y, en muchos aspectos, la única línea de defensa contra el terrorismo, el extremismo y los ataques políticos en Internet, partes importantes de la sociedad quedarían indefensas frente a los ataques exitosos de IA. Estos ataques dan a los adversarios rienda suelta para emplear estas plataformas con abandono y dejan estas plataformas sociales desprotegidas cuando la protección es más necesaria que nunca.

Además, será difícil detener o incluso detectar estos ataques a los filtros de contenido porque probablemente pasarán totalmente desapercibidos. Debido a que el filtrado de contenido se aplica a los activos digitales, es especialmente adecuado para los ataques de entrada “imperceptibles”. Además, a diferencia de muchos otros ataques cibernéticos en los que un robo de información a gran escala o el apagado del sistema hacen evidente la detección, los ataques a los filtros de contenido no activarán ninguna alarma. El contenido simplemente pasará desapercibido a través del filtro.

En este sentido, es posible que entidades como las redes sociales ni siquiera sepan que están bajo ataque hasta que sea demasiado tarde, una situación que se hace eco de las campañas de desinformación de las elecciones presidenciales de EE. UU. de 2016. Como resultado, como se analiza en la sección de respuesta de políticas, los operadores de sitios centrados en el contenido deben tomar medidas proactivas para protegerse, auditar y responder a estos ataques.

 

Militar

Una segunda gran superficie de ataque de la IA es el ejército. Se espera que las aplicaciones militares de la IA sean un componente crítico de la próxima gran guerra. Recientemente, el Departamento de Defensa de los EE. UU. ha hecho de la integración de la inteligencia artificial y el aprendizaje automático en el ejército una alta prioridad con la creación del Centro Conjunto de Inteligencia Artificial (JAIC). El JAIC tiene “el objetivo general de acelerar la entrega de capacidades habilitadas para IA, escalar el impacto de la IA en todo el Departamento y sincronizar las actividades de IA del Departamento de Defensa para expandir las ventajas de la Fuerza Conjunta”. 35  El Proyecto Maven del Pentágono aplica IA al análisis de video de movimiento completo (FMV), destacando el deseo de los militares de usar IA para identificar activos terrestres. 36  El lanzamiento del conjunto de datos de Adquisición y Reconocimiento de Objetivos Móviles y Estacionarios de la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) y el Laboratorio de Investigación de la Fuerza Aérea (AFRL) tiene como objetivo desarrollar técnicas de IA para clasificar y reconocer objetivos de interés. 37  Atacar estos sistemas militares de inteligencia artificial es el sucesor lógico del FUSAG del general Patton.

Los entornos disputados en los que operan las fuerzas armadas crean una serie de formas únicas para que los adversarios elaboren ataques contra estos sistemas militares y, en consecuencia, una serie de desafíos únicos para defenderse de ellos.

Primero, los adversarios pueden capturar el equipo físico, incluidos los drones y los sistemas de armas, en los que vivirán los sistemas de IA. La pérdida y captura de este equipo será una rutina en conflictos futuros, y la amenaza que esto representa para los sistemas de IA crecerá a medida que se implementen más y más sistemas habilitados para IA en el campo o en equipos que pueden ser capturados por un adversario. Esta tendencia aumentará aún más con la proliferación de la “computación perimetral” en contextos militares. En la computación perimetral, en lugar de enviar datos a una infraestructura de nube centralizada para su procesamiento, los datos y los algoritmos de IA se almacenan y ejecutan directamente en los dispositivos implementados en el campo. El Departamento de Defensa ha hecho del desarrollo de la “computación perimetral” una prioridad, ya que es poco probable que el ancho de banda necesario para admitir un paradigma de IA basado en la nube esté disponible en entornos de campo de batalla.38 Esta realidad requerirá que estos sistemas sean tratados con cuidado. Así como los militares reconocen la amenaza creada cuando un enemigo captura un avión, un dron o un sistema de armas, estos sistemas de IA deben ser reconocidos y tratados como miembros de esta misma clase protegida para que los sistemas no se vean comprometidos si son capturados por un enemigo. enemigo.

En segundo lugar, el dominio único de las fuerzas armadas requiere la creación de conjuntos de datos y herramientas igualmente únicos, los cuales probablemente se compartan dentro de las fuerzas armadas en general. Debido a que estos conjuntos de datos y sistemas serán costosos y difíciles de crear, habrá presiones significativas para compartirlos ampliamente entre diferentes aplicaciones y ramas. Sin embargo, cuando múltiples sistemas de IA dependen de este pequeño conjunto de activos compartidos, un solo compromiso de un conjunto de datos o sistema expondría a todos los sistemas dependientes a un ataque.

A pesar de este riesgo, se espera que los conjuntos de datos compartidos se generalicen dentro de las operaciones militares de IA. El DoD ya ha declarado que la base de sus esfuerzos de IA “incluye datos compartidos, herramientas reutilizables, marcos, bibliotecas y estándares…” 39 Las  aplicaciones iniciales de IA del DoD, que se enfocan en extraer información de imágenes y videos aéreos, ilustran por qué compartir conjuntos de datos es atractivo Estos conjuntos de datos son fundamentales para desarrollar un conjunto de sistemas de inteligencia artificial potentes, pero son costosos, tanto en términos de tiempo como de dinero, para recopilarlos y prepararlos. 40  Como resultado, existe un deseo lógico de compartir y reutilizar estos conjuntos de datos en muchas aplicaciones diferentes en lugar de crear un conjunto de datos separado para cada aplicación.

Sin embargo, esto crea un único punto de vulnerabilidad para ataques en todo el sistema. Si estos datos se piratean o se comprometen, todas las aplicaciones desarrolladas con estos datos se verán potencialmente comprometidas. Si una gran cantidad de aplicaciones dependiera de este mismo conjunto de datos compartidos, esto podría generar vulnerabilidades generalizadas en todo el ejército. En el caso de los ataques de entrada, un adversario podría encontrar fácilmente patrones de ataque para diseñar un ataque en cualquier sistema entrenado con el conjunto de datos. En el caso de ataques de envenenamiento, un adversario solo necesitaría comprometer un conjunto de datos para envenenar cualquier modelo posterior que luego se entrene con este conjunto de datos envenenado.

Además, el proceso asociado con la creación de estos conjuntos de datos únicos puede dar lugar a vulnerabilidades que pueden explotarse. Al construir sistemas de defensa y armas habilitados para IA, las muestras de datos individuales utilizadas para entrenar a los modelos se convierten en un secreto que debe protegerse. Sin embargo, debido a que este trabajo de preparación requiere mucho tiempo, puede depender de una gran cantidad de etiquetadores no expertos o incluso de servicios de preparación y etiquetado de datos subcontratados. Esta tendencia ya se ha manifestado en el sector privado, donde empresas como Facebook han recurrido a moderadores de contenido subcontratados, 41 así como en los esfuerzos iniciales de IA militar. 42Las tendencias similares esperadas aquí podrían hacer que las garantías de alta confianza en las restricciones de acceso a los datos y la supervisión del manejo, el etiquetado y la preparación adecuados de los datos sean difíciles de lograr. Si bien estos tipos de preocupaciones de supervisión de procedimientos no son nuevos, se han establecido mejores prácticas en otros campos, como el nuclear. Sin embargo, debido a su infancia, estas mejores prácticas faltan en el campo de la IA. Formar estas mejores prácticas requerirá nuevas políticas que gestionen la adquisición y preparación de datos.

Más allá de las amenazas que plantea compartir conjuntos de datos, las fuerzas armadas también pueden buscar reutilizar y compartir modelos y las herramientas utilizadas para crearlos. Debido a que el ejército es un objetivo principal, si no el principal, para el robo cibernético, los propios modelos y herramientas también se convertirán en objetivos para que los adversarios roben a través de operaciones de piratería o contrainteligencia. La historia ha demostrado que los sistemas informáticos son un canal eternamente vulnerable con el que se puede contar de forma fiable como vía de ataque de los adversarios. Al obtener los modelos almacenados y ejecutados en estos sistemas, los adversarios pueden volver a resolver los patrones de ataque que podrían engañar a los sistemas.

Finalmente, el ejército enfrenta el desafío de que los ataques de IA serán difíciles, si no imposibles, de detectar en condiciones de batalla. Esto se debe a que un pirateo de estos sistemas para obtener información para formular un ataque no necesariamente desencadenaría una notificación, especialmente en el caso en que un atacante solo esté interesado en el reconocimiento destinado a aprender los conjuntos de datos o los tipos de herramientas que se utilizan. Además, una vez que los adversarios desarrollan un ataque, pueden tener mucho cuidado al aplicarlo para no despertar sospechas y evitar que su oponente sepa que sus sistemas han sido comprometidos. En consecuencia, los ataques pueden limitarse únicamente a situaciones de extrema importancia. En este sentido, no puede haber contraindicaciones para el funcionamiento del sistema hasta después de que se produzca la infracción más grave.

La detección de ataques de IA frente a su rara aplicación se centraría en dos métodos: la detección de intrusiones en los sistemas que contienen activos utilizados para entrenar modelos y el análisis del rendimiento del modelo. Los métodos tradicionales de detección de intrusos podrían usarse para detectar si un conjunto de datos o un recurso se ha visto comprometido. Si un activo se ha visto comprometido, es posible que los sistemas de inteligencia artificial que utilizan esos activos deban apagarse o volver a capacitarse. Alternativamente, la detección de ataques de IA podría basarse en un análisis de rendimiento complejo del sistema siempre que se sospeche de un ataque de IA, como eventos que rodean una disminución sorprendente en el rendimiento del sistema de IA.

Más allá de estas preocupaciones defensivas, los militares también pueden optar por invertir en capacidades ofensivas de ataque de IA. Este tema de armamento ofensivo se discute en detalle en la Parte III.

 

Cumplimiento de la ley

Una tercera superficie de ataque importante es la aplicación de la IA a la aplicación de la ley. El Instituto Nacional de Justicia argumenta que “la inteligencia artificial tiene el potencial de ser una parte permanente de nuestro [sistema] de justicia penal” a través de su uso para “replicar… la capacidad humana [de reconocimiento de patrones] en algoritmos de software y hardware de computadora”. 43

Las aplicaciones de IA para la aplicación de la ley ya están implementadas y se están investigando activamente. Amazon ha lanzado recientemente un sistema de reconocimiento facial 44 que está siendo probado por los departamentos de policía de EE. UU. 45 El sistema busca hacer coincidir las imágenes faciales de los objetivos con una gran base de datos de fotografías policiales. El NIJ apoya la investigación en análisis de video e imágenes, detectando características de disparos de armas de fuego (cantidad de armas presentes, asignación de un disparo a un arma en particular y clasificación de clase y calibre de armas de fuego), detección de rostros y otras aplicaciones. 46

Es comprensible que las fuerzas del orden estén recurriendo a la tecnología de IA. La tecnología ha creado flujos de datos y plataformas completamente nuevos que las fuerzas del orden están siendo llamados a la policía, 47 lo que plantea el desafío de analizar una cantidad prácticamente infinita de contenido con una cantidad muy finita de recursos humanos. Al igual que en el caso del filtrado de contenido, la comunidad de aplicación de la ley considera que la nueva generación de herramientas habilitadas para IA es necesaria para mantenerse al día con su ámbito tecnológico en expansión. El NIJ reconoce este potencial de la IA y afirma: “Examinar el gran volumen de imágenes y videos posiblemente relevantes de manera precisa y oportuna es una tarea minuciosa que requiere mucho tiempo, con el potencial de error humano debido a la fatiga y otros factores. A diferencia de los humanos, las máquinas no se cansan”. 48Más allá de su uso para seguir el ritmo de la expansión de la cantidad de contenido, la IA se puede utilizar para proporcionar una vigilancia policial y una prevención del delito más efectivas al detectar señales de advertencia criminal antes y detener a los sospechosos más rápido.

A medida que estos sistemas de aplicación de la ley basados ​​en IA se generalicen, naturalmente se convertirán en objetivos de ataque para los delincuentes. Uno podría imaginar los ataques de IA a los sistemas de reconocimiento facial como la versión del siglo XXI de la tradicional estrategia de cortarse o teñirse el cabello para evitar el reconocimiento de las fuerzas del orden. Los investigadores ya han demostrado que usar un par de anteojos multicolores tiene la capacidad de atacar los sistemas de reconocimiento facial basados ​​en IA, degradando en gran medida su precisión. 49 A medida que estos sistemas de reconocimiento facial se trasladan no solo a los departamentos de policía, sino también a otras áreas de aplicación de la ley, como la detección en aeropuertos basada en el reconocimiento facial, 50 la cantidad de objetivos de ataque continúa creciendo.

Además, estos ataques no se limitan a los sistemas de vigilancia visual. La investigación financiada por el NIJ para clasificar la clase y el calibre de las armas de fuego a partir de las señales de audio también presenta un objetivo. Se pueden desarrollar nuevas clases de accesorios de hardware, como “silenciadores inteligentes”, que ejecutan ataques de IA para engañar a estos sistemas, por ejemplo, haciendo que los sistemas piensen que el disparo provino de un arma diferente. A medida que evolucione la tecnología de IA, la estrategia criminal también lo hará.

Aunque las fuerzas del orden y las fuerzas armadas comparten muchas aplicaciones de IA similares, la comunidad de fuerzas del orden enfrenta su propio conjunto único de desafíos para protegerse contra los ataques de IA. En primer lugar, los sistemas de inteligencia artificial para el cumplimiento de la ley serán en gran medida compras listas para usar de diferentes empresas privadas. A diferencia de las fuerzas armadas, la mayoría de las organizaciones encargadas de hacer cumplir la ley son pequeñas y carecen de los recursos necesarios para evaluar, y mucho menos construir, estos sistemas de inteligencia artificial y, por lo tanto, es probable que dependan de un mosaico de diferentes proveedores privados. Esta es una razón para preocuparse. Las empresas privadas ya han demostrado su ineptitud para abordar adecuadamente las vulnerabilidades de seguridad conocidas y fáciles de abordar, y mucho menos una vulnerabilidad emergente y difícil como los ataques de IA. Sería imprudente suponer que las empresas privadas están tomando, o incluso son capaces de tomar, los pasos necesarios para mitigar las vulnerabilidades de seguridad de la IA. Además, cada organización encargada de hacer cumplir la ley por sí sola probablemente no tendrá suficiente poder de mercado para exigir protecciones de seguridad estrictas, mientras que el ejército sí lo tiene.

En segundo lugar, las organizaciones encargadas de hacer cumplir la ley se encuentran en un nivel significativamente más bajo de preparación en seguridad cibernética en comparación con las fuerzas armadas. El ejército, por definición, planea operar en entornos disputados con adversarios sofisticados. Como resultado, el ejército posee redes clasificadas, protocolos de seguridad cibernética establecidos y experiencia interna para identificar y abordar cualquier infracción o ataque. Muchas organizaciones policiales locales no tienen ninguna de estas protecciones. Los sistemas de datos de aplicación de la ley de los que se pueden obtener datos de entrenamiento no se mantienen con el mismo nivel de seguridad que sus contrapartes militares. Si bien todavía existe un riesgo inherente a las arquitecturas y redes seguras en la nube de los militares, este riesgo es significativamente mayor para los sistemas ad hoc no seguros empleados por las organizaciones encargadas de hacer cumplir la ley. 51  Esto establece el estándar para ejecutar ataques de IA, especialmente aquellos que se basan en obtener o corromper datos, significativamente más bajos en este dominio.

Juntos, estos desafíos son un punto especialmente preocupante dado el clima actual en el que los departamentos de policía están en la primera línea de la lucha contra el terrorismo. Un sistema tecnológico fragmentado y mal manejado puede poner en desventaja a las fuerzas policiales frente a adversarios avanzados. Esta situación puede requerir una coordinación adicional de fuentes como el DHS para unificar los estándares de compra y seguridad.

 

Inteligencia Artificial Comercial-ficación de Tareas Humanas

Una cuarta superficie de ataque importante es la rápida inteligencia artificial-ficación de tareas tradicionalmente basadas en humanos. Aunque algunas de estas aplicaciones se encuentran dentro de aplicaciones y servicios donde los ataques no tendrían consecuencias sociales graves, los ataques a otras aplicaciones podrían resultar muy peligrosos. Los vehículos y camiones autónomos dependen en gran medida de la IA para conducir de manera segura, y los ataques podrían exponer a millones de personas al peligro a diario. Algunas aplicaciones comerciales también tienen ramificaciones para la aplicación de la ley. Los quioscos automatizados de control de identidad y aduanas en los aeropuertos que son construidos y operados por empresas privadas también dependen de la IA, y los ataques podrían poner en peligro la seguridad de los cielos y las fronteras nacionales.

El costo de la falla de los sistemas de IA en este dominio ya se ha experimentado. Un automóvil autónomo de Uber atropelló y mató a un peatón en Tempe, Arizona, cuando el sistema de inteligencia artificial a bordo no detectó a un humano en la carretera. 52 Si bien no está claro si el patrón particular de este peatón es lo que causó la falla, la falla se manifestó exactamente de la misma manera en que lo haría un ataque de IA al sistema. Este ejemplo del mundo real es un presagio aterrador de la capacidad de los adversarios que intentan deliberadamente encontrar patrones de ataque para encontrar el éxito.

Las empresas comerciales han demostrado ser lamentablemente incapaces o poco dispuestas a abordar los problemas de ciberseguridad. También existen pocas regulaciones o estructuras de apoyo que alienten o ayuden en el desarrollo de protocolos de ciberseguridad, como ha quedado demostrado por la falta de regulación del Internet de las cosas y otros sistemas informáticos durante la última década. Sin las regulaciones y sanciones adecuadas por no tener en cuenta la seguridad, las empresas se han mostrado incapaces de brindar atención a los problemas de seguridad necesarios asociados con sus productos.

Para regular adecuadamente las empresas comerciales en este dominio, los legisladores deben comprender cómo progresará este desarrollo comercial de los sistemas de IA. En un escenario, las empresas individuales construirán cada una sus propios sistemas de IA patentados. Debido a que cada empresa está construyendo su propio sistema, las industrias no pueden aunar recursos para invertir en medidas preventivas y experiencia compartida. Sin embargo, esta diversificación limita la aplicabilidad de un ataque a un sistema de IA para aplicarse ampliamente a muchos otros sistemas. Además, al no agrupar los recursos del conjunto de datos, una violación del conjunto de datos tendrá consecuencias limitadas.

Sin embargo, en un segundo escenario, las empresas individuales pueden utilizar sistemas de IA compartidos proporcionados por un tercero. Esto ya está sucediendo para muchas tareas comunes de IA, incluidos los filtros de contenido ilícito y las tareas de visión por computadora. Debido a que una sola organización se especializa en construir el sistema de IA, puede invertir mejor los recursos para proteger su sistema de los ataques. Sin embargo, la creación de “monocultivos” en esta configuración amplifica el daño de un ataque, ya que un ataque exitoso comprometería no solo una aplicación, sino todas las aplicaciones que utilizan el modelo compartido. Así como los reguladores temen los monocultivos en las cadenas de suministro, ilustrados recientemente por los temores occidentales de que Huawei se convierta en el único proveedor de equipos de redes de telecomunicaciones, es posible que los reguladores deban prestar más atención a los monocultivos de modelos de IA que pueden impregnar ciertas industrias.

Es probable que diferentes industrias jueguen en uno de estos escenarios, si no en un híbrido de ambos. Esta dicotomía ya se ve en el mercado hoy en día. Las empresas de vehículos autónomos operan en gran medida en el primer escenario de “cada empresa por su cuenta”. Al mismo tiempo, la inteligencia artificial como servicio, un componente clave del segundo escenario de “monocultivo compartido”, también se está volviendo más común. Como tal, los formuladores de políticas deben estar preparados para abordar ambos escenarios, ya que cada uno requerirá intervenciones diferentes.

 

Sociedad civil

Así como no todos los usos de la IA son “buenos”, no todos los ataques de la IA son “malos”. Si bien la IA en un contexto occidental se considera en gran medida como una fuerza positiva en la sociedad, en muchos otros contextos se emplea para fines más nefastos. Países como China y otros regímenes opresivos utilizan la IA como una forma de rastrear, controlar e intimidar a sus ciudadanos. Como resultado, los “ataques” a estos sistemas, desde el punto de vista de la política estadounidense de promoción de los derechos humanos y la libertad de expresión, no serían un “ataque” en el sentido negativo de la palabra. En cambio, estos “ataques” de IA se convertirían en una fuente de protección capaz de promover la seguridad y la libertad frente a los sistemas opresivos de IA instituidos por el estado.

Esto subraya un punto importante que no debe pasarse por alto en las discusiones sobre políticas: los ataques de IA son una herramienta de “doble uso”. Según el contexto, el mismo ataque puede usarse como espada contra la sociedad libre o como escudo contra la opresión.

La detención y “reeducación” por parte de China de musulmanes uigures en la región de Xinjiang sirve como un estudio de caso sobre cómo los “ataques” de IA podrían usarse para proteger contra los abusos contra los derechos humanos patrocinados por el régimen. China utiliza sistemas de reconocimiento facial para rastrear y monitorear los movimientos y acciones de los musulmanes uigures dentro de la región. 53 Los “ataques” a estos sistemas en forma de anteojos demostraron ser universalmente exitosos para degradar los sistemas de reconocimiento facial de última generación 54iría muy lejos para ayudar a proteger a las minorías oprimidas que, de lo contrario, estarían indefensas frente a los sistemas de IA. Por lo tanto, la política de EE. UU. puede justificar el tratamiento exacto del mismo ataque/“ataque” de manera diferente según el contexto. Un secuestrador que usa estas gafas en una gasolinera para evadir la detección por parte de una fuerza policial que aplica IA para encontrar al sospechoso entre miles de transmisiones de video representa una amenaza para la seguridad social. Un musulmán uigur que usa estas gafas para evadir la detección de los funcionarios del gobierno chino representa la protección de la libertad religiosa.

Esta naturaleza de “doble uso” no es exclusiva de los ataques de IA, sino que se comparte con muchos otros “ataques” cibernéticos. Por ejemplo, los disidentes que viven bajo un régimen opresivo pueden usar el mismo método de encriptación para proteger sus comunicaciones tan fácilmente como lo pueden hacer los terroristas que planean un ataque.

En este sentido, los “ataques” de IA pueden asumir un papel similar al de Tor, las VPN y otras tecnologías utilizadas para evadir la opresión del gobierno. Así como este informe aboga por que las agencias apropiadas eduquen a sus electores sobre los riesgos que plantean los ataques de IA, también debería abogar por que las organizaciones de derechos humanos eduquen a sus electores sobre los beneficios disponibles a través de los “ataques” de IA.

Este uso dual creará decisiones políticas difíciles a medida que se desarrollen protecciones potenciales contra ataques de IA. Específicamente, si se desarrollan protecciones contra ataques de IA, ¿deberían hacerse públicas? Si compartir esta protección con instituciones y empresas estadounidenses detuviera peligrosos ataques contra ellas, la respuesta sería “sí”. Pero si las personas oprimidas de todo el mundo llegaran a depender de los “ataques” de IA para protegerse de su gobierno, y compartir esta protección les daría nuevamente la ventaja a sus regímenes opresivos, muchos pueden argumentar que la respuesta sería “no”. (Más allá del impacto en la sociedad civil, la respuesta también puede ser “no” si se supiera que la divulgación mejoraría las defensas de un adversario contra un ataque de IA).

En este sentido, los ataques de IA se encuentran en la posición única de heredar el reverso de la discusión perenne de ciberseguridad con respecto a la divulgación de vulnerabilidades. La ciberseguridad tradicional lidia con la pregunta de si las entidades (como la NSA) que descubren vulnerabilidades deben 1) divulgarlas para promover la seguridad pública y la aplicación de parches, o 2) mantenerlas en secreto y, por lo tanto, mantener su utilidad para su propia misión. Este debate se basa en el hecho de que se supone que la vulnerabilidad es (en gran parte) desconocida, pero el remedio generalmente es fácil de diseñar y aplicar. Sin embargo, con los ataques de IA ocurre lo contrario: se conoce la vulnerabilidad pero se desconoce el remedio. Esta situación potencial plantea importantes cuestiones éticas y políticas.

 

Parte III: Importancia dentro del panorama de la ciberseguridad

 

Comparación con los problemas tradicionales de ciberseguridad

Los ataques de IA son fundamentalmente de naturaleza diferente a los ataques de ciberseguridad que han recibido una mayor atención recientemente. A diferencia de las vulnerabilidades de ciberseguridad tradicionales, los problemas que crean los ataques de IA no se pueden “arreglar” ni “parchar”. Las vulnerabilidades de ciberseguridad tradicionales son generalmente el resultado de un error del programador o del usuario. Como resultado, estos errores pueden ser identificados y rectificados. Por el contrario, el problema de los ataques de IA es más intrínseco: los propios algoritmos y su dependencia de los datos son el problema.

Esta diferencia tiene ramificaciones significativas para la política y la prevención. La mitigación de las vulnerabilidades de ciberseguridad tradicionales trata de corregir “errores” o educar a los usuarios para evitar que los adversarios obtengan el control o manipulen un sistema sólido. Como reflejo de esto, las soluciones a los problemas de seguridad cibernética se han centrado en la educación del usuario, la aplicación de políticas dirigida por el departamento de TI y las modificaciones técnicas, como revisiones de código y recompensas por errores, destinadas a encontrar y corregir fallas en el código. Sin embargo, para los ataques de IA, un departamento de TI robusto y contraseñas de 90 letras no salvarán el día. Los propios algoritmos tienen las limitaciones inherentes que permiten el ataque. Incluso si un modelo de IA se entrena con estándares exigentes utilizando datos y algoritmos que nunca se han visto comprometidos, aún puede ser atacado. Esto vale la pena repetir: entre los métodos de última generación, actualmente no existe el concepto de un sistema de IA “inatactable”. Como tal, la protección contra estas vulnerabilidades algorítmicas intrínsecas requerirá un conjunto diferente de herramientas y estrategias. Esto incluye tomar medidas para dificultar la ejecución de estos ataques, así como limitar la dependencia y el alcance de las aplicaciones construidas sobre los sistemas de IA.

A pesar de esta diferencia fundamental, los dos están vinculados de manera importante. Muchos ataques de IA cuentan con la ayuda de obtener acceso a activos como conjuntos de datos o detalles del modelo. En muchos escenarios, hacerlo utilizará ciberataques tradicionales que comprometen la confidencialidad y la integridad de los sistemas, un tema bien estudiado dentro de la tríada de ciberseguridad de la CIA. Los ataques de confidencialidad tradicionales permitirán a los adversarios obtener los activos necesarios para diseñar ataques de entrada. Los ataques de integridad tradicionales permitirán a los adversarios realizar los cambios en un conjunto de datos o modelo necesarios para ejecutar un ataque de envenenamiento. Como resultado, se pueden aplicar políticas y defensa de ciberseguridad tradicionales para proteger contra algunos ataques de IA. Si bien los ataques de IA ciertamente se pueden diseñar sin los ataques cibernéticos que los acompañan,

Otra lección importante de la política de seguridad cibernética tradicional es la superioridad de la previsión y la planificación previa al despliegue sobre los remedios reaccionarios. La última década ha dado frutos venenosos de semillas tecnológicas plantadas antes del cambio de siglo. Desde una perspectiva comercial, el ritmo vertiginoso para digitalizar e interconectar la infraestructura sin la presciencia de mantener un ritmo similar con la defensa de la seguridad cibernética ha generado pérdidas de miles de millones de dólares por ataques cibernéticos. 55  Desde una perspectiva social, la marcha inquebrantable para conectar el mundo a través de las redes sociales y la renuencia del gobierno a investigar su poder ha llevado a su uso exitoso como mecanismo de reclutamiento de terroristas, portavoz e incitador del genocidio y la interrupción de los procesos electorales democráticos. . No es seguro que estos problemas se pudieran haber evitado por completo mediante una mejor planificación y regulación. Sin embargo, lo cierto es que hubiera sido más fácil prevenirlos que solucionarlos ahora.

Dada la atención actual que los problemas de seguridad cibernética están recibiendo del público y del gobierno, el clima es adecuado para tomar medidas proactivas que permitan el uso beneficioso de la IA mientras se mitiga la amenaza de ataque asociada antes de la expansión de estos algoritmos a la seguridad. infraestructura y aplicaciones críticas.

 

Armamento ofensivo

Cualquier vulnerabilidad cibernética puede convertirse en un arma cibernética. Lo mismo se aplica a los ataques de IA, especialmente en contextos militares y de inteligencia. La promesa potencial de esto se basa en la creencia de que otros países pueden comenzar a integrar la IA y el aprendizaje automático en las líneas de toma de decisiones militares y las armas automatizadas. 56 China y otros adversarios potenciales están invirtiendo fuertemente en inteligencia artificial y aprendizaje automático. Muchos creen que estas habilidades se integrarán en sus fuerzas armadas. 57  El teniente general John Shanahan, director del Centro Conjunto de Inteligencia Artificial, cree que las capacidades de aprendizaje automático/inteligencia artificial de los enemigos potenciales se desarrollarán tanto en guerras futuras que el uso de las mismas tecnologías por parte de EE. UU. “… no es un caso en el que nosotros va a compensar a alguien. Sin embargo, seremos compensados ​​si no lo hacemos [desarrollar estas capacidades]”. 58

En este sentido, Estados Unidos tiene la oportunidad de armar los ataques de IA contra los sistemas de IA de sus adversarios. Si lo hace, se daría cuenta de dos grandes beneficios. Primero, convertiría una fortaleza en desarrollo de los principales enemigos geopolíticos de Estados Unidos en una debilidad. El enfoque de las inversiones de China y otros países en IA se basa en un intento de compensar la superioridad tradicional de Estados Unidos en el campo de batalla. Como ejemplo, China cree que la estrategia actual de EE. UU. en un conflicto potencial puede tomar la forma de una demostración de fuerza rápida y abrumadora para degradar la capacidad de China para hacer la guerra. 59  Debido a que los recursos militares tradicionales pueden no ser suficientes para ganar un conflicto frente a ataques abrumadores y rápidos en áreas costeras y redadas en su interior, China puede buscar sistemas de armas autónomos para enfrentar los ataques estadounidenses a una velocidad a la que los humanos no podrían operar. La estrategia de EE. UU. deberá evolucionar para contrarrestar esta nueva estrategia basada en IA. Un componente clave de esta estrategia debería incluir ataques ofensivos de IA para degradar el rendimiento de los sistemas automatizados enemigos. En este sentido, los ataques de IA serían una versión moderna de interferencia de radar.

En segundo lugar, el desarrollo de capacidades ofensivas de ataque de IA generaría un importante conocimiento institucional dentro del ejército de los EE. UU. que luego podría usarse para fortalecer sus propios sistemas contra ataques. Todo trabajo exitoso en el desarrollo de capacidades ofensivas se duplicaría como un estudio de caso importante en técnicas preventivas ineficaces, y podría usarse para probar los sistemas de IA de los EE. UU. Esta experiencia será esencial para prepararse para el próximo conflicto potencial dado que es poco probable que EE. UU. adquiera experiencia en el campo de batalla con ataques de IA, tanto en el extremo receptor como en el transmisor, hasta que ya esté en un conflicto militar con un adversario avanzado. Para estar preparado en este primer encuentro, es importante que EE. UU., después de diseñar ataques exitosos contra los adversarios,

Sin embargo, el armamento ofensivo de los ataques de IA no estaría exento de riesgos. La creación de ataques ofensivos contra los sistemas de última generación que están desplegados correría el riesgo de la difusión de estos ataques en manos enemigas. Este riesgo es bien conocido con otras armas cibernéticas. En particular, la NSA ha sido criticada por no revelar el exploit EternalBlue responsable de ataques graves, incluidos WannaCry y NotPetya. 60 La creación de armas de ataque de IA ofensivas contra sistemas de los que el país anfitrión o sus aliados también dependen puede crear riesgos similares de que el arma se vuelva contra activos amigos.

En el contexto de los ataques de IA, si se cree que el desarrollo del ataque de IA es tan sofisticado que no se espera que otra entidad pueda crear el ataque por sí misma, existen riesgos de difusión. En este caso, el temor de un ataque que podría volverse contra el país anfitrión y llegar a la esfera pública puede ser mayor que los beneficios que el ataque puede brindar, creando un incentivo contra el uso de armas ofensivas. Sin embargo, estos riesgos solo se aplican si el país anfitrión o sus aliados utilizan un sistema similar vulnerable al mismo ataque.

Sin embargo, en otros aspectos, la difusión en el contexto de los ataques de IA es de naturaleza diferente a la de otras ciberarmas ofensivas. A diferencia de las vulnerabilidades que permiten muchos ataques cibernéticos tradicionales, se cree que las vulnerabilidades que permiten los ataques de IA no se pueden reparar. Como tal, puede haber menos desventajas en explotarlo. Esto se debe al hecho de que debido a que, por definición, no hay forma de protegerse contra la vulnerabilidad, se incentiva a un adversario a explotarla independientemente de las acciones del país anfitrión. Como resultado, frente a esta vulnerabilidad permanente, la explotación de esa vulnerabilidad por parte de un país anfitrión puede no tener ningún efecto sobre la capacidad de su adversario para hacerlo. Si el armamento ofensivo no tiene impacto en el comportamiento de un adversario, elimina el riesgo asociado.

Esto representa una situación diferente a la del armamento cibernético tradicional. En la armamentización cibernética tradicional, existe una tensión entre 1) notificar al operador del sistema para permitir la aplicación de parches y 2) mantener la vulnerabilidad en secreto para explotarla. Esta tensión se basa en el hecho de que si una parte descubre una vulnerabilidad, es probable que otra parte, posiblemente hostil, también lo haga. Por lo tanto, el impulso para informar la vulnerabilidad se basa en el temor de que un adversario robe o descubra la vulnerabilidad también y, por lo tanto, es necesario parchear los sistemas afectados antes de que esto ocurra para reducir la exposición a la vulnerabilidad. Continuando con el ejemplo de EternalBlue, se critica a la NSA no por usar EternalBlue, sino por no informarlo para mantener su utilidad.

Juntos, esto permite llegar a la siguiente conclusión: si una vulnerabilidad no se puede reparar y ya puede ser explotada de manera efectiva por un adversario, es posible que los temores tradicionales de difusión no se apliquen, lo que deja la puerta abierta al uso de armas ofensivas. Sin embargo, si una vulnerabilidad no se puede reparar pero probablemente no pueda ser explotada por un adversario solo, se aplican los temores tradicionales de difusión, y los riesgos asociados deben sopesarse frente a los beneficios del ataque.

 

Consideraciones de practicidad

¿Son prácticos los ataques de IA hasta el punto de representar una verdadera amenaza? Dada su juventud, es una pregunta importante. El retroceso a la consideración seria de esta amenaza de ataque se centrará en la destreza tecnológica de los atacantes. Dado que este método de ataque se basa en técnicas sofisticadas de inteligencia artificial, muchos pueden consolarse falsamente con el hecho de que las barreras técnicas del método de ataque proporcionarán una barrera natural contra el ataque. Como resultado, algunos pueden decir que los ataques de IA no merecen la misma consideración que sus contrapartes de ataques de ciberseguridad tradicionales.

Esta vista es incorrecta. La historia reciente de un flagelo similar con igual sofisticación técnica muestra por qué. Deepfake, un método para crear videos sintéticos falsos utilizando métodos complejos de inteligencia artificial, experimentó un uso generalizado por parte de usuarios no técnicos para crear videos pornográficos falsos de celebridades a pesar de su sofisticación técnica avanzada. 61  El uso popular se dio a tal grado que incluso se creó una página de Reddit donde la gente compartía sus videos caseros.

Al igual que los ataques de IA, la tecnología detrás de Deepfakes comparte una sofisticación técnica similar, si no más avanzada. Sin embargo, a pesar de que la técnica vive en la intersección de la inteligencia artificial de vanguardia, la visión por computadora y la investigación de procesamiento de imágenes, una gran cantidad de aficionados sin antecedentes técnicos pudieron utilizar el método para producir los videos.

Esto se debió a dos factores habilitadores, los cuales se pueden aplicar para obtener información sobre la practicidad de los ataques de IA. Primero, aunque la tecnología subyacente detrás de Deepfakes era sofisticada, fue posible crear herramientas que simplificaron la aplicación del método. En el caso de Deepfake, se creó una aplicación que abstrajo todos los detalles técnicos, esencialmente destilando la aplicación de un algoritmo complicado para arrastrar y soltar y un solo clic de un botón. 62  Esto permitió que los actores no técnicos aprovecharan fácilmente el poder del algoritmo. Esta no es la primera vez que este rodeo se desarrolla en el dominio cibernético: un conjunto similar de herramientas también ha proliferado en el dominio tradicional de la ciberseguridad, lo que permite que actores no técnicos participen en campañas como los ataques de denegación de servicio distribuido (DDoS). 63

En segundo lugar, la proliferación de hardware informático potente pero económico significa que casi todos tienen el poder de ejecutar estos algoritmos en sus computadoras portátiles o computadoras para juegos. Si bien esto se espera en contextos militares frente a un adversario con capacidades técnicas modernas, tiene una influencia significativa en la capacidad de los actores no estatales y las personas deshonestas para ejecutar ataques de IA. Junto con las aplicaciones que podrían crearse para permitir la automatización de la elaboración de ataques de IA, la disponibilidad de hardware informático económico elimina la última barrera para la ejecución fácil y exitosa de estos ataques de IA.

Ambos factores habilitadores se aplicarán para hacer que la creación de ataques de IA sea más fácil y accesible. Ya se han creado herramientas para crear ataques de IA, 64 y sería un proyecto de fin de semana convertirlas en una operación de un solo clic y empaquetarlas para un uso generalizado. Para los ataques de entrada, las herramientas permitirán que un adversario cargue un conjunto de datos robados en una aplicación y escupa rápidamente ataques de entrada personalizados. El fácil acceso a la potencia informática significa que esta aplicación podría ejecutarse en la propia computadora del atacante o podría conectarse a plataformas basadas en la nube. sesenta y cinco  Para los ataques a la integridad y la confidencialidad que probablemente acompañen a algunos ataques de envenenamiento modelo, varios ciberataques existentes podrían cooptar para este propósito. Como resultado, se puede desarrollar fácilmente un entorno de viabilidad en torno a los ataques de IA, como se ha desarrollado en torno a Deepfakes y otros ciberataques.

Además, el hecho de que los ecosistemas tecnológicos no se hayan adaptado para prevenir estos ataques amplificará aún más el éxito de estas herramientas. Por ejemplo, debido a que muchos sistemas de IA tienen API basadas en la web, las aplicaciones podrían desarrollarse fácilmente para interactuar directamente con las API para generar ataques a pedido. Para atacar un filtro de contenido de imagen con una API basada en la web, los atacantes simplemente proporcionarían una imagen a la aplicación, que luego generaría una versión de la imagen capaz de engañar al filtro de contenido pero permanecer indistinguible del original para el ojo humano.

Como resultado de este entorno, los ataques de IA estarán dentro del alcance de las capacidades tanto de los adversarios geopolíticos avanzados como de los individuos, y todos los demás.

 

Parte IV: “Cumplimiento de la seguridad de la IA” como solución de política para los ataques de la IA

Este informe propone la creación de programas de “Cumplimiento de la seguridad de la IA” como principal mecanismo de política pública para protegerse contra los ataques de la IA. Los objetivos de estos programas de cumplimiento son 1) reducir el riesgo de ataques a los sistemas de IA y 2) mitigar el impacto de los ataques exitosos.

Los programas de cumplimiento lograrán estos objetivos al alentar a las partes interesadas a adoptar un conjunto de mejores prácticas para proteger sus sistemas y hacerlos más robustos contra los ataques de IA. Estas mejores prácticas administran todo el ciclo de vida de los sistemas de IA frente a los ataques de IA. En la etapa de planificación, obligarán a las partes interesadas a considerar los riesgos y las superficies de ataque al planificar e implementar sistemas de IA. En la etapa de implementación, alentarán la adopción de reformas de TI que harán que los ataques sean más difíciles de ejecutar. En la etapa de mitigación para enfrentar los ataques que inevitablemente ocurrirán, requerirán el despliegue de planes de respuesta a ataques creados previamente.

Este programa se basa en los programas de cumplimiento existentes en otras industrias, como el cumplimiento de PCI para asegurar las transacciones de pago. 66 Desde un punto de vista práctico, los programas de cumplimiento serían implementados por los organismos reguladores apropiados para sus constituyentes relevantes.

Esta sección establece un programa general de cumplimiento de seguridad de IA que puede ser la base de los programas de cumplimiento adoptados por la industria y los reguladores. Las industrias y los sectores que adoptan este tipo de programa de cumplimiento pueden personalizar los componentes para que se ajusten a sus necesidades. La siguiente sección describe los detalles de implementación y aplicación.

Requisitos de cumplimiento de la etapa de planificación

Los requisitos de cumplimiento de la etapa de planificación se centran en garantizar que las partes interesadas hayan evaluado los riesgos inherentes al proceso de planificación de la creación de sistemas de IA. Esto incluye evaluar adecuadamente los riesgos asociados con el sistema de IA y tomar medidas para asegurar otras actividades de preparación, como la recopilación de conjuntos de datos.

 

Pruebas de idoneidad de IA

Llevar a cabo “Pruebas de idoneidad de la IA” que evalúen los riesgos de las aplicaciones actuales y futuras de la IA. Estas pruebas deben dar como resultado una decisión sobre el nivel aceptable de uso de IA dentro de una aplicación determinada. Estas pruebas deben sopesar la vulnerabilidad de la aplicación al ataque, la consecuencia de un ataque y la disponibilidad de métodos alternativos no basados ​​en IA que se pueden usar en lugar de los sistemas de IA.

Al decidir si construir un sistema de IA, las partes interesadas deben realizar una “prueba de idoneidad de IA” para revisar los riesgos asociados con el sistema de IA propuesto. Los resultados de estas pruebas deben ser un estudio de los riesgos que plantea el sistema de IA y una determinación de cuánto uso de IA es apropiado para la aplicación dada. Esto puede variar desde la autonomía total de la IA, pasando por el uso mixto de IA/humanos con diversos grados de supervisión humana, hasta ningún uso de IA en absoluto.

Estas pruebas de idoneidad deben basarse en principios y equilibrar los daños potenciales con la necesidad de fomentar la innovación y el desarrollo de nuevas tecnologías. El enfoque de las evaluaciones debe incluir las aplicaciones actuales y futuras de la IA.

Las pruebas de idoneidad de la IA deben centrarse en responder cinco preguntas:

  • Valor: ¿Cuál es el valor agregado por el sistema de IA?
  • Facilidad de ataque: ¿Qué tan fácil será para un adversario ejecutar un ataque en el sistema de IA?
  • Daño: ¿Cuál será el daño incurrido por un ataque al sistema de IA?
  • Costo de oportunidad: ¿Cuáles son los costos de no implementar el sistema de IA?
  • Alternativas: ¿Existen alternativas al sistema de IA?

Ahora discutimos cada componente brevemente. El valor del sistema de IA debe examinarse a la luz del beneficio económico y social que se espera que brinde el sistema. Esta será, por naturaleza, una medida subjetiva, pero las entidades que decidan adoptar la IA deberían poder justificar el valor que creen que entregará en caso de una auditoría o revisión externa.

Determinar la facilidad de atacar un sistema en particular será una parte integral de estas pruebas de idoneidad de IA. El grado de vulnerabilidad puede estar determinado por características tales como la disponibilidad pública de conjuntos de datos, la capacidad de construir fácilmente conjuntos de datos similares y otras características técnicas que facilitarían la ejecución de un ataque. Un ejemplo de una aplicación que podría ser particularmente vulnerable a un ataque es un sistema militar que clasifica automáticamente las aeronaves de un adversario. El conjunto de datos para esta tarea probablemente consistiría en firmas de radar recopiladas de la aeronave del adversario. Incluso si el propio país recopiló los datos, los almacenó de manera perfecta y segura con encriptación, y tenía una detección de intrusiones impecable, todo lo cual garantizaría que el adversario no pudiera obtener estos datos y usarlos para formular un ataque; el adversario aún podría ejecutar un ataque exitoso creando un conjunto de datos similar desde cero, lo que podría hacerse fácilmente porque el adversario claramente tiene acceso a su propio avión. Por lo tanto, esto permitiría al adversario diseñar un ataque sin tener que comprometer el conjunto de datos o el modelo original. Como resultado, si esta aplicación se consideró fácil de atacar, es posible que un sistema de IA no sea adecuado para esta aplicación en particular. Por lo tanto, esto permitiría al adversario diseñar un ataque sin tener que comprometer el conjunto de datos o el modelo original. Como resultado, si esta aplicación se consideró fácil de atacar, es posible que un sistema de IA no sea adecuado para esta aplicación en particular. Por lo tanto, esto permitiría al adversario diseñar un ataque sin tener que comprometer el conjunto de datos o el modelo original. Como resultado, si esta aplicación se consideró fácil de atacar, es posible que un sistema de IA no sea adecuado para esta aplicación en particular.

El daño que puede precipitar un ataque debe evaluarse en términos de la probabilidad de un ataque y las ramificaciones del ataque. Es posible que las entidades deseen realizar ejercicios de “equipo rojo” y consultas con las fuerzas del orden público, académicos y grupos de expertos para comprender qué daños se pueden producir a partir de un ataque exitoso contra un sistema de IA.

El costo de oportunidad de no implementar un sistema de IA también debe incorporarse en la ecuación de la prueba de idoneidad. Los riesgos de un ataque no eliminan los beneficios sociales que se espera que brinde la IA. Como tal, también se debe considerar el costo de no implementar el sistema.

Finalmente, se debe considerar la existencia de alternativas que no sean de IA, o la falta de ellas. Si existen buenas alternativas que son capaces de realizar una función similar con costos similares, la IA no debe necesariamente adoptarse sobre una alternativa en nombre de la innovación o el progreso. Sin embargo, si no existen alternativas razonables, esto puede proporcionar un ímpetu adicional para la adopción de la IA incluso ante un ataque.

Una vez que cada una de estas preguntas haya sido suficientemente respondida, deben sopesarse para llegar a una determinación de cuánto riesgo presenta el sistema, y ​​esto debe usarse para tomar una decisión de implementación. Tal como pueden haber elegido hacerlo al responder las preguntas, las partes interesadas pueden desear consultar nuevamente con las fuerzas del orden público, académicos, pensadores y otras entidades externas para llegar a una decisión. Las entidades pueden consultar la metodología de análisis de costos de la Administración Nacional de Seguridad del Tráfico en las Carreteras en busca de inspiración para tomar una decisión de implementación. 67

Esta decisión de implementación debe indicar cuánta IA se debe usar dentro de una aplicación, que va desde el uso completo, pasando por el uso limitado con supervisión humana, hasta el no uso. Este espectro afirma que la vulnerabilidad a los ataques no significa necesariamente que una aplicación en particular no sea adecuada para la IA. En cambio, la idoneidad debe medirse por los resultados informados de la prueba de idoneidad, especialmente las preguntas sobre las consecuencias de un ataque y la disponibilidad de otras opciones.

Como ejemplo ilustrativo de esta compensación cuidadosa, considere el ejemplo del filtrado de contenido extremista en una red social. Ya hemos determinado que esta aplicación es valiosa pero vulnerable a los ataques. En términos de daño por ataque, en el peor de los casos, un ataque hará que los filtros de contenido sean ineficaces, un resultado que no es peor que no implementarlos en primer lugar. En términos de disponibilidad de otras opciones, el filtrado basado en IA es quizás la única técnica que es capaz de operar a una escala suficiente dada la gran cantidad de contenido que se agrega diariamente a las redes sociales. Como resultado, esta aplicación aún sería adecuada para la IA, dada la falta de alternativas y el bajo daño colateral de un ataque. Sin embargo, aunque la IA puede seguir siendo apropiada en este caso, no absuelve a la red social de los esfuerzos preventivos y de mitigación para contrarrestar los ataques. Por ejemplo, la red social puede necesitar determinar la participación humana y la supervisión del sistema, por ejemplo, mediante la ejecución de auditorías manuales periódicas del contenido para identificar cuándo sus sistemas han sido atacados, y luego tomar las medidas apropiadas, como una mayor revisión humana del material vigilado. por el sistema comprometido.

Este ejemplo también demuestra que los resultados de estas pruebas de idoneidad de IA no tienen por qué ser binarios. Pueden, por ejemplo, sugerir un nivel objetivo de confianza en la IA en el espectro entre la autonomía total y el control humano total. Esto puede permitir el desarrollo tecnológico sin dejar una aplicación vulnerable a un monocultivo potencialmente comprometido. El Departamento de Defensa se ha pronunciado sobre la adopción de esta estrategia en su desarrollo de sistemas habilitados para IA, aunque por razones adicionales. En esta estrategia de carril medio, los sistemas habilitados para IA se pueden usar para aumentar los procesos controlados por humanos, pero no para reemplazar completamente a los operadores humanos. A través de este carril central, un ataque exitoso no tendría todo el efecto deseado. Las partes interesadas pueden buscar inspiración en la industria de vehículos autónomos para categorizar la participación humana en los sistemas de IA,

En cuanto a la implementación de estas pruebas de idoneidad, los reguladores deben desempeñar un papel de apoyo. Deben proporcionar pautas sobre las mejores prácticas sobre cómo realizar las pruebas. En áreas que requieren más supervisión regulatoria, los reguladores deben escribir pruebas específicas de dominio y métricas de evaluación que se utilizarán. En áreas que requieren menos supervisión regulatoria, deben redactar pautas generales a seguir. Más allá de esto, los reguladores deben brindar asesoramiento y asesoramiento cuando sea necesario, tanto para ayudar a las entidades a responder las preguntas que componen las pruebas como para tomar una decisión final de implementación.

Más allá de esta función de apoyo, los reguladores deben afirmar que utilizarán el esfuerzo de una entidad para ejecutar una prueba de idoneidad para decidir la culpabilidad y la responsabilidad si se producen ataques. Como es el caso con otros esfuerzos de cumplimiento, una empresa que demuestre que hizo un esfuerzo de buena fe para llegar a una decisión informada a través de una prueba de idoneidad puede enfrentar consecuencias más indulgentes por parte de los reguladores en caso de ataques que aquellas que ignoraron las pruebas.

Debido a que los sistemas de IA ya se han implementado en áreas críticas, las partes interesadas y las agencias reguladoras correspondientes también deben aplicar retroactivamente estas pruebas de idoneidad a los sistemas ya implementados. Con base en el resultado de las pruebas, las partes interesadas o los reguladores deben determinar si algún sistema de IA implementado es demasiado vulnerable a los ataques para una operación segura con su nivel actual de uso de IA. Los sistemas que se consideren demasiado vulnerables deben actualizarse rápidamente y, en ciertos casos, desconectarse hasta que se completen dichas actualizaciones.

 

Revisar y actualizar las políticas de datos

Revisar y actualizar las prácticas de recopilación e intercambio de datos para protegerse contra el uso de datos como armas contra los sistemas de inteligencia artificial. Esto incluye la validación formal de las prácticas de recopilación de datos y la restricción del intercambio de datos.

Los usuarios de IA deben revisar y proteger sus políticas de recopilación e intercambio de datos. Estas revisiones deben ser formales, identificar las formas emergentes en que los datos pueden usarse como armas contra los sistemas y usarse para dar forma a las prácticas de recopilación y uso de datos. El resultado de estas revisiones debe ser políticas escritas que rijan cómo se recopilan y comparten los datos utilizados en la construcción de un sistema de IA.

Estas revisiones son necesarias porque los datos pueden surgir como un arma poderosa en la era de los ataques de IA, y se deben tomar medidas para que las partes interesadas se den cuenta de los peligros que los datos pueden representar ahora. Esto es especialmente importante porque este nuevo peligro contrasta fuertemente con la reputación actual de los datos en la sociedad: los datos actualmente se consideran de manera generalizada como “oro digital” dentro del sector privado, el gobierno y el ejército. Sin embargo, debido a que la IA depende casi por completo de los datos, los datos son una vía directa a través de la cual realizar ataques de IA. En este sentido, al igual que los poderosos caminos de Roma fueron vueltos contra ellos por sus enemigos, los ataques de IA y otras formas de guerra de información pueden convertir de manera similar los datos de la panacea que se aclama hoy en una vulnerabilidad en una sociedad dominada por IA.

Los usuarios de IA deberán repensar fundamentalmente sus prácticas de datos para protegerse de que se utilicen como armas contra ellos. Las prácticas de datos tendrán que cambiar de dos maneras principales: las prácticas de recopilación deben validarse y el intercambio de datos debe restringirse. Como se analiza a continuación, estos dos cambios en las prácticas desafiarán las actitudes actuales hacia los datos.

Validar prácticas de recopilación de conjuntos de datos

Los usuarios de IA deben validar sus prácticas de recopilación de datos para tener en cuenta los riesgos que los conjuntos de datos manipulados, inexactos o incompletos representan para los sistemas de IA. Los datos pueden armarse para ejecutar ataques de IA, específicamente ataques de envenenamiento. Por cada conjunto de datos recopilado, los usuarios de IA deben hacerse las siguientes preguntas para identificar posibles debilidades en el conjunto de datos que podrían explotarse para ataques de IA:

¿Cómo podrían los adversarios haber manipulado los datos recopilados?

Si el adversario controla las entidades sobre las que se recopilan los datos, puede manipularlas para influir en los datos recopilados. Por ejemplo, considere un conjunto de datos de firmas de radar de las aeronaves de un adversario. Debido a que el adversario tiene control sobre sus propios aviones, puede alterarlos para alterar los datos recopilados. Los adversarios no necesitan ser conscientes de que se recopilan datos para manipular el proceso. La existencia de la posibilidad de que se recopilen datos puede ser una amenaza suficiente para ejecutar este tipo de campañas de influencia.

¿Es consciente el adversario de que se están recopilando datos?

Si un adversario es consciente de que se están recopilando datos, puede intentar interferir en algún aspecto del proceso de recopilación para alterar los datos recopilados. Un ejemplo análogo del dominio de ciberseguridad tradicional puede ilustrar este ejemplo. Cuando EE. UU. se dio cuenta de que Rusia estaba robando el software de control de oleoductos, modificaron deliberadamente el software para introducir una falla en el software que provocaría la explosión de un oleoducto. 68 Análogamente en el dominio de los datos, si un adversario sabe que se recopilan datos para utilizarlos en un sistema de IA, puede tomar medidas adicionales para interferir en el proceso de recopilación de datos y corromper los datos recopilados.

¿Cómo se prepararon los datos?

Una vez que se recopilan los datos, generalmente requieren procesamiento para prepararlos para su uso con sistemas de entrenamiento de IA. Este proceso de preparación presenta oportunidades para robar o envenenar el conjunto de datos y, por lo tanto, el sistema de IA posterior.

¿Qué imprecisiones pueden existir en el conjunto de datos?

Los conjuntos de datos pueden contener puntos de datos inexactos por varias razones. Para nombrar algunos casos comunes, los puntos de datos pueden estar mal etiquetados, corrompidos o inherentemente defectuosos. Estos errores no se derivan necesariamente de las acciones de un adversario. Pueden surgir a través de procesos completamente naturales, como el error humano y la falla del sensor. Debido a que los conjuntos de datos pueden contener millones de puntos de datos, es fácil pasar por alto los errores que existen en el conjunto de datos que pueden afectar los sistemas de IA posteriores y dejarlos abiertos a ataques.

¿Faltan datos o están insuficientemente representados en un conjunto de datos recopilados?

Los sistemas de IA solo pueden aprender conceptos encapsulados dentro de un conjunto de datos. Si faltan tipos clave de datos o no están suficientemente representados en un conjunto de datos recopilados, el sistema de IA resultante no podrá funcionar correctamente cuando se encuentre con situaciones no representadas en su conjunto de datos.

Una vez que hayan respondido estas preguntas, los usuarios de IA deben evaluar qué riesgos existen dentro del conjunto de datos y tomar medidas correctivas:

  • Si existe el riesgo de que los adversarios hayan podido manipular los datos en sí, se deben tomar medidas adicionales para validar los datos y eliminar los datos sospechosos.
  • Si existe el riesgo de que el proceso de preparación de datos se haya visto comprometido, es posible que sea necesario volver a prepararlos o desecharlos.
  • Si existe el riesgo de que el conjunto de datos no esté completo, es posible que sea necesario recopilar datos adicionales.

Restringir el intercambio de datos

Los sistemas críticos de IA deben restringir cómo y cuándo se comparten los datos utilizados para construirlos para que los ataques de IA sean más difíciles de ejecutar. Para aplicaciones críticas, como regla, los datos no deben compartirse de forma predeterminada. Las excepciones deben estar bien razonadas. Las políticas de intercambio de datos resultantes deben escribirse y seguirse explícitamente.

Esta restricción en el intercambio de datos es necesaria porque el conocimiento del conjunto de datos utilizado para entrenar el sistema de IA facilita significativamente la ejecución de ataques de IA. Sin embargo, esto contrasta marcadamente con las políticas actuales de intercambio de datos que fomentan el intercambio de datos. El Plan Estratégico Nacional de Investigación y Desarrollo de Inteligencia Artificial del Gobierno Federal exige explícitamente el intercambio abierto de datos entre agencias. 69  El movimiento de código abierto prioriza el intercambio de datos y los conjuntos de datos abiertos. La base de los esfuerzos de IA del DoD “incluye datos compartidos, herramientas reutilizables, marcos, bibliotecas y estándares…” 70  debido al hecho de que estos conjuntos de datos militares son costosos, tanto en términos de tiempo como de dinero, para recopilar y preparar. 71  Estos ejemplos afirman que las normas de intercambio de datos no son universalmente incorrectas y se basan en otras prácticas legítimas. Sin embargo, estas normas establecidas son incorrectas para ciertos contextos y aplicaciones de alta seguridad. Cuando los datos se comparten ampliamente, existe un mayor riesgo de que sean robados o copiados accidentalmente en sistemas inseguros.

Como tal, al escribir políticas de intercambio de datos, los usuarios de IA deben desafiar estas normas establecidas, considerar los riesgos que plantea el intercambio de datos y dar forma a las políticas de intercambio de datos en consecuencia. Sin esto, los partidos constituyentes pueden no darse cuenta de la importancia estratégica que los datos brindan a los atacantes y, por lo tanto, es posible que no tomen las medidas necesarias para protegerlos en ausencia de una política explícita.

Una vez que se escribe una política de intercambio de datos para un conjunto de datos en particular, debe implementarse de tal manera que se espere razonablemente que se siga. Los datos, por naturaleza, fluyen libremente: en cuestión de segundos, gigabytes de datos pueden fluir fácilmente a través de un enlace de red y comprometer la seguridad de toda una organización. La implementación de políticas de intercambio de datos debe centrarse en hacer que los datos sean más “pegajosos” para que no fluyan fácilmente hacia donde no deberían estar. No se debe permitir que existan excepciones no escritas en las que los datos se comparten informalmente. El cifrado de datos específico del usuario y de la aplicación se puede utilizar con este fin para restringir el intercambio accidental o inapropiado. Esto facilitará la atribución de prácticas inadecuadas de intercambio de datos para que las partes infractoras puedan rendir cuentas.

 

Requisitos de Cumplimiento de la Etapa de Implementación

Los requisitos de cumplimiento de la etapa de implementación se centran en garantizar que las partes interesadas tomen las medidas de precaución adecuadas a medida que construyen e implementan sus sistemas de IA. Esto incluye proteger los activos que se pueden usar para lanzar ataques de IA y mejorar los sistemas de detección que pueden advertir cuando se están formulando ataques.

 

Activos blandos seguros

Proteja los activos que se pueden usar para crear ataques de IA, como conjuntos de datos y modelos, y mejore la ciberseguridad de los sistemas en los que se almacenan estos activos.

Los operadores de sistemas de IA deben reconocer la necesidad estratégica de proteger los activos que se pueden usar para crear ataques de IA, incluidos conjuntos de datos, algoritmos, detalles del sistema y modelos, y tomar medidas concretas para protegerlos. En muchos contextos, estos activos actualmente no se tratan como activos seguros, sino como activos “blandos” que carecen de protección. Esto se debe a que la amenaza de los ataques de IA no es ampliamente conocida y, como tal, estos activos críticos se tratan con estándares de seguridad más bajos en comparación con los activos “duros”, como las contraseñas, que se almacenan con altos estándares de seguridad y encriptación. Esto ya no puede ser el caso. Las aplicaciones críticas que emplean IA deben adoptar un conjunto de mejores prácticas para fortalecer la seguridad de estos activos.

Estas mejores prácticas deben formularse con aportes conjuntos de expertos en seguridad y expertos en el dominio para cada aplicación, y es probable que incluyan cambios como transmitir datos únicamente a través de redes clasificadas o encriptadas, encriptar los datos almacenados para protegerlos incluso si el sistema está comprometido, y mantener en secreto los detalles del sistema, como las herramientas y los hiperparámetros del modelo.

Fortalecer estos objetivos “suaves” será un componente integral de la defensa contra los ataques de IA. Esto se debe a que las dos formas destacadas de ataques de IA discutidos aquí, ataques de entrada y de envenenamiento, son más fáciles de ejecutar si el atacante tiene acceso a algún componente del sistema de IA y canal de entrenamiento. Esto ha transformado una amplia gama de activos que abarcan las canalizaciones de capacitación e implementación de IA en objetivos para posibles atacantes. Específicamente, estos activos incluyen los conjuntos de datos utilizados para entrenar los modelos, los propios algoritmos, los detalles del sistema y del modelo, como qué herramientas se utilizan y la estructura de los modelos, los recursos informáticos y de almacenamiento que albergan estos activos, y los propios sistemas de IA desplegados.

Fortalecer cada parte del sistema de IA requerirá diferentes enfoques. Para los conjuntos de datos, el desafío será proteger los sistemas en los que se almacenan los datos y reevaluar paradigmas como las directivas de intercambio de datos de código abierto para aplicaciones confidenciales, como se discutió anteriormente. Mantener los conjuntos de datos seguros es una clave para protegerse contra los ataques de IA: si los adversarios obtienen el conjunto de datos utilizado para entrenar un modelo, pueden usarlo para aplicar ingeniería inversa al modelo y luego usar esta copia construida para crear ataques. Como resultado, los datos deben administrarse durante toda su procedencia o vida útil. Comenzando por cómo y cuándo se recopilan los datos, cómo se etiquetan, cómo se almacenan, cómo se accede a ellos durante el proceso de entrenamiento del modelo y cómo se archivan, los datos deben mantenerse en secreto y completamente protegidos. Para lograr esto, en todos los puntos de este proceso, Es posible que los datos deban cifrarse con el cifrado más potente posible y el acceso a las claves de descifrado debe gestionarse de forma segura. Para protegerse contra los ataques a la integridad de los datos, se pueden adoptar nuevas tecnologías como las cadenas de bloques.

Establecer una norma para fortalecer este objetivo “suave” será un desafío porque va en contra de los hábitos y pensamientos establecidos en torno a los datos. En muchas aplicaciones, los datos no se consideran ni se tratan como confidenciales o clasificados, e incluso pueden compartirse amplia y abiertamente.

Este endurecimiento debe extenderse al propio modelo. Incluso si los datos están debidamente protegidos y se entrena un modelo no comprometido, el modelo en sí debe protegerse. Un modelo entrenado es solo un archivo digital, no diferente de una imagen o documento en una computadora. Como tal, al igual que otros activos digitales, puede ser robado o corrompido. Si se roba un modelo, crear un ataque es relativamente fácil. Si un modelo no comprometido se corrompe o se reemplaza por uno corrompido, todos los demás esfuerzos de protección son completamente discutibles. Como tal, el modelo en sí debe reconocerse como un activo crítico y protegerse, y los sistemas informáticos y de almacenamiento en los que se almacena y ejecuta el modelo deben tratarse de manera similar con altos niveles de seguridad.    

Sin embargo, las tendencias recientes en la forma en que se utilizan los modelos complicarán los esfuerzos para protegerlos. Recientemente, los modelos ya no residen ni operan exclusivamente dentro de los centros de datos donde la seguridad y el control pueden centralizarse, sino que se envían directamente a dispositivos como sistemas de armas y productos de consumo. Este cambio es necesario para las aplicaciones en las que es imposible o poco práctico enviar datos desde estos dispositivos “de borde” a un centro de datos para que los procesen los modelos de IA que viven en la nube. Por ejemplo, en el caso de los sistemas de armas, esto puede ser imposible porque el enemigo ha bloqueado los canales de comunicación. En el caso de las aplicaciones de consumo, como los automóviles autónomos, esto puede resultar poco práctico porque el dispositivo no recibirá una respuesta lo suficientemente rápida para cumplir con los requisitos de la aplicación.

Independientemente de la razón para hacerlo, colocar modelos de IA en dispositivos perimetrales hace que protegerlos sea más difícil. Debido a que estos dispositivos de borde tienen un componente físico (por ejemplo, como es el caso de vehículos, armas y drones), pueden caer en manos de un adversario. Se debe tener cuidado de que, si estos sistemas se capturan o controlan, no se puedan examinar ni desarmar para ayudar a diseñar un ataque. En otros contextos, como con los productos de consumo, los adversarios poseerán físicamente el dispositivo junto con el modelo (p. ej., un adversario puede comprar un automóvil autónomo para adquirir el modelo que está almacenado en la computadora a bordo del vehículo para ayudar a en la elaboración de ataques contra otros coches autónomos). En este caso, se debe tener cuidado de que los adversarios no puedan acceder o manipular los modelos almacenados en sistemas sobre los que de otro modo tendrían control total. El cifrado desempeñará un papel importante en la protección de estos activos.

 

Mejore la detección de formulaciones de intrusión y ataque

Mejorar los sistemas de detección de intrusos para detectar mejor cuándo los activos se han visto comprometidos y detectar patrones de comportamiento indicativos de un adversario que está formulando un ataque.

Si bien endurecer los objetivos blandos aumentará la dificultad de ejecutar ataques, los ataques seguirán ocurriendo y deben detectarse. Los formuladores de políticas deben fomentar una mejor detección de intrusos para los sistemas que contienen estos activos críticos y el diseño de métodos que perfilen comportamientos anómalos para detectar cuándo se están formulando ataques. Si bien una onza de prevención vale una libra de cura, es imperativo saber cuándo ha fallado la prevención para que el operador del sistema pueda tomar las medidas de mitigación necesarias antes de que el adversario tenga tiempo de ejecutar un ataque.

En los escenarios más simples en los que un repositorio central contiene los conjuntos de datos y otros activos importantes, se pueden aplicar los métodos de detección de intrusos estándar que actualmente son un pilar de la ciberseguridad. En este caso simple, si una parte no autorizada accede a activos como conjuntos de datos o modelos, esto debe notarse de inmediato y se deben tomar las medidas adecuadas en respuesta.

Hay otros escenarios en los que la detección de intrusos será significativamente más difícil. Como se discutió anteriormente, muchos sistemas de IA se implementan en dispositivos periféricos que pueden caer en manos de un atacante. Si un enemigo captura una pieza de software militar, el modelo y el sistema de IA deben tratarse como cualquier otra pieza de tecnología militar sensible, como un dron derribado. El compromiso de un sistema podría llevar al compromiso de cualquier otro sistema que comparta activos críticos, como conjuntos de datos. Como tal, se deben desarrollar métodos que detecten intrusiones en entornos disputados donde el adversario ha obtenido el control del sistema.

La protección contra ataques que no requieren intrusiones deberá basarse en un perfil de comportamiento que sea indicativo de la formulación de un ataque. Esto será particularmente cierto para las muchas aplicaciones de IA que usan API abiertas para permitir que los clientes utilicen los modelos. Los atacantes pueden usar esta ventana en el sistema para crear ataques, reemplazando la necesidad de acciones más intrusivas, como robar un conjunto de datos o recrear un modelo. En esta configuración, puede ser difícil saber si una interacción con el sistema es un uso válido del sistema o un comportamiento de sondeo que se utiliza para formular un ataque. Por ejemplo, es el caso de un usuario que envía la misma imagen a un filtro de contenido cien veces 1) un desarrollador que realiza pruebas diligentemente en una pieza de software recién construida, o 2) ¿un atacante que intenta diferentes patrones de ataque para encontrar uno que pueda usarse para evadir el sistema? Los operadores del sistema deben invertir en capacidades capaces de alertarlos sobre un comportamiento que parece ser indicativo de la formulación de un ataque en lugar de un uso válido.

Independientemente de los métodos utilizados, una vez que un operador del sistema es consciente de que se ha producido una intrusión que puede comprometer el sistema o que se está formulando un ataque, el operador debe cambiar inmediatamente al modo de mitigación. Como se analiza en los requisitos de cumplimiento de la etapa de mitigación a continuación, los operadores del sistema deben tener un plan predeterminado que especifique exactamente las acciones que se deben tomar en caso de que el sistema se vea comprometido, y poner el plan en acción de inmediato.

 

Requisitos de Cumplimiento de la Etapa de Mitigación

Los requisitos de cumplimiento de la etapa de mitigación se centran en garantizar que las partes interesadas planifiquen respuestas para cuando inevitablemente ocurran los ataques. Esto incluye la creación de planes de respuesta específicos para posibles ataques y el estudio de cómo el compromiso de un sistema de IA afectará a otros sistemas.

 

Crear planes de respuesta a ataques

Determine cómo es más probable que se utilicen los ataques de IA y elabore planes de respuesta para estos escenarios.

Las partes interesadas deben determinar cómo es probable que se utilicen los ataques de IA contra su sistema de IA y luego elaborar planes de respuesta para mitigar su efecto. Al determinar qué ataques son más probables, las partes interesadas deben observar las amenazas existentes y ver cómo los adversarios pueden utilizar los ataques de IA para lograr un objetivo similar. Por ejemplo, para una red social que se ha visto movilizada para difundir contenido extremista, es probable que se produzcan ataques de entrada destinados a engañar a sus filtros de contenido.

Después de esto, se deben diseñar planes de respuesta. Los planes de respuesta deben basarse en los mejores esfuerzos para responder a los ataques y controlar la cantidad de daño. Continuando con el ejemplo de la red social, los sitios que dependen del filtrado de contenido pueden necesitar planes de respuesta que incluyan el uso de otros métodos, como la auditoría de contenido basada en humanos, para filtrar el contenido. Las fuerzas armadas deberán desarrollar protocolos que prioricen la identificación temprana de cuándo sus algoritmos de IA han sido pirateados o atacados para que estos sistemas comprometidos puedan reemplazarse o volver a entrenarse de inmediato. El trabajo existente en esta área puede verse como una experiencia de aprendizaje. Los algoritmos de Facebook pudieron eliminar con éxito 1,2 millones de los 1,5 millones de cargas de video conocidas del tiroteo en Nueva Zelanda de 2019 automáticamente al momento de la carga.72 Las asociaciones hombre-máquina similares que a veces emplea Facebook 73 deberán convertirse en la norma en una era en la que los sistemas de IA son vulnerables a los ataques.

Los planes de respuesta también pueden requerir que se tomen medidas en el mundo real. Por ejemplo, los planes de respuesta policial para introducir ataques a la infraestructura, como señales y marcadores viales, requerirán el envío inmediato de agentes. Así como se envían oficiales a una intersección cuando se rompe un semáforo, se necesitarán respuestas similares. En este caso, sin embargo, la respuesta deberá ser inmediata: los humanos aún pueden navegar relativamente bien en un semáforo roto, pero un automóvil sin conductor pasará una señal de alto ahora “invisible” sin que los pasajeros humanos tengan la oportunidad de intervenir. Este plan de respuesta también puede requerir asociaciones ampliadas y acuerdos de intercambio de información con otras entidades, como empresas que controlan la tecnología. Más lejos,

 

Mapeo rápido de vulnerabilidades compartidas

Cree mapas que muestren cómo el compromiso de un activo o sistema afecta a todos los demás sistemas de IA.

Los formuladores de políticas deberían exigir a los operadores de sistemas de IA que mapeen cómo el compromiso de un activo o sistema determinado afectaría a todos los demás sistemas. Las características del dominio de IA hacen que estas vulnerabilidades compartidas sean comunes. Dado el fácil transporte de datos, la conveniencia y el ahorro monetario de reutilizar datos y los beneficios operativos de compartir herramientas y modelos, muchos sistemas de IA compartirán los mismos activos subyacentes, como conjuntos de datos. Sin embargo, este intercambio tiene un lado oscuro: el compromiso de un activo puede comprometer otros activos que también han utilizado este activo.

Dada la realidad de cómo se comparten y reutilizan los datos, las dependencias compartidas (y, por lo tanto, las vulnerabilidades) entre los sistemas se generalizarán para bien o para mal. Como resultado, existe la necesidad de comprender rápidamente cómo el compromiso de un activo o sistema afecta a otros sistemas.

Esto se puede lograr a través del mapeo rápido de vulnerabilidades compartidas. Las organizaciones deben tener mapas de vulnerabilidad que documenten los activos que comparten sus diferentes sistemas de IA. Este mapeo debe ser rápido en el sentido de que una vez que un activo o sistema se ve comprometido, no debe requerir un análisis adicional para determinar qué otros sistemas están comprometidos. Por ejemplo, uno de esos mapas documentaría qué sistemas utilizaron los mismos conjuntos de datos de entrenamiento. Si este conjunto de datos se viera comprometido posteriormente, los administradores sabrían de inmediato qué otros sistemas son vulnerables y deben abordarse.

Estos mapas de vulnerabilidad compartidos también deben integrarse en los planes de respuesta a ataques.

 

Parte V: Implementación y Cumplimiento

 

Implementación

Los programas de cumplimiento de seguridad de IA deben aplicarse a partes de los sectores público y privado. En términos generales, como regla general, el cumplimiento debe ser obligatorio para los usos gubernamentales de la IA. Además, debido a que el gobierno recurre al sector privado para desarrollar sus sistemas de IA, el cumplimiento debe ser obligatorio como condición previa para las empresas que venden sistemas de IA al gobierno. Las aplicaciones gubernamentales para las que realmente no existe riesgo de ataque, por ejemplo, en situaciones en las que un ataque exitoso no tendría ningún efecto, pueden solicitar una exención de cumplimiento a través de un proceso que revisaría las circunstancias y determinaría si la exención es adecuada.

Más específicamente, los diferentes segmentos del sector público pueden implementar versiones de cumplimiento que satisfagan sus necesidades segmento por segmento. Para las fuerzas armadas, JAIC es un candidato natural para administrar este programa de cumplimiento. Como está diseñado específicamente como un mecanismo de control centralizado sobre todas las aplicaciones militares importantes de IA, puede usar esta posición centralizada para administrar el programa de manera efectiva. Para la aplicación de la ley, el DOJ puede usar su relación con las organizaciones de aplicación de la ley, incluido el FBI y las oficinas locales de aplicación de la ley, como base para administrar un programa de cumplimiento. Cuando sea necesario, el DOJ puede vincular el cumplimiento como condición previa para recibir financiamiento a través de subvenciones.

En el sector privado, los reguladores deberían hacer que el cumplimiento sea obligatorio para los usos de IA de alto riesgo en los que los ataques tendrían graves consecuencias para la seguridad social y pública. Este informe ha identificado ejemplos de usos de IA de alto riesgo en el sector privado, incluidos filtros de contenido y vehículos autónomos. En algunos casos, el cumplimiento puede ser ordenado legislativamente directamente por el Congreso. Por ejemplo, en el contexto del espacio relativamente no regulado de las redes sociales, tanto los legisladores como la propia industria piden una regulación adicional. Cualquier regulación de la industria puede exigir el cumplimiento de la seguridad de la IA. En otros contextos, puede ser más apropiado y efectivo que las agencias que ya regulan una industria administren los mandatos y detalles de cumplimiento. En el contexto de los autos sin conductor, esto puede recaer en el Departamento de Transporte o en una de sus sub-agencias, como la NHTSA.

 

Aplicación

Una vez que se implementen los programas de Cumplimiento de seguridad de AI, los reguladores deben decidir de qué manera las entidades serán responsables de cumplir con los requisitos de cumplimiento y comunicar claramente estos principios a sus electores. Los usuarios informados de IA en áreas críticas deben ser responsables de actuar de buena fe y tomar las medidas adecuadas para protegerse contra los ataques de IA.

Debido a que actualmente se cree que los algoritmos de IA ampliamente utilizados son vulnerables a los ataques, las empresas, por supuesto, no podrán protegerse de manera exhaustiva contra los ataques de IA, al igual que no se espera que protejan de manera exhaustiva contra los ciberataques tradicionales. Sin embargo, se les debe exigir que hagan esfuerzos razonables. Estos esfuerzos incluyen seguir las propuestas de políticas establecidas en este informe, incluida la realización de una prueba rigurosa de idoneidad de IA, la generación e implementación de planes de respuesta a ataques, haciendo que los ataques sean más difíciles de ejecutar al fortalecer las protecciones de seguridad de activos como conjuntos de datos y modelos, y mejorando su capacidades de detección de intrusos.

Los reguladores deben comunicar claramente estas expectativas a sus electores, junto con las posibles ramificaciones que se producirán si no se toman estas medidas y se produce un ataque.

 

inconvenientes

Si bien estos pasos de seguridad serán un componente necesario para defenderse contra los ataques de IA, no vienen sin costo. Desde un punto de vista social, un punto de discusión es que algunas de estas precauciones de seguridad requerirán un compromiso con otras consideraciones importantes, como garantizar que los sistemas de IA sean justos, imparciales y confiables. Muchos de los métodos para verificar estas propiedades se basan en la publicación abierta de conjuntos de datos, métodos, modelos y API en los sistemas. Sin embargo, estas acciones exactas se duplican como una lista de las peores prácticas en términos de protección contra ataques de IA. En sistemas ya implementados que requieren tanto equidad como seguridad verificadas, como la determinación de bonos basada en IA, 74será difícil equilibrar ambos simultáneamente. Se necesitarán nuevos métodos para permitir auditorías de sistemas sin comprometer la seguridad, como restringir las auditorías a un tercero de confianza en lugar de publicarlas abiertamente.

Desde el punto de vista de la implementación, una dificultad para implementar esta política será administrar la gran cantidad y la naturaleza dispar de entidades, que van desde las empresas emergentes más pequeñas hasta las corporaciones más grandes, que implementarán sistemas de IA. Debido a que las diferentes partes interesadas enfrentan desafíos únicos que pueden no ser aplicables en otras áreas, los reguladores deben adaptar el cumplimiento a sus electores para que la regulación sea pertinente a los desafíos de su industria.

Desde un punto de vista tecnológico, se crea una dificultad adicional por el hecho de que el campo y la tecnología misma están cambiando rápidamente. Como resultado, los reguladores no deberían centrarse en todas las entidades y todos los usos de la IA. En cambio, se deben hacer esfuerzos amplios pero superficiales para educar a todo el campo, pero se debe reservar una atención más enfocada para las entidades y aplicaciones que los reguladores temen que presenten un peligro descomunal. Estos pueden incluir productos utilizados en contextos policiales, de inteligencia y militares, así como aplicaciones que pueden tener ramificaciones de seguridad pública, como los automóviles autónomos.

Desde un punto de vista político, una dificultad para obtener la aceptación de esta política es el hecho de que las partes interesadas verán esto como un impedimento para su desarrollo y argumentarán que no deberían ser regulados porque 1) les impondrá una carga indebida, o 2 ) no pertenecen a un grupo de uso de “alto riesgo”. Los reguladores deben equilibrar las preocupaciones de seguridad con las cargas impuestas a las partes interesadas a través del cumplimiento.

 

Recomendaciones adicionales

La política adicional puede complementar la efectividad de los programas de cumplimiento de seguridad de AI.

 

Priorizar la investigación de mecanismos de defensa y algoritmos más robustos

Recomendación adicional 1: aumentar la financiación de la investigación de métodos para defenderse de los ataques de IA y la creación de nuevos algoritmos de IA robustos. Ordenar la inclusión de una evaluación de seguridad en todas las subvenciones de investigación relacionadas con la IA.

La investigación debe priorizar la creación de mecanismos de defensa para los métodos de IA de última generación actuales, así como el desarrollo de nuevos métodos de IA más robustos. Dado el éxito del aprendizaje profundo y su huella ya establecida, estos métodos vulnerables serán los principales métodos utilizados durante una cantidad considerable de tiempo. Como tal, incluso si la mitigación completa es demostrablemente imposible, las técnicas para “endurecer” los métodos, como hacer que los ataques sean más difíciles de ejecutar modificando la estructura de los propios modelos, serán de gran interés para los usuarios de IA. Técnicas de endurecimiento similares han tenido un gran éxito en la seguridad cibernética, como la aleatorización del diseño del espacio de direcciones (ASLR), y han impuesto importantes obstáculos técnicos para realizar ataques cibernéticos que alguna vez fueron comunes y fáciles.

Las organizaciones gubernamentales de financiación, como DARPA, deben continuar utilizando su poder de establecimiento de agenda para establecer la seguridad de la IA como un tema importante y urgente bajo los auspicios de la seguridad nacional. Si bien muchas subvenciones y proyectos anteriores se han centrado en aumentar las capacidades de los algoritmos de IA, ahora se debe prestar más atención a la solidez de las capacidades existentes en lugar de centrarse únicamente en las métricas de evaluación tradicionales, como la precisión. DARPA ya ha dado un buen ejemplo de esto a través de su programa Garantizando la robustez de la IA contra el engaño (GARD). 75  

Más allá de crear programas y subvenciones destinados únicamente a los mecanismos de defensa y la creación de nuevos métodos que no sean vulnerables a estos ataques, DARPA y otros organismos de financiación deberían exigir que cada proyecto de investigación relacionado con la IA incluya un componente que discuta las vulnerabilidades introducidas por la investigación. Esto permitirá a los usuarios que potencialmente adopten estas tecnologías tomar decisiones informadas no solo sobre los beneficios sino también sobre los riesgos de usar la tecnología.

Además de un enfoque técnico en la protección de los modelos, la atención de la investigación también debe centrarse en la creación de marcos de prueba que se puedan compartir con los operadores de sistemas de inteligencia artificial de la industria, el gobierno y el ejército. De manera similar a cómo se prueba la seguridad de los automóviles, los marcos de prueba para la seguridad de los modelos se pueden establecer y utilizar como un componente central junto con los métodos de prueba tradicionales utilizados para vehículos, drones, sistemas de armas y otros sistemas que adoptarán IA.

 

Educar a las partes interesadas con conciencia de dominio y amenazas

Recomendación adicional 2: La FTC, el DoD y el DOJ deben alertar a sus electores relevantes sobre la existencia de ataques de IA y las medidas preventivas que se pueden tomar.

Los formuladores de políticas y las agencias reguladoras relevantes deben educar a las partes interesadas sobre el panorama de amenazas que rodea a la IA. Concretamente, esta educación debe ser doble. En primer lugar, debería centrarse en dar a conocer la existencia y las ramificaciones de los ataques de IA. Esto permitirá a las partes interesadas tomar decisiones informadas sobre si la IA es apropiada para su dominio, así como desarrollar planes de respuesta para cuando ocurran ataques. En segundo lugar, debe proporcionar recursos que informen a las partes relevantes sobre los pasos que pueden tomar para protegerse contra los ataques de IA desde el primer día.

El primer componente de esta educación debe centrarse en informar a las partes interesadas sobre la existencia de ataques de IA. Esto permitirá a los usuarios potenciales realizar una compensación informada de riesgo/recompensa con respecto a su nivel de adopción de IA. Los líderes desde la sala de juntas hasta la sala de situación pueden sufrir de manera similar expectativas poco realistas sobre el poder de la IA, pensando que tiene capacidades similares a las de la inteligencia humana más allá del ataque. Esto puede conducir a un reemplazo prematuro de humanos con algoritmos en dominios donde las amenazas de ataque o falla son graves pero desconocidas. Esto será particularmente cierto para las aplicaciones de IA a la seguridad y la seguridad nacional. Las decisiones en estos dominios pueden tomarse con el fin de reducir los gastos operativos, aumentar la eficiencia o imperativos generales para adoptar nuevas tecnologías y “modernizar”.

Desde un punto de vista práctico, las agencias gubernamentales deben tomar el control de educar e interactuar con los electores afectados, ya que cada grupo tiene preocupaciones y circunstancias únicas. Estas agencias deben ser el Departamento de Defensa, la FTC y el Departamento de Justicia para las comunidades militar, de consumidores y de aplicación de la ley, respectivamente. Para evitar el aislamiento de las mejores prácticas y las lecciones aprendidas dentro de cada departamento, las agencias deben dar prioridad a la publicación abierta de sus esfuerzos y la comunicación de los hallazgos fuera de las vías habituales dentro de la agencia.

 

Reevaluación de aplicaciones de IA

Recomendación adicional 3: reevaluar el papel que debe desempeñar la IA en futuras aplicaciones, con respecto a la seguridad y la planificación adecuada.

Los formuladores de políticas y la industria por igual deben estudiar y reevaluar el rol planificado de la IA en muchas aplicaciones. Si bien esto puede parecer luddita a la vista, tiene una base histórica. El Sistema de Control y Comando Automatizado Estratégico de los EE. UU., un componente dentro del sistema de control nuclear de los EE. UU., todavía utiliza sistemas tecnológicos de la década de 1970 en lugar de computadoras de última generación actualizadas. 76  Esto se debe a que la presencia de vulnerabilidades de ciberseguridad en las nuevas tecnologías representa un riesgo demasiado grande para esta aplicación en particular.

Se deben producir debates similares con respecto a la integración de la IA en otras aplicaciones, pero no necesariamente con el objetivo final de alcanzar resultados binarios de uso/no uso. Para algunas aplicaciones, la integración de la IA puede representar un riesgo tan pequeño que hay poca preocupación. Para otros, la IA puede requerir supervisión humana. Si bien es posible que esta supervisión no siempre proteja contra las consecuencias de todos los ataques de IA, puede llegar a un punto en común entre la exposición total al riesgo de ataque y el riesgo de no darse cuenta de los beneficios que la IA puede brindar. El ejército está dando un buen ejemplo para este uso intermedio al priorizar el desarrollo de sistemas de inteligencia artificial que aumentan pero no reemplazan el control humano. Finalmente, algunas aplicaciones de IA pueden resultar demasiado peligrosas para usar. Sistemas de armas autónomos, incluso aquellos que no utilizan IA, ya conllevan un gran estigma debido al temor de que un ataque o errores algorítmicos causen daños colaterales inaceptables y, por lo tanto, presenten niveles de riesgo inaceptables. Esta misma actitud puede adoptarse en otras aplicaciones que dependen de la IA.

En algunos contextos, estas discusiones pueden ser dirigidas internamente. El Departamento de Defensa, por ejemplo, ya ha mostrado atención para comprender y abordar los riesgos de seguridad del empleo de IA. Sin embargo, en otros contextos, como en entornos de la industria donde las partes han mostrado desprecio e incapacidad para abordar otros riesgos cibernéticos, es posible que estas discusiones deban ser forzadas por un organismo regulador externo como la FTC.

 

Conclusión

“El conocimiento es saber que Frankenstein no es el monstruo.
La sabiduría es saber que Frankenstein es el monstruo”. 77  

Durante cientos de años, los humanos han sido cautelosos a la hora de inscribir el conocimiento humano en creaciones técnicas. Con el aprendizaje automático y la inteligencia artificial, damos un paso más cerca de este miedo.

Es el miedo a lo desconocido de una creación. Y la inteligencia artificial hoy presenta incógnitas sísmicas que sería prudente reflexionar. La inteligencia artificial, como el monstruo de Frankenstein, puede parecer humana, pero definitivamente no lo es. A pesar de las advertencias populares de los robots sensibles y la inteligencia artificial sobrehumana que se vuelven más difíciles de evitar con cada día que pasa, la inteligencia artificial tal como es hoy no posee conocimiento, pensamiento ni inteligencia. En el futuro, los avances técnicos pueden algún día ayudarnos a comprender mejor cómo las máquinas pueden aprender, e incluso aprender a integrar estas importantes cualidades en la tecnología. Pero hoy no es ese día.

El conjunto actual de algoritmos de inteligencia artificial de última generación son, en esencia, comparadores de patrones. Son intrínsecamente vulnerables a la manipulación y el envenenamiento en cada etapa de su uso: desde cómo aprenden, de qué aprenden y cómo operan. Este no es un error accidental que pueda corregirse fácilmente. Está incrustado en lo profundo de su ADN.

Como resultado, es imperativo que los formuladores de políticas reconozcan el problema, identifiquen los sistemas vulnerables y tomen medidas para mitigar el riesgo antes de que las personas resulten heridas. Este informe ha identificado cinco áreas críticas que ya son vulnerables a estos ataques y lo son cada día más. Los filtros de contenido que servirán como primera línea de defensa contra el reclutamiento extremista, la desinformación y las campañas de desinformación, y la propagación del odio y el fomento del genocidio pueden volverse ineficaces con los ataques de IA. Un ejército estadounidense en transición a una nueva era de adversarios que son sus iguales tecnológicos o incluso superiores debe desarrollar y protegerse contra esta nueva arma. La aplicación de la ley, una industria que quizás ha sido víctima de la agitación tecnológica como ninguna otra, corre el riesgo de que sus esfuerzos de modernización se vean socavados por la misma tecnología que está buscando para resolver sus problemas. Las aplicaciones comerciales que usan IA para reemplazar a los humanos, como los autos sin conductor y el Internet de las cosas, están poniendo tecnología de inteligencia artificial vulnerable en nuestras calles y en nuestros hogares. Segmentos de la sociedad civil están siendo monitoreados y oprimidos con IA y, por lo tanto, tienen un interés personal en usar ataques de IA para luchar contra los sistemas que se usan en su contra.

La construcción sin restricciones de la inteligencia artificial en estos aspectos críticos de la sociedad está tejiendo un tejido de vulnerabilidad futura. Los formuladores de políticas deben comenzar a abordar este problema hoy para protegerse contra estos peligros mediante la creación de programas de cumplimiento de seguridad de IA. Estos programas crearán un conjunto de mejores prácticas que garantizarán que los usuarios de IA tomen las medidas de precaución adecuadas para protegerse de los ataques. En áreas de aplicación de alto riesgo de la IA, como el uso de la IA por parte del gobierno y la industria crítica, el cumplimiento puede ser obligatorio y los organismos reguladores apropiados pueden hacerlo cumplir. En áreas de aplicación de IA de bajo riesgo, el cumplimiento puede ser opcional para no sofocar la innovación en este campo que cambia rápidamente.

El mundo ha aprendido una serie de lecciones dolorosas del entusiasmo libre y temerario con el que se han desplegado tecnologías con graves vulnerabilidades. Las redes sociales han sido nombradas ayudantes del genocidio en Myanmar y el instrumento de la ruptura democrática en la democracia más importante del mundo. La infraestructura conectada ha provocado ataques con cientos de millones de dólares en pérdidas económicas. Las señales de advertencia de los ataques de IA pueden estar escritas en bytes, pero podemos verlas y lo que presagian. Sería prudente no ignorarlos.


notas

1 Eykholt, Kevin, et al. “Ataques sólidos del mundo físico a la clasificación visual de aprendizaje profundo”. Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones. 2018.

2 Goodfellow, Ian J., Jonathon Shlens y Christian Szegedy. “Explicar y aprovechar ejemplos contradictorios”. preimpresión de arXiv arXiv: 1412.6572 (2014)

3 Knighton, Andrew, “FUSAG: The Ghost Army—Patton’s D-Day Force That Was Only Threat In The Enemy’s Imagination”, 14 de mayo de 2017, https://www.warhistoryonline.com/world-war-ii/fusag-the -ejército-fantasma-patt… .

4 Como nota sobre la terminología, la inteligencia artificial y el aprendizaje automático se usan comúnmente de manera intercambiable. En un sentido más exacto, los dos son distintos. La inteligencia artificial es un término más amplio que generalmente se refiere a la capacidad de los sistemas informáticos para ejecutar tareas complejas realizadas por humanos. El aprendizaje automático es un método particular que se utiliza para potenciar la inteligencia artificial y es un conjunto de técnicas y algoritmos que “aprenden” extrayendo patrones de los datos. Debido al abrumador éxito de los algoritmos de aprendizaje automático en comparación con otros métodos, muchos sistemas de inteligencia artificial en la actualidad se basan completamente en el aprendizaje automático. Como resultado, los ataques y vulnerabilidades descritos en este informe afectan tanto a los sistemas de inteligencia artificial como de aprendizaje automático.

5 Los sistemas de aprendizaje automático de producción pueden presentar una buena cantidad de ingeniería humana y de barandas, mientras que otros pueden depender completamente de los datos. Como resultado, algunos sistemas de producción pueden caer en un espectro entre sistemas “aprendidos” que dependen completamente de los datos y sistemas “diseñados” que se basan en gran medida en funciones diseñadas a mano. Sin embargo, los sistemas que están más cerca del lado “diseñado” del espectro aún pueden ser vulnerables a los ataques, como los ataques de entrada. Además, dado el éxito del aprendizaje, que a menudo captura patrones y relaciones que los diseñadores de modelos humanos no podrían diseñar manualmente, muchos, si no la mayoría de los sistemas, dependerán en gran medida de las características aprendidas y serán vulnerables a los ataques.

6 Bagdasaryan, Eugene, et al. “Cómo hacer backdoor en el aprendizaje federado”. preimpresión de arXiv arXiv:1807.00459 (2018).

7 Eykholt, Kevin, et al. “Ataques sólidos del mundo físico a la clasificación visual de aprendizaje profundo”. Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones. 2018.

8 Gráfico de Marcus Comiter excepto por la miniatura del ataque de la señal de alto de Eykholt, Kevin, et al. “Ataques sólidos del mundo físico a la clasificación visual de aprendizaje profundo”. Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones. 2018, miniatura del ataque de panda de Goodfellow, Ian J., Jonathon Shlens y Christian Szegedy. “Explicar y aprovechar ejemplos contradictorios”. arXiv preprint arXiv:1412.6572 (2014), miniatura de ataque de tortuga de Athalye, Anish, et al. “Sintetizar ejemplos robustos de adversarios”. preimpresión de arXiv arXiv: 1707.07397 (2017), y miniatura de ataque de celebridades de Sharif, Mahmood, et al. “Redes generativas antagónicas: ataques de redes neuronales al reconocimiento facial de última generación”. preimpresión de arXiv arXiv:1801.00349 (2017).

9 Eykholt, Kevin, et al. “Ataques sólidos del mundo físico a la clasificación visual de aprendizaje profundo”. Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones. 2018.

10 Sharif, Mahmood, et al. “Accesorizar a un crimen: Ataques reales y sigilosos en el reconocimiento facial de última generación”. Actas de la Conferencia ACM SIGSAC de 2016 sobre seguridad informática y de las comunicaciones. ACM, 2016.

11 Gráfico de Marcus Comiter excepto por la miniatura del ruido de la señal de alto y la miniatura del ataque de la señal de alto de Eykholt, Kevin, et al. “Ataques sólidos del mundo físico a la clasificación visual de aprendizaje profundo”. Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones. 2018.

12 Goodfellow, Ian J., Jonathon Shlens y Christian Szegedy. “Explicar y aprovechar ejemplos contradictorios”. preimpresión de arXiv arXiv: 1412.6572 (2014)

13 Concepto de imagen que muestra cómo se forma el ataque a partir de Goodfellow, Ian J., Jonathon Shlens y Christian Szegedy. “Explicar y aprovechar ejemplos contradictorios”. preimpresión de arXiv arXiv: 1412.6572 (2014)

14 Gráfico de Marcus Comiter excepto por la miniatura de la imagen del panda, la miniatura de la imagen del ruido y la miniatura del ataque del panda de Goodfellow, Ian J., Jonathon Shlens y Christian Szegedy. “Explicar y aprovechar ejemplos contradictorios”. preimpresión de arXiv arXiv: 1412.6572 (2014).

15 Athalye, Anish, et al. “Sintetizar ejemplos robustos de adversarios”. preimpresión de arXiv arXiv:1707.07397 (2017).

16 Carlini, Nicholas y David Wagner. “Ejemplos de confrontación de audio: ataques dirigidos a la conversión de voz a texto”. Talleres de seguridad y privacidad (SPW) del IEEE de 2018. IEEE, 2018.

17 Athalye, Anish, et al. “Sintetizar ejemplos robustos de adversarios”. preimpresión de arXiv arXiv:1707.07397 (2017).

18 Gráfico de Marcus Comiter excepto por la miniatura del ataque de la señal de alto de Eykholt, Kevin, et al. “Ataques sólidos del mundo físico a la clasificación visual de aprendizaje profundo”. Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones. 2018., miniatura de ataque de tortuga y miniatura de ataque de béisbol de Athalye, Anish, et al. “Sintetizar ejemplos robustos de adversarios”. preimpresión de arXiv arXiv: 1707.07397 (2017), y miniatura de ataque de niña con gafas de Sharif, Mahmood, et al. “Accesorizar a un crimen: Ataques reales y sigilosos en el reconocimiento facial de última generación”. Actas de la Conferencia ACM SIGSAC de 2016 sobre seguridad informática y de las comunicaciones. ACM, 2016.

19 Gráfico de Marcus Comiter excepto por la miniatura del ataque de panda de Goodfellow, Ian J., Jonathon Shlens y Christian Szegedy. “Explicar y aprovechar ejemplos contradictorios”. arXiv preprint arXiv: 1412.6572 (2014), miniatura de ataque de celebridades de Sharif, Mahmood, et al. “Redes generativas antagónicas: ataques de redes neuronales al reconocimiento facial de última generación”. preimpresión de arXiv arXiv:1801.00349 (2017), y miniatura de ataque de ganso de Gong, Yuan y Christian Poellabauer. “Protección de sistemas controlados por voz mediante identificación de fuente de sonido basada en señales acústicas”. 2018 27ª Conferencia Internacional sobre Comunicaciones y Redes Informáticas (ICCCN). IEEE, 2018.

20 Véase, por ejemplo, https://github.com/tensorflow/cleverhans

21 Goodfellow, Ian, et al. “Redes generativas adversarias.” Avances en los sistemas de procesamiento de información neuronal. 2014.

22 Véase, por ejemplo, YOLO: Detección de objetos en tiempo real, https://pjreddie.com/darknet/yolo/

23 Liu, Yanpei, et al. “Profundizar en ejemplos adversarios transferibles y ataques de caja negra”. preimpresión de arXiv arXiv:1611.02770 (2016).

24 Véase, por ejemplo, “Aprendizaje automático en AWS: poner el aprendizaje automático en manos de todos los desarrolladores”, https://aws.amazon.com/machine-learning/

25 McMahan, H.Brendan, et al. “Aprendizaje eficiente en comunicación de redes profundas a partir de datos descentralizados”. preimpresión de arXiv arXiv:1602.05629 (2016).

26 Bagdasaryan, Eugene, et al. “Cómo hacer backdoor en el aprendizaje federado”. preimpresión de arXiv arXiv:1807.00459 (2018).

27 Bhagoji, Arjun Nitin, et al. “Análisis del aprendizaje federado a través de una lente adversaria”. preimpresión de arXiv arXiv:1811.12470 (2018).

28 List, Mary, “33 alucinantes estadísticas y datos de Instagram para 2018”, 19 de febrero de 2018, https://www.wordstream.com/blog/ws/2017/04/20/instagram-statistics

29 Meeker, Mary, “Internet Trends 2018”, 30 de mayo de 2018, https://www.slideshare.net/kleinerperkins/internet-trends-report-2018-9…

30 Alfifi, Majid, et al. “Medición del impacto de la estrategia de redes sociales de ISIS”. (2018): 1-4.

31 Mozur, Paul, “A Genocide Incited on Facebook, With Posts from Myanmar’s Military”, NY Times, 15 de octubre de 2018, https://www.nytimes.com/2018/10/15/technology/myanmar-facebook-genocide… .

32 Satariano, Adam, “Facebook Identifies Russia-Linked Misinformation Campaign”, NY Times, 17 de enero de 2019, https://www.nytimes.com/2019/01/17/business/facebook-misinformation-rus… .

33 Véase, por ejemplo, PhotoDNA de Microsoft, https://www.microsoft.com/en-us/photodna

34 Fischer, Sara, “Companies pull ads from YouTube…again”, Axios, 22 de febrero de 2019, https://www.axios.com/companies-pull-ads-from-youtube-again-1550791548-…

35 “Establecimiento del Centro Conjunto de Inteligencia Artificial”, Subsecretario de Defensa, 27 de junio de 2018, https://admin.govexec.com/media/establishment_of_the_joint_artificial_i…

36 Pellerin, Cheryl, “Project Maven Industry Day Pursues Artificial Intelligence for DoD Challenges”, Departamento de Defensa de EE. UU., 27 de octubre de 2017, https://dod.defense.gov/News/Article/Article/1356172/project-maven-indu …

37 Objetivos públicos de MSTAR, https://www.sdms.afrl.af.mil/index.php?collection=mstar&page=targets .

38 “Entrevista con el teniente general Jack Shanahan: Parte 2”, Over the Horizon Multi-Domain Operations and Strategy, 4 de abril de 2018, https://othjournal.com/2018/04/04/interview-with-lieutenant-general-jac …

39 Declaración de Dana Deasy, Jefe de la Oficina de Información del Departamento de Defensa, ante el Subcomité del Comité de Servicios Armados de la Cámara sobre Amenazas y Capacidades Emergentes sobre “Estructura, Inversiones y Aplicaciones de Inteligencia Artificial del Departamento de Defensa”, 26 de febrero de 2019, https://armedservices . house.gov/_cache/files/5/7/579723e2-4461-4a8c-95d… .

40 “Entrevista con el teniente general Jack Shanahan: Parte 1”, Over the Horizon Multi-Domain Operations and Strategy, 2 de abril de 2018, https://othjournal.com/2018/04/02/interview-with-lieutenant-general-jac …

41 Lagorio-Chafkin, Christine, “Los 7500 moderadores de Facebook lo protegen del contenido más aterrador de Internet. Pero, ¿quién los protege?”, Inc., 26 de septiembre de 2018, https://www.inc.com/christine-lagorio/facebook-content-moderator-lawsui… .

42 Fang, Lee, “Google Hired Gig Economy Workers to Improve Artificial Intelligence in Controversial Drone-targeting Project”, The Intercept, 4 de febrero de 2019, https://theintercept.com/2019/02/04/google-ai-project- maven-figura-ocho… .

43 “Uso de la inteligencia artificial para abordar las necesidades de la justicia penal”, Christopher Rigany, NIJ, 2, https://www.ncjrs.gov/pdffiles1/nij/252038.pdf

44 Amazon Rekognition, https://aws.amazon.com/rekognition/ .

45 Wingfield, Nick, “Amazon empuja el reconocimiento facial a la policía. Los críticos ven el riesgo de vigilancia”, New York Times, 22 de mayo de 2018, https://www.nytimes.com/2018/05/22/technology/amazon-facial-recognition… .

46 “Uso de la inteligencia artificial para abordar las necesidades de la justicia penal”, Christopher Rigany, NIJ. 2, 7, https://www.ncjrs.gov/pdffiles1/nij/252038.pdf .

47 Pegues, Jeff, “Tiroteo en una escuela de Florida: el FBI recibió una llamada sobre un sospechoso un año antes del tiroteo”, CBS News, 15 de febrero de 2018, https://www.cbsnews.com/news/fbi-youtube-video-investigation-florida- mierda…

48 “Uso de la inteligencia artificial para abordar las necesidades de la justicia penal”, Christopher Rigany, NIJ. 2, https://www.ncjrs.gov/pdffiles1/nij/252038.pdf .

49 Sharif, Mahmood, et al. “Accesorizar a un crimen: Ataques reales y sigilosos en el reconocimiento facial de última generación”. Actas de la Conferencia ACM SIGSAC de 2016 sobre seguridad informática y de las comunicaciones. ACM, 2016.

50 Véase, por ejemplo, https://www.clearme.com

51 “Guía de ciberseguridad para el cumplimiento de la ley estatal y local”, Consorcio Nacional para Vigilancia Avanzada, junio de 2016, https://cchs.gwu.edu/sites/g/files/zaxdzs2371/f/downloads/NCAPCybersecu…

52 Said, Carolyn, “Video shows Uber robot car in fatal accident does not try to Avoid woman”, SFGate, 21 de marzo de 2018, https://www.sfgate.com/business/article/Uber-video-shows-robot- coche-en-f…

53 Huges, Roland, “China Uighurs: All you need to know on Muslim ‘crackdown’”, BBC News, 8 de noviembre de 2018, https://www.bbc.com/news/world-asia-china-45474279

54 Sharif, Mahmood, et al. “Redes generativas antagónicas: ataques de redes neuronales al reconocimiento facial de última generación”. preimpresión de arXiv arXiv:1801.00349 (2017).

55 Greenberg, Andy, “The Untold Story of NotPetya, the Most Devastating Cyberattack in History”, Wired, 22 de agosto de 2018, https: //www.wired.com/story/notpetya-cyberattack-ukraine-russia-code-cr … .

56 Foro John F. Kennedy Jr. del Instituto de Política de la Escuela Kennedy de Harvard “Interview with Eric Rosenbach and Jason Mathen: The Public Policy Challenges of Artificial Intelligence”, 15 de febrero de 2018, https://www.belfercenter.org/event/public- desafíos-políticos-artificiales-…

57 Upchurch, Tom, “How China Could Beat the West in the Deadly Race for AI Weapons”, Wired, 8 de agosto de 2018, https://www.wired.co.uk/article/artificial-intelligence-weapons-warfare… .

58 “Entrevista con el teniente general Jack Shanahan: Parte 1”, Over the Horizon Multi-Domain Operations and Strategy, 2 de abril de 2018, https://othjournal.com/2018/04/02/interview-with-lieutenant-general-jac …

59 Talmadge, Caitlin, “La opción nuclear de Beijing: por qué una guerra entre Estados Unidos y China podría salirse de control”, Foreign Affairs vol. 97 núm. 6, noviembre/diciembre de 2018.

60 Burgess, Matt, “Todo lo que necesita saber sobre EternalBlue: el exploit de la NSA vinculado a Petya”, Wired, 28 de junio de 2017, https://www.wired.co.uk/article/what-is-eternal-blue- explotar-vulnerable…

61 CNN Business, “Cuando ver ya no es creer”, enero de 2019, https://www.cnn.com/interactive/2019/01/business/pentagons-race-against… .

62 Véase, por ejemplo, https://github.com/iperov/DeepFaceLab

63 Singel, Ryan, “Unirse a los ataques pro-Wikileaks es tan fácil como hacer clic en un botón”, por cable, 10 de diciembre de 2010, https://www.wired.com/2010/12/web20-attack-anonymous/

64 Véase, por ejemplo, https://github.com/tensorflow/cleverhans

65 Véase, por ejemplo, AWS, https://aws.amazon.com/

66 Ver https://www.pcisecuritystandards.org/

67 Soodoo, George, “A Primer on the NHTSA Rulemaking Process”, Eno Center for Transportation, 13 de marzo de 2017, https://www.enotrans.org/article/primer-nhtsa-rulemaking-process/

68 Russell, Alec, “CIA plot led to great blast in Siberian gas pipeline”, The Telegraph, 28 de febrero de 2004, https://www.telegraph.co.uk/news/worldnews/northamerica/usa/1455559/CIA…

69 Consejo Nacional de Ciencia y Tecnología, Subcomité de Investigación y Desarrollo de Redes y Tecnología de la Información, “El Plan Estratégico Nacional de Investigación y Desarrollo de Inteligencia Artificial”, octubre de 2016, https://www.nitrd.gov/PUBS/national_ai_rd_strategic_plan.pdf

70 Declaración de Dana Deasy, Jefe de la Oficina de Información del Departamento de Defensa, ante el Subcomité del Comité de Servicios Armados de la Cámara sobre Amenazas y Capacidades Emergentes sobre “Estructura, Inversiones y Aplicaciones de Inteligencia Artificial del Departamento de Defensa”, 26 de febrero de 2019, https://armedservices . house.gov/_cache/files/5/7/579723e2-4461-4a8c-95d… .

71 “Entrevista con el teniente general Jack Shanahan: Parte 1”, Over the Horizon Multi-Domain Operations and Strategy, 2 de abril de 2018, https://othjournal.com/2018/04/02/interview-with-lieutenant-general-jac …

72 Reuters, “Facebook dice que eliminó 1,5 millones de videos del ataque a la mezquita de Nueva Zelanda”, 17 de marzo de 2019, https://www.reuters.com/article/us-newzealand-shootout-facebook-video/f…

73 Liptak, Andrew, “Facebook dice que eliminó 1,5 millones de videos del tiroteo masivo en Nueva Zelanda”, The Verge, 17 de marzo de 2019, https://www.theverge.com/2019/3/17/18269453/facebook-new -zelanda-ataque…

74 Véase, p. ej., la herramienta Compas (Perfil de Gestión Correccional de Delincuentes para Sanciones Alternativas) y el uso que hacen varias instituciones gubernamentales, p. ej., https://doc.wi.gov/Pages/AboutDOC/COMPAS.aspx y https:/ /qz.com/1375820/california-just-replaced-cash-bail-with-algorith… .

75 Garantía de robustez de la IA contra el engaño (GARD), DARPA, https://www.darpa.mil/attachments/GARD_ProposersDay.pdf .

76 Fung, Brian, “The Real Reason America Controls its Nukes with Ancient Floppy Disks”, The Washington Post, 26 de mayo de 2016, https://www.washingtonpost.com/news/the-switch/wp/2016/05/26 /el-real-r…

77 Cita anónima.

Fuente: belfercenter