¿Qué sucede cuando los ojos digitales hacen que los cerebros coincidan?
Por lo general, pensamos en las cámaras de vigilancia como ojos digitales, que nos vigilan o nos cuidan, según su punto de vista. Pero en realidad, son más como ojos de buey: útiles solo cuando alguien está mirando a través de ellos. A veces, eso significa que un humano ve imágenes en vivo, generalmente de múltiples transmisiones de video. Sin embargo, la mayoría de las cámaras de vigilancia son pasivas. Están ahí para disuadir o para proporcionar evidencia si algo sale mal. ¿Te robaron el auto? Compruebe el circuito cerrado de televisión.
Pero esto está cambiando, y rápido. La inteligencia artificial está dando a las cámaras de vigilancia cerebros digitales para que coincidan con sus ojos, lo que les permite analizar videos en vivo sin necesidad de humanos. Esta podría ser una buena noticia para la seguridad pública, ya que ayudaría a la policía y al personal de primeros auxilios a detectar delitos y accidentes con mayor facilidad y tendría una variedad de aplicaciones científicas e industriales. Pero también plantea serias dudas sobre el futuro de la privacidad y plantea nuevos riesgos para la justicia social.
¿Qué sucede cuando los gobiernos pueden rastrear a un gran número de personas usando CCTV? ¿Cuando la policía puede seguirte digitalmente por una ciudad simplemente cargando tu foto policial en una base de datos? ¿O cuando un algoritmo sesgado se ejecuta en las cámaras de su centro comercial local y llama a la policía porque no le gusta el aspecto de un grupo particular de adolescentes?

Estos escenarios aún están lejos, pero ya estamos viendo los primeros frutos de combinar inteligencia artificial con vigilancia. IC Realtime es un ejemplo. Su producto estrella, presentado en diciembre pasado, fue catalogado como Google para CCTV. Es una aplicación y una plataforma web llamada Ella que utiliza inteligencia artificial para analizar lo que sucede en las transmisiones de video y hacer que se pueda buscar al instante. Ella puede reconocer cientos de miles de consultas en lenguaje natural, lo que permite a los usuarios buscar imágenes para encontrar clips que muestren animales específicos, personas con ropa de un color determinado o incluso marcas y modelos de automóviles individuales.
En una demostración web, el CEO de IC Realtime, Matt Sailor, le mostró a The Verge una versión de Ella conectada a unas 40 cámaras que vigilaban un parque industrial. Escribió varias búsquedas: “un hombre vestido de rojo”, “furgonetas UPS”, “coches de policía”, todas las cuales mostraron imágenes relevantes en unos pocos segundos. Luego redujo los resultados por período de tiempo y ubicación y señaló cómo los usuarios pueden dar el visto bueno o el rechazo a los clips para mejorar los resultados, al igual que Netflix.
La vigilancia de IA comienza con video de búsqueda
“Digamos que hay un robo y realmente no sabes lo que pasó”, dice Sailor. “Pero había un Jeep Wrangler corriendo hacia el este después. Así que entramos, buscamos ‘Jeep Wrangler’ y ahí está”. En la pantalla, los clips comienzan a llenar el feed, mostrando diferentes Jeep Wranglers deslizándose. Esta será la primera gran ventaja de combinar IA y CCTV, explica Sailor: hacer que sea más fácil encontrar lo que está buscando. “Sin esta tecnología, no conocería nada más que su cámara, y tendría que revisar horas y horas y horas de video”, dice.
Ella se ejecuta en Google Cloud y puede buscar imágenes de prácticamente cualquier sistema de CCTV. “[Funciona] bien en un sistema de una cámara, como [como] una cámara para niñeras o una cámara para perros, hasta la empresa, con una matriz de miles de cámaras”, dice Sailor. Los usuarios pagarán una tarifa mensual por el acceso, comenzando en alrededor de $ 7 y aumentando con la cantidad de cámaras.
IC Realtime quiere apuntar a empresas de todos los tamaños, pero cree que su tecnología también atraerá a consumidores individuales. Estos clientes ya están bien atendidos por un mercado en auge de cámaras de seguridad para el hogar “inteligentes” fabricadas por compañías como Amazon, Logitech, Netgear y Nest, propiedad de Google. Pero Sailor dice que esta tecnología es mucho más rudimentaria que la de IC Realtime. Estas cámaras se conectan al Wi-Fi doméstico y ofrecen transmisiones en vivo a través de una aplicación, y graban imágenes automáticamente cuando ven que algo se mueve. Pero, dice Sailor, no pueden distinguir la diferencia entre un robo y un pájaro, lo que genera muchos falsos positivos. “Son una tecnología muy básica que existe desde hace años”, dice. “Sin IA, sin aprendizaje profundo”.

Ese no será el caso por mucho tiempo. Si bien IC Realtime ofrece análisis basados en la nube que pueden actualizar las cámaras tontas existentes, otras empresas están incorporando inteligencia artificial directamente en su hardware. Boulder AI es una de esas empresas emergentes que vende “visión como servicio” utilizando sus propias cámaras de IA independientes. La gran ventaja de integrar IA en el dispositivo es que no requieren conexión a Internet para funcionar. Boulder vende a una amplia gama de industrias, adaptando los sistemas de visión artificial que construye a clientes individuales.
“Las aplicaciones están realmente por todas partes”, dice el fundador Darren Odom a The Verge . “Nuestra plataforma se vende a empresas de banca, energía. Incluso tenemos una aplicación en la que miramos las pizzas y determinamos si tienen el tamaño y la forma correctos”.
“Ahora estamos al 100 por ciento en la identificación de truchas en Idaho”.
Odom da el ejemplo de un cliente en Idaho que había construido una presa. Para cumplir con las regulaciones ambientales, estaban monitoreando la cantidad de peces que pasaban por encima de la estructura. “Solían tener una persona sentada con una ventana en esta escalera de peces, marcando cuántas truchas pasaban”, dice Odom. (Una escalera para peces es exactamente lo que parece: una vía fluvial escalonada que los peces usan para viajar cuesta arriba). Finalmente, se pusieron en contacto con Boulder, que les construyó un sistema de CCTV de IA personalizado para identificar los tipos de peces que suben por la escala de peces. “Realmente logramos la identificación de especies de peces usando la visión por computadora”, dice Odom con orgullo. “Ahora estamos al 100 por ciento en la identificación de truchas en Idaho”.
Si IC Realtime representa el extremo genérico del mercado, Boulder muestra lo que puede hacer un contratista boutique. En ambos casos, sin embargo, lo que estas firmas están ofreciendo actualmente es solo la punta del iceberg. De la misma manera que el aprendizaje automático ha logrado avances rápidos en su capacidad para identificar objetos, se espera que la habilidad para analizar escenas, actividades y movimientos mejore rápidamente. Todo está en su lugar, incluida la investigación básica, la potencia informática y los conjuntos de datos de entrenamiento, un componente clave para crear una IA competente. Dos de los conjuntos de datos más grandes para el análisis de video son creados por YouTube y Facebook, compañías que han dicho que quieren que la IA ayude a moderar el contenido en sus plataformas (aunque ambas admiten que aún no está lista). El conjunto de datos de YouTube, por ejemplo, contiene más de 450, 000 horas de video etiquetado que espera estimule “la innovación y el avance en la comprensión del video”. La amplitud de las organizaciones involucradas en la construcción de tales conjuntos de datos da una idea de la importancia del campo. Google, MIT, IBM y DeepMind están todos involucrados en sus propios proyectos similares.
IC Realtime ya está trabajando en herramientas avanzadas como el reconocimiento facial. Después de eso, quiere poder analizar lo que sucede en la pantalla. Sailor dice que ya ha hablado con clientes potenciales en educación que quieren una vigilancia que pueda reconocer cuándo los estudiantes se meten en problemas en las escuelas. “Están interesados en notificaciones preventivas para una pelea, por ejemplo”, dice. Todo lo que el sistema tendría que hacer sería estar atento a los alumnos que se agrupan y luego alertar a un humano, que podría revisar la transmisión de video para ver qué está sucediendo o dirigirse en persona para investigar.
Boulder también está explorando este tipo de análisis avanzado. Se supone que un sistema prototipo en el que está trabajando analiza el comportamiento de las personas en un banco. “Estamos buscando específicamente a los malos y detectando la diferencia entre un actor normal y alguien que actúa fuera de los límites”, dice Odom. Para hacer esto, están usando viejas imágenes de cámaras de seguridad para entrenar su sistema para detectar comportamientos aberrantes. Pero gran parte de este video es de baja calidad, por lo que también están filmando sus propias imágenes de entrenamiento con los actores. Odom no pudo entrar en detalles, pero dijo que el sistema buscaría expresiones faciales y acciones específicas. “Nuestros actores están haciendo cosas como agacharse, empujar, mirar por encima del hombro”, dijo.

Para los expertos en vigilancia e IA, la introducción de este tipo de capacidades está plagada de posibles dificultades, tanto técnicas como éticas. Y, como suele ocurrir con la IA, estas dos categorías están entrelazadas. Es un problema técnico que las máquinas no puedan entender el mundo tan bien como lo hacen los humanos, pero se convierte en un problema ético cuando asumimos que pueden y les permitimos tomar decisiones por nosotros.
Alex Hauptmann, profesor de Carnegie Mellon que se especializa en este tipo de análisis informático, dice que aunque la IA ha impulsado enormemente el campo en los últimos años, todavía existen desafíos fundamentales para lograr que las computadoras entiendan el video. Y el mayor de ellos es un desafío para las cámaras en el que ya no pensamos: la resolución.
El mayor obstáculo es bastante común: video de baja resolución
Tomemos, por ejemplo, una red neuronal que ha sido entrenada para analizar acciones humanas en un video. Estos funcionan al dividir el cuerpo humano en segmentos (brazos, piernas, hombros, cabezas, etc.) y luego observar cómo estas figuras de palo cambian de un cuadro de video al siguiente. A partir de esto, la IA puede decirte si alguien está corriendo, por ejemplo, o cepillándose el cabello. “Pero esto depende de la resolución del video que tengas”, le dice Hauptmann a The Verge . “Si estoy mirando al final de un estacionamiento con una cámara, tengo suerte si puedo saber si alguien abrió la puerta de un auto. Si estás justo frente a una [cámara] y tocas una guitarra, puede rastrearte hasta los dedos individuales”.
Este es un gran problema para CCTV, donde las cámaras a menudo tienen mucho grano y los ángulos son raros. Hauptmann da el ejemplo de una cámara en una tienda de conveniencia que apunta a la caja registradora, pero también mira hacia la ventana que da a la calle. Si se produce un atraco en el exterior, parcialmente oscurecido por la cámara, la IA se quedaría perpleja. “Pero nosotros, como personas, podemos imaginar lo que está pasando y reconstruirlo todo. Las computadoras no pueden hacer eso”, dice.

Del mismo modo, si bien la IA es excelente para identificar lo que sucede en un video a un nivel bastante alto (por ejemplo, alguien se está cepillando los dientes, mirando su teléfono o jugando al fútbol), aún no puede extraer el contexto vital. Tome la red neuronal que puede analizar las acciones humanas, por ejemplo. Es posible que pueda mirar las imágenes y decir “esta persona está corriendo”, pero no puede decirle si está corriendo porque llega tarde a un autobús o porque acaba de robar el teléfono de alguien.
Estos problemas de precisión deberían hacernos pensar dos veces sobre algunas de las afirmaciones de las nuevas empresas de IA. No estamos ni cerca del punto en que una computadora pueda entender lo que ve en un video con la misma percepción que un ser humano. (Los investigadores le dirán que esto es tan difícil que básicamente es sinónimo de “resolver” la inteligencia en general). Pero las cosas están progresando rápidamente.
Hauptmann dice que usar el seguimiento de matrículas para seguir vehículos es “un problema resuelto para fines prácticos”, y el reconocimiento facial en entornos controlados es lo mismo. (El reconocimiento facial usando imágenes de circuito cerrado de televisión de baja calidad es otra cosa). La identificación de cosas como automóviles y prendas de vestir también es bastante sólida y se puede rastrear automáticamente a una persona a través de varias cámaras, pero solo si las condiciones son las adecuadas. “Eres bastante bueno para rastrear a un individuo en una escena no concurrida, pero en una escena concurrida, olvídalo”, dice Hauptmann. Él dice que es especialmente difícil si el individuo usa ropa indescriptible.
Algunas tareas de vigilancia de IA ya están resueltas; otros necesitan trabajo
Sin embargo, incluso estas herramientas bastante básicas pueden tener efectos poderosos a escala. China proporciona un ejemplo de cómo puede ser esto. Su región occidental de Xinjiang, donde se reprime la disidencia del grupo étnico uigur local, ha sido descrita como “un laboratorio para controles sociales de alta tecnología”, en un reciente Wall Street Journal .reporte. En Xinjiang, los métodos tradicionales de vigilancia y control civil se combinan con el reconocimiento facial, escáneres de matrículas, escáneres de iris y cámaras de seguridad ubicuas para crear un “estado de vigilancia total” donde las personas son rastreadas constantemente en los espacios públicos. En Moscú, se está montando una infraestructura similar, con un software de reconocimiento facial conectado a un sistema centralizado de más de 100.000 cámaras de alta resolución que cubren más del 90 por ciento de las entradas de los apartamentos de la ciudad.
En este tipo de casos, es probable que haya un ciclo virtuoso en juego, con los sistemas recopilando más datos a medida que el software mejora, lo que a su vez ayuda a que el software mejore aún más. “Creo que todo mejorará bastante”, dice Hauptmann. Ha estado viniendo.

Si estos sistemas están en proceso, entonces ya tenemos problemas como el sesgo algorítmico. Esto no es un desafío hipotético. Los estudios han demostrado que los sistemas de aprendizaje automático absorben los prejuicios raciales y sexistas de la sociedad que los programa, desde el software de reconocimiento de imágenes que siempre pone a las mujeres en las cocinas , hasta los sistemas de justicia penal que siempre dicen que las personas negras tienen más probabilidades de reincidir . Si entrenamos el sistema de vigilancia de IA utilizando imágenes antiguas, como las de CCTV o las cámaras del cuerpo de la policía, es probable que se perpetúen los sesgos que existen en la sociedad.
Este proceso ya está ocurriendo en la aplicación de la ley, dice Meredith Whittaker, codirectora del instituto AI Now centrado en la ética de la NYU, y se extenderá al sector privado. Whittaker da el ejemplo de Axon (anteriormente Taser), que compró varias empresas de inteligencia artificial para ayudar a incorporar análisis de video en sus productos. “Los datos que tienen provienen de las cámaras del cuerpo de la policía, lo que nos dice mucho sobre quién puede perfilar un oficial de policía individual, pero no nos da una imagen completa”, dice Whittaker. “Existe un peligro real con esto de que estemos universalizando imágenes sesgadas de criminalidad y crimen”.
Incluso si logramos corregir los sesgos en estos sistemas automatizados, eso no los hace benignos, dice el analista principal de políticas de la ACLU, Jay Stanley. Él dice que cambiar las cámaras de CCTV de observadores pasivos a observadores activos podría tener un enorme efecto escalofriante en la sociedad civil.
“Queremos que la gente no solo sea libre, sino que se sienta libre”.
“Queremos que la gente no solo sea libre, sino que se sienta libre. Y eso significa que no tienen que preocuparse por cómo una audiencia desconocida e invisible puede estar interpretando o malinterpretando cada uno de sus movimientos y expresiones”, dice Stanley. “La preocupación es que las personas comenzarán a monitorearse a sí mismas constantemente, preocupadas de que todo lo que hagan sea malinterpretado y tenga consecuencias negativas en su vida”.
Stanley también dice que las falsas alarmas de una vigilancia de inteligencia artificial inexacta también podrían conducir a confrontaciones más peligrosas entre las fuerzas del orden y el público. Piense en el tiroteo de Daniel Shaver, por ejemplo, en el que llamaron a un oficial de policía a una habitación de hotel en Texas después de que Shaver fuera visto con un arma. El sargento de policía Charles Langley disparó a Shaver mientras gateaba por el suelo hacia él como se le había pedido. Se reveló que el arma con la que se vio a Shaver era una pistola de perdigones utilizada en su trabajo de control de plagas.
Si un humano puede cometer tal error, ¿qué posibilidades tiene una computadora? Y si los sistemas de vigilancia se automatizan aunque sea parcialmente, ¿serán estos errores más o menos comunes? “Si la tecnología está disponible, habrá algunas fuerzas policiales mirándola”, dice Stanley.
Cuando la vigilancia de IA se vuelva común, ¿quién regulará los algoritmos?
Whittaker dice que lo que estamos viendo en este campo es solo una parte de una tendencia más amplia en IA, en la que usamos estas herramientas relativamente toscas para tratar de clasificar a las personas en función de su imagen. Ella señala una controvertida investigación publicada el año pasado que afirmaba poder identificar la sexualidad mediante el reconocimiento facial como un ejemplo similar. La precisión de los resultados de la IA era cuestionable, pero los críticos señalaron que no importaba si funcionaba o no; importaba si las personas creían que funcionaba y emitían juicios utilizando estos datos de todos modos.
“Me preocupa que muchos de estos sistemas se incorporen a nuestra infraestructura central sin el proceso democrático que nos permitiría hacer preguntas sobre su eficacia o informar a las poblaciones en las que se implementarán”, dice Whittaker. “Este es un ejemplo más en el ritmo de los sistemas algorítmicos que ofrecen clasificar y determinar la tipología de individuos en función del reconocimiento de patrones extraídos de datos que incorporan sesgos culturales e históricos”.
Cuando le preguntamos a IC Realtime sobre los problemas de cómo se podría abusar de la vigilancia de IA, dieron una respuesta que es común en la industria tecnológica: estas tecnologías tienen un valor neutral, y solo cómo se implementan y quién las hace buenas o malas. . “Con cualquier nueva tecnología existe el peligro de que pueda caer en las manos equivocadas”, dice Sailor. “Eso es cierto para cualquier tecnología… y creo que las ventajas en este aspecto superan con creces las desventajas”.
Fuente: theverge