Hacete amigo del Big Data

En la famosa serie de ciencia ficción conocida como "Fundación", el científico, escritor, químico, divulgador (y más) Isaac Asimov apoya la trama sobre la psicohistoria, una ciencia ficcional capaz de predecir el futuro de la sociedad aunque no los comportamientos individuales. La idea se inspira de las fórmulas que permiten conocer verdades estadísticas como el comportamiento de una masa concreta de gas pese a la imposibilidad de prever el comportamiento de cada molécula. Lo que se obtiene es una suerte de verdad estadística comprobable.

Para que funcione, la psicohistoria requiere dos condiciones: que se aplique sobre gigantescas cantidades de seres humanos y que esos humanos desconozcan sus conclusiones. Quienes vean el futuro tendrán la irreparable tentación de modificarlo: de hecho, eso es lo que ocurre en Fundación, donde el protagonista intenta reducir la etapa de caos de treinta mil años prevista por sus análisis a solo mil.

¿Y entonces? ¿Llegó el momento de la psicohistoria? ¿Se ha logrado reunir, procesar y explotar los datos suficientes como para leer el futuro y operar estadísticamente sobre él? El poder de los datos masivos (o Big Data) combinados con una inteligencia artificial que aprende por prueba y error han dado pruebas de su capacidad tanto para prever el comportamiento humano como para modificarlo: ya se utiliza para ofrecer productos solo a potenciales compradores, disputar una agenda mediática y también para influir en las elecciones. Las manipulaciones mediáticas, la publicidad a gran escala e indiferenciada pese a todos sus éxitos para generar compras, votos y climas sociales, parecen torpes intentos primitivos comparadas con lo que está llegando.

Estadística mata entendimiento

Google, Facebook, Amazon, entre otros, comprobaron hace ya mucho el poder de los datos y sobre ellos montaron un meteórico imperio en una década y media. Otros como Microsoft o Apple, fundados sobre otros modelos, timonearon presurosos sus barcos hacia la nueva tierra prometida.

Algunos ejemplos ya son conocidos: Google Translate, lanzado en 2006, se dedicó a la dificultosa tarea de traducir todo lo que le dieran. La corporación no contrató a miles de lingüistas y traductores, sino a ingenieros (en su mayoría monolingües), para que crearan algoritmos. Estas fórmulas basadas en órdenes lógicas son la base de la inteligencia artificial cuya característica principal es su capacidad de aprender por medio de prueba y error para mejorar sus resultados. Para comenzar se los alimentó con miles de libros (acumulados a través de Google Books, por cierto) en distintos idiomas. Los algoritmos comenzaron no solo a "entender" cómo se remplazaba cada palabra en otro idioma, sino también a ver cómo esas relaciones variaban según el contexto: obviamente estas fórmulas no entienden lo que hacen, o "hablan" los idiomas que traducen, pero logran mejorar constantemente sus resultados gracias a la fuerza bruta de las estadísticas. Al soltar ese algoritmo en la selva de la red y preguntar si las traducciones sirvieron o no a los usuarios, es solo cuestión de tiempo hasta que el sistema mejore lo suficiente.

Otro: Amazon, cuya primera innovación fue la posibilidad de vender libros online, también comprendió a tiempo el valor de los datos acumulados. Una de las vetas que encontró en sus discos duros fue la de sugerir nuevos productos a los clientes en base a sus compras anteriores. En un primer momento contrató a especialistas en literatura, pero cuando comenzó a utilizar algoritmos las ventas mejoraron y se hicieron tan fácilmente escalables que los egresados de letras debieron partir junto con los traductores remplazados por Google.

La lengua, con sus reglas particulares es (o era) uno de los campos más difíciles para que las fórmulas matemáticas pudieran aportar algo y, de hecho, aún hoy las traducciones distan de ser perfectas y confiables. En otros campos con variables complejas pero finitas, como el ajedrez, hace años que las computadoras vencen a los grandes maestros. En marzo de 2016 el algoritmo de Google AlphaGo doblegó y dejó perplejo al gran maestro de Go Lee Se-dol: ese juego milenario era considerado una barrera para las computadoras debido a su complejidad. Según el maestro, el programa jugó un partido perfecto, algo que no es de extrañar porque estaba alimentado por miles de partidas y jugando con Se-dol siguió aprendiendo. Una vez más, solo era cuestión de tiempo. Y será cada vez menos: los procesadores aumentan su velocidad.

Los gurúes del Big Data señalan que si se cruzan suficientes datos todo parece posible: las historias clínicas de todos los pacientes del planeta podrían encontrar patrones capaces de, por ejemplo, descubrir interacciones medicamentosas puntuales e imposibles de detectar por un solo médico o en un hospital. Un relevamiento permanente de las empresas de transporte con sensores dispersos en un colectivo "adivinarían" qué pieza será la próxima en romperse y reducir accidentes y gastos. Los ejemplos podrían seguir: los autos que se manejan solos serán, tarde o temprano, más seguros que los manejados por humanos; las grillas de electricidad administrarán los recursos de la mejor manera para no desperdiciar nada; la distribución eficiente de bicicletas en la ciudad... y más.

Ciencias Sociales

¿Hay un límite para seguir asignando tareas a los algoritmos? ¿Cuál es? ¿La educación? ¿La gestión democrática? La respuesta es incierta y tal vez el significado mismo de esas mismas palabras cambie con la intervención del Big Data y la inteligencia artificial. Como explica el alemán y Doctor en Comunicación Martin Hilbert en una excelente entrevista reciente: "[La disponibilidad de Big Data] convirtió a las ciencias sociales, de las que siempre se burlaron, en la ciencia más rica en datos. [...] Nosotros nunca tuvimos datos, y por eso nunca funcionaban las políticas públicas. Y de la noche a la mañana, el 95% de los sujetos que estudiamos pasó a tener un sensor de sí mismo 24 horas al día. Los biólogos siempre dijeron “eso no es ciencia, no tienen datos”. Pero ellos no saben dónde están las ballenas en el mar. Hoy nosotros sí sabemos dónde están las personas, pero también sabemos qué compran, qué comen, cuándo duermen, cuáles son sus amigos, sus ideas políticas, su vida social".

Google puede vaticinar el próximo éxito cinematográfico: saben que en promedio cerca de trece búsquedas relacionadas con una nueva película se traducen en una entrada vendida. Facebook conoce cuánto tiempo dedicamos a leer noticias políticas o memes de gatos, además de a qué hora lo hacemos y si preferimos los gatos que postea algún amigo en especial. Esos datos se usan para mantenernos cómodos, interesados y, sobre todo, generar millones y millones de dólares en avisos: las corporaciones 2.0 son, en realidad, agencias de publicidad que utilizan los datos que les brindamos para vender espacios en el costado de nuestra pantalla a los avisadores. El flujo de visitas, además, se mantiene no porque produzcan atractivos contenidos como debe hacer (costosamente) un medio tradicional, sino que somos los supuestos usuarios quienes los generamos. Y lo hacemos gratis. No tienen aviones, fábricas, minerales o soja. ¿Qué tienen que les permite obtener ganancias comparables a las de Exxon, Chrysler o AT&T y sus estructuras monstruosas? Datos y la capacidad de analizarlos.

Aunque no los veamos, los datos están en todos lados si uno es suficientemente grande y puede procesarlos. En 2004 Walmart comenzó a explotar activos acumulados a los que nunca había prestado atención: el registro de sus ventas de los últimos años. Para eso contrató a un equipo especializado en Big Data que generó algoritmos capaces de buscar correlaciones entre datos propios y otros disponibles. Por ejemplo, al contrastar sus ventas con las condiciones meteorológicas descubrió que ante la amenaza de huracanes aumentaban sus ventas de pilas y... Pop-Tarts, una suerte de galletas rellenas. Aunque ni Walmart ni sus ingenieros tengan idea de por qué ocurre, colocan las Pop-Tarts en la cabeza de la góndola cada vez que hay amenaza de huracanes.

Resultados, no hipótesis. Los "por qué", si a alguien le interesan, quedarán para después: mientras tanto la validez del algoritmo se mide en dinero. Y también en votos (que también se traducen en distribuciones más justas o menos justas del dinero).

Tocar la realidad

El deseo de conocer, modificar y controlar el comportamiento social ha existido durante siglos. El desarrollo de un mercado de masas, la expansión de la democracia y el voto, la planificación sanitaria o de transporte, entre otras cosas han forzado a la implementación de recursos más precisos a la hora de medir e influir sobre el comportamiento de la sociedad.

Las muestras sobre las que trabajaban las encuestadoras, los publicistas y hasta algunos medios de comunicación están pasadas de moda: hay suficientes datos como para endurecer los análisis alimentándolos de Big Data. Redes sociales como Facebook o Twitter permiten conocer los intereses de millones de personas en tiempo real, a qué estímulos responden, cuándo se conectan, con quiénes interactúa y más. Al cruzar esa enorme cantidad de datos con las que tienen, por ejemplo, las tarjetas de crédito o los resultados electorales, se puede medir casi todo: ¿En los barrios donde gana la derecha leen más noticias sobre motochorros? ¿Quienes buscan vacaciones baratas son los mismos que sacan pasajes? ¿A dónde van? ¿Cuándo? ¿Pagan en cuotas? ¿Queremos saber el perfil de los que circulan por el frente de nuestro negocio? Podemos comprárselo a Google, que almacena el recorrido de los celulares con Android que pasan por la puerta.

El Dr. en Informática y Director Ejecutivo de la Fundación Sadosky, Esteban Feuerstein, coincide en que la informática está convergiendo con las ciencias sociales: "Hay una visión nueva que nutre la rama cuantitativa de las ciencias sociales. Hay más interés por entender lo que hacemos los informáticos con el Big Data", explica el también profesor de la UBA. "La informática es una disciplina transversal. Siempre tuvo que trabajar con otros. Ahora en particular es tan rico, nuevo y productivo lo que puede dar el Big Data, que es necesario trabajar todos juntos: informáticos, físicos, sociólogos, diseñadores gráficos, estadísticos. Hay un ida y vuelta".

Con esa cantidad de datos se pueden hacer cruces o, mejor aún, encargar a un algoritmo que haga cruces automáticamente para encontrar tendencias y correlaciones. De esta manera, las experiencias subjetivas de "ser" tienden a aplanarse en perfiles más fáciles de manipular: bien (mal) usado puede ser una poderosa arma. Uno de los primeros en comprender y usar con decisión el poder de esos datos para ganar elecciones fue Barack Obama en la campaña presidencial de 2008. En EE.UU. no solo es optativo votar sino que también es necesario empadronarse previamente. El equipo de Obama clasificó a los usuarios de las redes sociales de acuerdo a las posiciones políticas que revelaban sus amigos para reconocer a 3,5 millones de potenciales votantes demócratas no empadronados. Luego estudiaron sus intereses específicos y se tunearon las propuestas que vería cada uno en Facebook: leyes de género para las feministas, propuestas verdes para los ecologistas, retirada de Afganistán para los pacifistas y así. El nivel de precisión de esta campaña resultó muy superior a los típicos afiches con candidatos sonrientes que no pueden decir nada por miedo de espantar a quien piense distinto. En vez de un “catch all” (“toma todo”), lo que hizo Obama fue más bien un “catch each” (“tomar a cada uno”). Finalmente el equipo de Obama determinó que al menos un millón de sus "targets" se registró para votar. Aunque es incierta la incidencia real de la campaña digital o saber quiénes votaron finalmente, se puede ser generoso en las presunciones. Obama ganó por menos de cinco millones de votos en todo el país y en Estados como Florida, clave para la victoria gracias al particular sistema electoral estadounidense, la diferencia con su oponente fue de menos de setenta mil.

Donald Trump aprendió de su oponente y mandó a analizar los perfiles, pero lo hizo con todos los ciudadanos en condiciones de votar. Con la información disponible pudo saber qué noticias generaban más respuestas (engagement en la jerga 2.0) y su equipo de campaña se dispuso a usarlas sin ningún tipo de prurito ético o desagrado por las mentiras lisas y llanas (Post-truth, posverdad). Con información aportada por Facebook, construyeron perfiles estadísticamente confiables de cada ciudadano. Trump necesitaba encontrar sus potenciales votantes tal como lo había hecho Obama ocho años antes, pero a una escala muy superior. Para lograrlo contrató a Cambridge Analytica, una empresa británica que asesoró a Ted Cruz hasta que renunció a la interna. Para su nuevo cliente, la consultora especializada en Big Data, no creó el "cinturón oxidado" de Michigan o Wisconsin pero sí detectó el potencial de votos republicanos. El siguiente paso fue dedicarles un mensaje específico a cada uno: "Por ejemplo, si Trump dice ‘estoy por el derecho a tener armas’, algunos reciben esa frase con la imagen de un criminal que entra a una casa, porque es gente más miedosa, y otros que son más patriotas la reciben con la imagen de un tipo que va a cazar con su hijo. Es la misma frase de Trump y ahí tienes dos versiones, pero aquí crearon 175 mil. Claro, te lavan el cerebro. No tiene nada que ver con democracia. Es populismo puro, te dicen exactamente lo que quieres escuchar", explica Hilbert.

En una entrevista a Barack Obama publicada en octubre de 2016 en la revista Wired, el entonces presidente de los EE.UU. mencionaba a los autos que se manejan solos como ejemplo de las problemáticas de dar demasiado poder a los algoritmos: "La tecnología ya está acá. Tenemos máquinas que pueden tomar muchas decisiones rápidas capaces de reducir drásticamente los accidentes, mejorar el tráfico, y resolver cosas como las emisiones de carbono [...] Pero, ¿cuáles son los valores que vamos a embeber en esos autos?” Si para salvar a un peatón, el auto debe embestir una pared, ¿debería hacerlo? "Se trata de una decisión moral. ¿Y quién decide esas normas?", se preguntaba. La inteligencia artificial tiene supuestos e ideologías. "Está lo que se llama sesgo algorítmico: ciertos sitios, dependiendo del perfil de quien está mirando, ofrecen trabajos peores. El algoritmo, al tratar de lograr el mejor ‘matching’ y mayor probabilidad de terminar en una contratación, elige ofertas de trabajos peores a esos segmentos de negros o mujeres por los datos le dicen que eso es lo que ocurre", explica Feuerstein. Para el informático esa es una de las principales preocupaciones respecto del uso del Big Data.

¿Estamos realmente tan lejos de la psicohistoria? ¿Los sociólogos y los encuestadores seguirán el camino de los traductores y los licenciados en letras para ser remplazados por ingenieros carentes de "por qué"?

La psicohistoria

Los algoritmos son bilardistas, solo les importa alcanzar el resultado embebido en su código. Prueba y error: si fallan lo intentan de nuevo. Resultan ideales para las esferas también resultadistas del marketing o buena parte de la política. ¿Por qué alguien compra Pop-Tarts antes de un huracán? ¿Hay causalidad, efectos colaterales o simple casualidad? No es relevante. Los algoritmos no buscan hipótesis: nadan en la superficie de la empiria. ¿Se puede decir entonces que hacen ciencia?

En la segunda edición de su obra más famosa, Philosophiæ Naturales Principia Mathematica, Newton respondió lo que todos se preguntaban al leer la primera versión: ¿qué hace funcionar a la gravedad? "No he sido capaz aún de descubrir la razón de estas propiedades de la gravedad al analizar los fenómenos y no hago hipótesis". El tema no era menor: la gravedad era una forma de acción a distancia, un fenómeno al borde de la brujería que alejaba por igual a racionalistas y religiosos. ¿Por qué planetas, manzanas y personas responden por igual a leyes matemáticas en cualquier parte del universo? ¿Dónde están escritas esas leyes? ¿En cada partícula? El remate, "Hypotheses non fingo", quedó grabado en la historia. Si hubiera esperado entender el por qué de la gravedad para difundir sus leyes aún estaríamos esperando: el gravitón, la hipotética (si, hipotética) partícula mediadora de la gravedad, aún no ha sido detectada.

La psicohistoria permaneció en el reino de la ficción desde su nacimiento en los años sesenta. Las ciencias sociales siguieron siendo especulativas, blandas o como se las quiera llamar. Aún disciplinas tradicionales como la sociología que permanentemente intentan introducir la realidad en sus análisis haciendo encuestas muestran sus límites de predicción tras cada elección. Otra de las víctimas habituales de los intentos de "endurecer" a las ciencias sociales ha sido la economía, sobre la cual se han creado modelos matemáticos que dicen más sobre la correlación de fuerzas entre ideologías que del comportamiento real de los mercados y el capital.

En la última década desde algunos sectores de las ciencias sociales se ha puesto énfasis en las verdades estadísticas: por ejemplo la sociofísica se basa en la mecánica estadística, las matemáticas usadas por los físicos para modelar sistemas demasiado complejos como para prever todas las interacciones individualmente. Algunas de las nuevas disciplinas aplanan la sociedad para poder analizarla y, de ser posible, dirigirla. El Big Data y la inteligencia artificial, sin prestar atención a la epistemología, dan al menos algunas de las respuestas que el "mercado natural" de las ciencias sociales necesita.

El problema no es solo epistemológico o de categorías: todo indica que estamos construyendo una sociedad en la que el poder de influir a los demás está (aún más) concentrado, en manos de quienes pueden almacenar, comprar y procesar los datos. Miradas como la Hipótesis Cibernética explican que gobernar ya no es tanto imponer o legislar como "coordinar racionalmente los flujos de informaciones y decisiones que se producen 'espontáneamente' en el cuerpo social". Google y Facebook son -cada vez más- tecnologías de gobierno ocultos bajo su apariencia de redes sociales hechas por "la gente". Son la herramienta perfecta de la biopolítica foucaultiana devenida cada vez más una anátomo-política que accede por fibra óptica a la intimidad de cada individuo para gestionar los flujos de información que construyen las subjetividades. Este régimen totalizante e invisible depende de introducir cada vez más gente en la arena digital, donde puede operar sin ser vistos.

Donde antes se hablaba de la necesidad de una multiplicidad de voces, ahora hay que pensar en marcos mucho más complejos para regular el descontrol de los datos, protegidos por una supuesta neutralidad de la red. Acaso sea aún posible. Esa necesidad no surgirá de los algoritmos que repiten lo que ya se sabe sino de quienes puedan dar un paso hacia atrás y proponer alguna alternativa un poco más deseable.

16/02/17.

Ensayo

El poder de los datos masivos

Por: Esteban Magnani

Arte: Sebastián Angresano

Por: Martín Becerra

Arte: Sebastián Angresano

Por: Iván Schuliaquer

Arte: Sebastián Angresano

Por: Martín Mazzini

Arte: Francesca Cantore

Por: Julieta Agriano

Arte: Malen Bruna

Por: Laura Marajofsky

Arte: Francesca Cantore

Por: Laura Pérez

Arte: Ana Laura Cantera,

Electrobiota

Por: María Mansilla

Arte: Javo No

Arte: Boomba.inc

Por: Sofía Trejo

Arte: RNDR Martinez

Por: Hernán Borisonik

Arte: Agustín Solís

Por: Andrés J. Kreiner

Por: Luciana Mantero

Arte: Sebastián Angresano