Literatura y ‘big data’

— 20 agosto, 2016

Jorge Carrión / lavanguardia.com

Si distinguimos entre microeconomía y macroeconomía, ¿tiene sentido hablar de filología (y de close reading) como del polo opuesto al de la macroliteratura? Cuando Franco Moretti publicó en italiano su Atlas de la novela europea en 1997 (Trama, en castellano) y Pascale Casanova, en francés y sólo dos años más tarde, La República mundial de las Letras(Anagrama), sentaron las bases de esa posibilidad. Defendían –en grados diversos– una lectura comparada de la literatura internacional en que cedieran las fronteras nacionales y donde lo microscópico (las figuras retóricas, los poemas, los libros, autores concretos) tuviera menor importancia que lo macroscópico (los géneros, los números de traducciones y ediciones, todo aquello que pudiera ser cuantificado en gráficos, estadísticas y mapas). En los más de quince años trascurridos desde entonces, el conocimiento se ha digitalizado y el big data ha cambiado la lógica de nuestra forma de entender el mundo. La macroliteratura es muy plausible en ese contexto de humanismo de datos, de cuya dimensión literaria Moretti ha sido sin duda un destacado precursor.

Fuente original: Literatura y ‘big data’.

El más relevante órgano de expresión de Moretti, después de sus libros y de sus clases en la Universidad de Stanford, es la revista New Left Review. Entre otros artículos importantes, publicó allí sus Conjeturas sobre la literatura mundial (2000), que causó un cierto revuelo en su voluntad de trazar las pautas del sistema-mundo que crea la novela moderna. Efraín Kristal le respondió en el mismo medio, argumentando que la poesía hispanoamericana –y tal vez otros casos de literatura periférica– no se adapta al modelo de Moretti, según el cual existe una correlación entre la economía y las formas literarias de una sociedad. A él y a otros autores les respondió en Más conjeturas sobre la literatura mundial (2003), donde agrupó las críticas en “el (cuestionable) estatuto paradigmático de la novela; la relación entre el centro y la periferia y sus consecuencias para la forma literaria, y la naturaleza del análisis comparativo”. No hay que decir que sus argumentos se dirigieron a la reafirmación de su postura: desplazar la mirada de los textos aislados y presuntamente extraordinarios a la gran masa textual. Inmediatamente después, en el 2004, se presentó en la Feria de Frankfurt Google Print, que pronto sería Google Books, una base de datos que parecía diseñada para elevar a la enésima potencia los análisis y los resultados de las lecturas cuantitativas de la literatura, después de siglos de estudios basados en conceptos esquivos y caprichosos, como gusto y calidad. Sus cinco miembros fundadores fueron Harvard, Oxford, la Biblioteca Pública de Nueva York, Michigan y, no por casualidad, Stanford.

La revolución del big data en las humanidades digitales no radica, no obstante, en la cantidad, sino –paradójicamente– en la calidad. Pero no de los textos, sino de los patrones que se extraen de los datos: las interpretaciones que les otorgan sentidos. Se trata de un modo nuevo de construir modelos y relatos tan buenos o mejores que aquellos sustentados tradicionalmente en la reflexión, la intuición o el cruce de un número limitado de lecturas personales o colectivas. Heredero directo del trabajo de Moretti es Macroanalysis: Digital methods and literary history (2013), de Matthew L. Jockers, donde el autor –por ejemplo– ha cruzado 3.592 textos publicados entre 1780 y 1900 para determinar que los escritores en inglés más influyentes del siglo XIX no fueron Dickens o Melville, sino Jane Austen y sir Walter Scott. Tanto en términos de recursos estilísticos como en contagio de temas ningún otro escritor de la época fue capaz de una influencia similar a la de ellos.

Dos miembros del Stanford Literary Lab, Ryan Heuser y Long Le-Khac, establecieron otro corpus de novelas decimonónicas (2.958 títulos) y observaron que a medida que el siglo avanza se dobla el número de términos que indican acción, al mismo ritmo que lo hacen las palabras que describen partes del cuerpo humano, como dedo o cara. Eso son los datos. La lectura que de ellos se deriva: así se expresa el proceso de urbanización y el nacimiento de la masa moderna. En un artículo de la revista Wired del 2014, declaran: “La experiencia primaria del contacto con otras personas en las ciudades radicaba en sus cuerpos, y las novelas lo documentan”. Las palabras abstractas entran en retroceso y proliferan las concretas: “Es el tránsito del contar al mostrar”. Uno de los gráficos elaborados por Jockers, de hecho, indica cómo durante el siglo XIX aumenta y decae el uso en la novela de la palabra beautiful. El periodista Clive Thompson, autor del artículo de Wired, habla del big data como crítica de arte. Y sitúa los hallazgos en el campo de la literatura en la constelación de las humanidades digitales: los investigadores de Harvard Erez Aiden y Jean-Baptiste Michel han demostrado que la idea de los Estados Unidos como una entidad individual sólo emergió tras la Guerra Civil, cuando en los textos empieza a proliferar la frase “the United States is” en detrimento de “the United States are”.

La lectura condicionada por el algoritmo exige un nuevo tipo de investigador literario. Alguien que tenga conocimientos de informática y de matemáticas. De hecho, Aiden y Michel son dos de los catorce autores de Quantitative analysis of culture using millions of digitized books, un paper también firmado por el Google Books Team, que fue publicado en el 2010 por la revista Science. Se trata de trabajar en culturomics: la economía de la cultura; la cultura cuantificada. A partir del prototipo Bookworm que crearon los dos alumnos de Harvard, en colaboración con Yuam Shen del MIT, se creó el Google Ngram Viewer, gracias al cual cualquier lector puede llevar a cabo sus propias búsquedas estadísticas. Las palabras introducidas son rastreadas y encontradas en más de cinco millones de libros en inglés, español, francés, ruso, chino, alemán y hebreo publicados entre 1500 y el 2008; y convertidas en un gráfico. Si introducimos, por ejemplo, las palabras Shakespeare y Cervantes, veremos que la presencia textual del primero es mucho mayor desde 1800 hasta el 2000, a excepción de los años veinte del siglo pasado, cuando se iguala. Ahí tenemos el hecho. En menos de un segundo. Las interpretaciones, en cambio, pueden tardar en llegar meses o años.

Pero no sólo nos encontramos ante jóvenes investigadores y nativos digitales: sir Brian Vickers, nacido en 1937, experto en Shakespeare, ha introducido el análisis cuantitativo en sus últimos trabajos sobre la autoría de ciertas tragedias del bardo. El léxico, la sintaxis y la retórica, tratados estadísticamente, pueden inclinar la balanza cuando se tienen dudas acerca de quién escribió realmente una obra. Es posible localizar palabras que no existían o que tenían otro significado u otra ortografía en la época en que supuestamente un texto fue creado: con la caza de los anacronismos se reúnen evidencias para resolver el misterio. Hace cuatro años publicó Shakespeare and Autorship Studies in the Twenty-First Century, donde explicaba los métodos científicos con que está probando sus hipótesis. Entre sus herramientas figura Pl@giarism, un software libre desarrollado por la Universidad de Maastricht para detectar casos de copia en trabajos de alumnos de Derecho, mediante el que Vickers localiza secuencias de tres palabras que son exclusivas del autor de El Rey Lear. Es decir, no como “Yes, my lord”, sino como “eyebrows jutty over”.

Vickers ha trabajado durante décadas la idea de que Shakespeare era, en efecto, un genio: pero un genio de la colaboración. En su libro del 2002, Shakespeare, co-author, demostraba que hasta cinco obras canónicas suyas habían sido escritas colectivamente. La idealización romántica del genio individual también ha proyectado su luz oscura sobre la figura del estudioso. Durante siglos los profesores han discutido sus hallazgos con alumnos y colegas y han introducido las aportaciones de sus interlocutores en sus propios textos. En nuestra era digital, el flujo de información es tan impetuoso que difícilmente podrá uno discernir entre aquello que leyó de soslayo, entre el magma de datos cotidianos, y una idea nueva, propia, sin relación genética directa o indirecta con esa textualidad que nos envuelve. Si Homero fueron esos griegos a los que llamamos Homero; y Shakespeare es la suma de diversas subjetividades que orbitaron alrededor del William histórico, hay que rescatar los momentos de la modernidad en que el pensamiento humanístico se construyó en grupo. Desde el Instituto Warburg o la Escuela de Frankfurt hasta Oulipo, pasando por tantísimos grupos de investigación, institutos y centros: son varias las genealogías posibles de las formas de trabajo en red que han proliferado en nuestro cambio de siglo.