Temas vs etiquetas

Finalmente, después de semanas de posponerlo me decidí a comenzar con el análisis temático de las piezas de Orsai. Esto implica dos cosas: releer los primeros 6 números y finalmente darme el tiempo de leer 7 y 8. La meta es leer y categorizar los 8 en dos semanas,  es decir, intentaré que no pase de tres; y desarrollar la lista de temas, categorías o como finalmente, me he decido a llamarlos, etiquetas. Más adelante lidiaré con los blogs… ¿Por qué el cambio? Primero, porque “tema” – como ya me lo había estado temiendo desde hace un par de entradas – es un término conflictivo que parece algo inflexible y determinante, incluso poco multiplicable. El riesgo era terminar con un tema por pieza. Por eso he optado por buscar menciones, motivos, ideas que más fácilmente recurran a lo largo de las ya casi 500 piezas que tengo en la base de datos. La idea de etiquetas, por otra parte, parece algo más provisional y manejable; no obstante, el punto sigue siendo ver la variabilidad/recurrencia temática expresada en términos menos monolíticos. Las piezas son muy diversas y, por ello, que intriga ver en qué momentos se tocan – tengo mis hipótesis, claro.

Los primeros experimentos con esto funcionaron a medias y me veo ya haciendo cambios a diario. Tengo, por ejemplo tres etiquetas llamadas “Orsai algo”. Por ahora queda muy claro cuál es cuál, pero cuando haya hecho más, lo sé, terminarán sobreponiéndose. Y la de “relación distribuidor-lector lector-lector” lo sé ya, es muy amplia y necesita partirse en dos.

Una sorpresa fue que en las primeras 3-4 piezas surgieron 8-9 de las etiquetas de la lista y, más sorpresa aún, que fueron aplicables para las primeras 15 (hasta ahí voy). Así que, ¿qué es lo que voy viendo, poco a poco? 1) El aparato “meta” está más presente en las piezas de autor (es decir, no la parte editorial: las entradas y las sobremesas) de lo que pensaba. 2) El resultado de esto, es que la separación drástica entre “aparato editorial” y “aparato autorial”, que era muy clara en la medusa, podría desaparecer o, al menos, desvanecerse considerablemente. 3)Es posible que surjan patrones temáticos en cada número, lo cual no es una estrategia abierta de la publicación (no hay issues especiales de nada, supuestamente) y será interesante teorizar las razones de esto si es que es el caso.

En otros temas: Hernán Casciari acaba de anunciar que en el último número de este año, el número 10, incluirá un número de páginas con las fotografías de todos y cada uno de los 5000 suscriptores del 2012. A diferencia del año pasado, durante este 2012, la presencia de los lectores en la publicación impresa había estado manifestada en las “Cartas al director”, pero no en imagen. Me parece un regreso muy acertado a una de las licencias editoriales que, en mi opinión, ayudaron a tejer tan estrechamente la comunidad de lectores que sigue manteniendo el proyecto a movimiento. Ya me las arreglaré para etiquetar esa sección.

Los lectores se han hecho leer (también)

Ha llegado el momento de mi investigación en el que los cuestionamientos duros y las dificultades se apresuraron todas juntas. La base de datos inicial – la medusa – ha resultado un trabajo relativamente claro y simple de organizar. De hecho, es el esqueleto que va a sostener todo lo demás: los aparatos editorial y literario/periodístico de Orsai son en sí el lado autorial, pero ¿qué hay de los lectores?

¿Los lectores? Los lectores se han hecho escuchar leer (también).

Los nodos de las piezas que componen la base de datos se han multiplicado, al menos, por 100 en las respuestas de los lectores. En promedio cada una de las noventa y tantas entradas de blog en el periodo que cubro (septiembre de 2009 al presente) recibe 300 comentarios, las casi 200 piezas de la revista publicadas hasta ahora al rededor de 150 y los blogs “menores” entre 50 y 70. Sin hacer la matemática exacta estamos hablando de cualquier cosa entre 50 y 70 mil comentarios de los lectores. (Finalmente estoy viviendo en carne propia el término que se repite en todos los ensayos sobre Humanidades Digitales: large datasets). Es realmente impresionante que incluso en número de palabras cualquier texto de Orsai se multiplica exponencialmente en manos de los lectores. Alegremente esto confirma un punto clave de la parte teórica de la tesis: la cualidad orgánica de un texto en su contexto (en su comunidad para decirlo de forma menos cacofónica) es que un input mínimo produce un output mucho mayor. Para los que seguimos a Boyd, esto es, incluso, un aspecto que distingue el hecho de leer en sí.

Entonces el problema es cómo manejar todo esto para poder analizarlo. Tres opciones claras, aunque seguro se me están pasando otras. Si alguien tiene sugerencias son infinitamente bienvenidas.

1) Comentario por comentario a la base de datos tal y como está el esquema. Sus ventajas son claras, sería una especie de close reading que permitiría un nivel de detalle del análisis minucioso, como poder identificar, e incluso caracterizar, a algunos de los lectores casi como si se tratara de personajes; notar los matices de las intervenciones de los lectores, etc. Sus desventajas no hay ni que mencionarlas.

2) Hacer una clasificación breve de nodos tipo, no más de 20 tal vez, en las que acomode (si bien un poco arbitrariamente – ahí la prueba de que todo esto sigue siendo labor interpretativa) cada comentario. Por ejemplo: en una categoría todos los “pri”, “dos”, “tres” que siempre aparecen al principio, en otra los agradecimientos a los autores, en otra las correcciones de estilo, etc. Lo que se volvería visible aquí es la frecuencia con la que los lectores recurren al tipo de comentario en qué piezas. ¿Quién sabe? A lo mejor todos los tipos de comentarios están balanceados en cada pieza o, dependiendo del tema de la pieza, predomina alguno.

3) El distant reading – probablemente usando el NLTK de Python – para formar una base de datos paralela que pueda empalmarse a la medusa. Con esta metodología podría, por ejemplo, obtener buenas mediciones de la frecuencia con la que los comentarios “pri” aparecen y ver como se distribuyen a lo largo del corpus de Orsai, o qué tan común es que los lectores se dirijan a los autores a otros lectores, establecer palabras clave que denoten emociones despertadas en los lectores o formas en las que se relacionan con el proyecto en general, no sería tan complicado. Me atrae mucho probar esta metodología aunque el nivel de detalle puede no ser minucioso en el sentido en el que lo sería con la primera opción, el dataset es tan grande que la información que obtenga de este análisis dificilmente sería irrelevante. Desventajas: apenas estoy aprendiendo a usar Python.

Independientemente de con qué metodología termine hay dos cosas que me tienen fascinada – incluir el dataset enorme hace necesario poner el énfasis en las “manifestaciones” de los lectores, de ninguna forma aisladas de los textos primarios, sino al contrario casi como parte de ellos. Y dos, observar cómo se ha establecido la comunidad en términos textuales.

Los números y las comunidades de lectores.

En los últimos días he estado recolectando datos duros sobre la cantidad de texto que se publica en redes sociales y plataformas de blog. Los número son impresionantes. A finales del año pasado Twitter anunció que había llegado a 250 millones de tuits por día: un total de 35 mil millones de caracteres. Asumiendo que, en promedio grande, una página tiene 3500 caracteres, el total de texto publicado en Twitter equivale a 10 millones de páginas o 20 mil libros de 500 páginas, escritos y leídos todos los días.

De forma similar, las estadísticas de WordPress señalan un total de casi 72 millones de sitios de WP en el mundo y 500 mil nuevos posts diarios. Corríjanme, por favor, si estoy equivocada: WP es la plataforma de blog más usada en el mundo y se estima que reúne algo menos de la mitad de los blogs existentes. Por lo tanto, la cantidad de texto publicado en blogs debe ser casi imposible de calcular, pero el resultado debe ser tan apabullante como el de Twitter.

Sobra decir que aunque toda esta información está disponible a uno parece imposible incluso pensarla. No solamente eso, se ha vuelto lugar común, demasiado común, el decir que el 99.9% es basura, como los virus y microbios que matan los jabones y desinfectantes. Desde luego un gran porcentaje, muy posiblemente la mayoría de todo ese texto sí será basura. No obstante, así se trate de una minúscula porción, habrá, sin duda, muchísimo material de valor. Por números nada más se ha vuelto imposible ignorarlo y descartarlo como basura o, en el mejor de los casos, como la proverbial aguja en el pajar. Desde luego al no haber un sistema editorial – un filtro que decida lo que es digno de leerse y lo que no contamos únicamente con los instintos propios, o eso parecería. Ya lo dijo K. Fitzpatrick en el contexto académico, el reconocimiento proviene ahora desde la recepción de una comunidad de lectores. Exactamente lo mismo ocurre con la literatura publicada en Internet.

Esta cuestión de la formación de comunidades de lectores es lo que realmente me intriga actualmente. Las redes sociales, sin duda juegan un papel fundamental para dibujar las líneas que unen un texto en particular con sus lectores y a ellos con otros lectores y con otros textos y los lectores de éstos. Eso ya también se está volviendo lugar común: el poder de las redes sociales para formar comunidades, pero ellas son, a mi parecer, las calles del vecindario por donde pasamos todos los vecinos – lo cual no siempre causa que sepamos siquiera nuestros nombre, mucho menos que nos consideremos parte de una comunidad. Debe entonces de haber no solamente una cuestión comunicativa: un poder intercambiar opiniones, sino un querer hacerlo. Una voluntad de formar parte de una comunidad, una socialidad, me van a perdonar la expresión, muy animal – es decir muy primaria. Aquí está el meollo.