Lima Andina: del archivo al archivo digital


por Roberto Pareja

Lima Andina es un ambicioso proyecto de investigación con un fuerte componente de Humanidades Digitales. Las fuentes documentales primarias, en esta etapa del proyecto, son los anuncios de las organizaciones de migrantes en Lima (a partir de ahora, “asociaciones” o “asociaciones de migrantes”) extraídos de los números del periódico El Comercio publicados entre 1906 y 1933. Nuestro proyecto usó el repositorio hemerográfico de la Biblioteca del Congreso del Perú (“Biblioteca del Congreso de la República ‘César Vallejo’” s/f) que contiene los números de este periódico limeño entre 1839 y 2009 (El Comercio 1839).

Una mirada al registro MARC (“Understanding MARC Bibliographic: Parts 1 to 6” s/f) de la serie El Comercio tomado del catálogo de la Biblioteca del Congreso de la República, nos ayuda a comprender la dimensión temporal del proyecto y prever posibles lagunas en la serie documental. El registro MARC contiene un campo donde se pueden apreciar las series temporales y los volúmenes correspondientes (ver imagen 1). Vemos que para 1906 existen 6 volúmenes pero que son redundantes o que hay lagunas, en tanto que para 1933 hay 18 volúmenes que representan 3 conjuntos completos. Ver registro completo en el catálogo de la Biblioteca del Congreso de la República.

Imagen 1 — Registro MARC

La extracción de datos de archivos analógicos en el contexto de un proyecto de Humanidades Digitales implica varios pasos que son, a veces sucesivos, otras simultáneos, pero siempre iterativos. Estos pasos se pueden presentar sintéticamente en estilo YAML (imagen 2), un estándar de intercambio de datos que permite organizar información de forma jerárquica usando indentación (“The Official YAML Web Site” s/f; “YAML” 2020).

Imagen 2: etapas de la datificación de documentos históricos

Al igual que en el caso de los archivos digitales, los datos extraídos de repositorios analógicos casi nunca están en un formato útil para nuestros propósitos, i.e. no están expresados en una taxonomía que conduzca a formular preguntas de investigación relevantes y que se puedan traducir al lenguaje de los sistemas de información. La tarea de modelizar datos en Humanidades tiene la importante función de crear taxonomías que conduzcan al análisis y visualización de los datos a partir de los presupuestos teórico-metodológicos de investigación específicos a las Humanidades y Ciencias Sociales.

El trabajo de extracción manual de datos se realizó en base a un modelo conceptual pensado para organizarlos en una base de datos SQL. Un primer moldelo conceptual buscaba identificar entidades y relaciones muy generales, siguiendo el modelo Entity-Relationship (ER) (“Modelo entidad-relación” 2021) (ver imagen 3).

Imagen 3: diagrama preliminar del modelo conceptual

El modelo conceptual original es mucho más amplio que la implementación que finalmente se hizo de la base de datos y del interfaz de búsqueda en esta fase del proyecto; además se hicieron muchos cambios en el proceso (ver imágenes 4 y 5).

Imagen 4: modelo conceptual original
Imagen 5: cambios en el modelo

A continuación esbozo una codificación tipo YAML de las entidades y taxonomías del proyecto (ver imagen 6). La fuente documental principal son los anuncios en El Comercio, sin embargo en la segunda fase del proyecto se prevé el uso de revistas para, por ejemplo, averiguar o confirmar las fechas de fundación de ciertas asociaciones. Hacia el final del documento YAML se observa la taxonomía que organiza el vocabulario controlado extraído del texto de los anuncios. Este es un aspecto del proyecto que ofrece muchas posibilidades de desarrollo. Por el momento, estamos usando herramientas de reconocimiento de caracteres (OCR, por sus siglas en inglés) para extraer el texto completo de los anuncios, a la vez que empezamos a desarrollar un tesauro con un vocabulario y una taxonomía en base a ese corpus textual, que es lo que se ve en la segunda parte del documento YAML ya mencionado (imagen 6). Por ejemplo, el tema denominado “tópico” engloba el sub-tema “reunión” con una sub-taxonomía de tipo de eventos que describe las actividades que se realizaban en las reuniones, desde reuniones de directorio hasta elecciones, eventos deportivos y culturales, conferencias, y mitines políticos, y el sub-tema “referencia” que incluye las menciones a personas contemporáneas y/o personajes y eventos históricos que no están presentes en las actividades pero a las que se hace referencia. Por otra parte, esta taxonomía del tesauro converge y se complementa con la taxonomía del modelo conceptual de la base de datos que contiene la entidad “persona” y una categorización de las entidades nombradas: referencia, miembro-tipo (roles de los miembros) y visita (que registra a las personas que no son miembros).

Imagen 6: taxonomía Lima Andina

Ahora bien, aunque a priori es discutible si este nivel de granularidad es necesario y/o deseable, el desarrollo de este tipo de modelos conceptuales y la exploración de sus posibilidades de aplicación tiene características únicas en cada proyecto y puede convertirse en una función heurística muy útil para cualquier investigación en Humanidadaes y Ciencias Sociales. El uso productivo de taxonomías en el análisis y visualización de datos compensa con creces el esfuerzo que se pone en crear categorías con un mayor nivel de granularidad. Lima Andina busca ofrecer una gama de análisis y visualizaciones que cubra los temas presentes en los datos y que apoye la investigación a partir del descubrimiento de patrones antes no percibidos. Se trata de una herramienta de exploración antes que un simple medio de “probar” hipótesis. Contar con el mayor nivel de granularidad posible permite analizar y visualizar datos desde múltiples perspectivas y, de este modo, permite el descubrimiento de nuevas maneras de acercarse a los problemas que se plantea la investigación histórica.

Al contar con una taxonomía robusta y abarcadora, Lima Andina puede ofrecer tanto al usuario investigador como al público general una herramienta para explorar el pasado, enfocándose en los “orígenes” andinos de la capital peruana a través del estudio de las asociaciones de migrantes que le dieron a Lima su perfil andino. Un interfaz dinámico y limpio ayuda a explorar los datos mismos. Aunque este prototipo de interfaz de búsqueda es apenas un comienzo (se trata de la implementación de filtros sobre sólo dos tablas de la base de datos), ya se pueden apreciar las posibilidades de un corpus que incorpora datos provenientes del archivo analógico potenciándolos con una taxonomía que pone en uso los datos textuales y sus contenidos, además de agregar datos ligados para la geolocalización y la referencia de autoridades. A esto hay que añadir las visualizaciones estáticas e interactivas que se pueden crear por medio de herramientas como Flourish, Gephi, Rstudio, Shiny, entre otras.

Al haber ligado cada asociación con información geográfica podemos rastrear la presencia de las regiones en la capital peruana a lo largo de más dos décadas (imagen 7) (Pareja s/f) y ubicar a las asociaciones en distintos mapas a nivel departamental y provincial. El rango temporal se ampliará en la siguiente fase del proyecto. El modelo conceptual, aunque implementado parcialmente, permite varias operaciones, incluso la posibilidad de, por ejemplo, ordenar las asociaciones por rango de año y por número de anuncios en El Comercio y filtrar por origen geográfico, en este caso departamento. Ver la visualización interactiva “Línea de Tiempo: Asociaciones según número de artículos”.

Imagen 7: representación de los departamentos por año de publicación

Al implementar el modelo de forma más completa, por ejemplo incorporando la entidad “persona”, Lima Andina podrá realizar el análisis y la visualización de los datos desde una perspectiva de redes de actores (individuales y colectivos) y enfocándose en la formación de las asociaciones de migrantes y su influencia en el desarrollo histórico de la capital del Perú. La entidad “persona” en el modelo contiene mayormente a miembros de estas organizaciones de migrantes, aunque también recoge las visitas a los clubes de personas ajenas a la agrupación pero relacionadas a ellas por lazos socio-culturales y/o ideológico-políticos.

La taxonomía que se está implementando permite en este punto un nivel de granularidad muy fino para estudiar las redes y puede expandir aún más la exploración de los datos para sugerir nuevas perspectivas sobre los problemas que se plantea la investigación. Por ejemplo, se puede analizar y visualizar las actividades de los clubes filtrando por el tipo de evento que realizaban, incluyendo las reuniones regulares, de modo de producir un marco de referencia para el estudio de la cultura andina en las asociaciones de migrantes y su influencia en Lima misma en tanto entidad socio-espacial. Un análisis preliminar usando una taxonomía básica que engloba todos los tipos de eventos en categorías todavía no normalizadas nos nuestra que, de lejos, el evento con más presencia en el corpus es la citación a “asamblea general”, además de mostrar la importancia de las actividades culturales: por ejemplo, “velada literaria y musical” (imagen 8) (Pareja s/f).

Imagen 8: visualización preliminar de categorías de los datos textuales

En la siguiente fase del proyecto nos proponemos seguir implementando el modelo conceptual para incluir a la entidad “Persona” y analizar y visualizar las redes de actores en su contexto socio-espacial. Para ello se terminará el procesamientos OCR de los documentos y se usará una taxonomía que categoriza, normaliza y describe los datos textuales y sus metadatos, de modo de asociar a las personas a lugares, periodos temporales y temas.

Una versión de los datos usados en esta implementación se pueden encontrar en el repositorio de Lima Andina en The Dataverse Network (Ayme et al. 2020)

Referencias

Ayme, Yesica, Alan Durston, Eliezer Molina, Roberto Pareja, y Luis Tavera. 2020. “El Comercio Migrant Association Database”. Scholars Portal Dataverse. https://doi.org/10.5683/SP2/8IPTYQ.

“Biblioteca del Congreso de la República ‘César Vallejo’”. s/f. Consultado el 11 de junio de 2021. http://www.congreso.gob.pe/biblioteca/.

El Comercio. 1839. Lima: Planta de impresión de Pando.

“Modelo entidad-relación”. 2021. En Wikipedia, la enciclopedia libre. https://es.wikipedia.org/w/index.php?title=Modelo_entidad-relaci%C3%B3n&oldid=135954782.

Pareja, Roberto. s/f. “Lima_Andina_165_Category_Freq”. RPubs. Consultado el 14 de junio de 2021a. https://rpubs.com/rpareja/753665.

———. s/f. “Lima_Andina_Departamento_Year”. RPubs. Consultado el 14 de junio de 2021b. https://rpubs.com/rpareja/753955.

“The Official YAML Web Site”. s/f. Consultado el 11 de junio de 2021. https://yaml.org/.

“Understanding MARC Bibliographic: Parts 1 to 6”. s/f. Consultado el 14 de junio de 2021. https://www.loc.gov/marc/umb/um01to06.html.

“YAML”. 2020. En Wikipedia, la enciclopedia libre. https://es.wikipedia.org/w/index.php?title=YAML&oldid=130566740.