Teclear por la causa - Semanario Brecha

Un software desarrollado por la Udelar rinde homenaje a Luisa Cuesta e intenta aportar a la recuperación y transcripción de los archivos del pasado reciente.

Muchas ideas vienen a la cabeza si se piensa en Luisa Cuesta. La primera tal vez sea su imagen de los últimos años, de mujer arrugadita, gafas grandes y pelo blanco brillante, llevando, quizá, el cartel estampado con la cara de su hijo, Nebio. Menos probable es asociar sus ojos de chispas verdes a computadoras, fórmulas y algoritmos, aunque ello sea parte de la misma lucha que emprendió aquel cuerpo incansable y pequeño.

Leyendo Unidos para Interpretar loS Archivos, o Luisa, es una herramienta informática que intenta aportar a la recuperación de los archivos de la dictadura de forma colaborativa. También es parte de un proyecto de Extensión Universitaria (llamado “Cruzar, sistema de información y archivos del pasado reciente”) que llevan adelante las facultades de Ingeniería y de Comunicación de la Udelar, en conjunto con Madres y Familiares de Uruguayos Detenidos Desaparecidos. Se trata de un conjunto de soluciones informáticas para recuperar, procesar y cruzar la información que contienen los documentos.

El acceso a los archivos es sólo uno de los desafíos que enfrenta quien busca información. Nadar entre las palabras infinitas, muchas de ellas ilegibles, no es tarea fácil cuando el material carece de sistematización, como es el caso de los archivos del pasado reciente. El primer paso para ordenarlos y clasificarlos es poder saber qué dicen, asunto al que está abocado este software con nombre de emblema.

En una primera instancia, Luisa utiliza documentos que datan de los primeros años de la dictadura, una pequeña porción del llamado “Archivo Berrutti”, hallado en 2007 por la entonces ministra de Defensa, Azucena Berrutti. El archivo contiene alrededor de 4 millones de fotos de documentos originados entre 1971 y 2000, y fue proporcionado por el Grupo de Trabajo por Verdad y Justicia, que funciona en la órbita de Presidencia.

“Para poder buscar de una manera inteligente, buscar todos los documentos donde aparece la Operación Cóndor, por ejemplo, el nombre de alguien, o lo que fuera, la primera etapa es pasar del documento-foto al documento-texto digital o pdf, donde las palabras tienen sentido. Allí nos encontramos con numerosos problemas, muchos de los documentos fueron fotografiados, en la misma época de la dictadura, en microfilms que después fueron escaneados. Algunos están en mal estado, fueron escritos con una máquina de escribir muy entintada, o poco entintada, otros a mano”, explica el coordinador del proyecto por el Instituto de Ingeniería Eléctrica de la Facultad de Ingeniería, Gregory Randall.

La solución más conocida para convertir el documento-imagen a texto es un softwarede reconocimiento óptico de caracteres (Ocr, por sus siglas en inglés), que identifica letras, números y símbolos y los convierte a texto. Sin embargo, esta herramienta resulta insuficiente cuando la calidad de la imagen es mala, como en los casos descritos por el profesor. Para saldar esas porciones de texto que el Ocr no reconoce, nació Luisa.

Cualquiera, desde cualquier rincón del mundo, puede ingresar a la página web¹ que alberga el software. En cada entrada, Luisa reproduce aleatoriamente un conjunto de recuadros con palabras de los archivos, que el usuario debe interpretar y transcribir. Además, en otro recuadro, proporciona parte del texto en el que están inmersos los caracteres, con el fin de que el contexto ayude a la comprensión. “Puede pasar que, por la calidad de la imagen, algunas personas lean ‘perro’ en donde dice ‘pelo’, que no lean nada, o que interpreten la palabra correctamente. La idea es que cada bloquecito –recuadro– sea visto por varias personas, y, mediante un sistema de estadística y usando las reglas de la lengua castellana, podamos determinar cuál es la palabra que está bien”, aclara Randall. La transcripción correcta puede hallarse determinando, mediante fórmulas y algoritmos, cuál fue la interpretación que se repitió más veces. Además, a través de un sistema similar al del predictor del celular, se pueden descartar las palabras que no pertenecen a nuestra lengua.

“Al hacerlo por bloquecitos, no le damos a nadie la imagen completa del documento y mantenemos, en esta etapa, la discreción sobre los archivos”, agrega el docente, aludiendo al crispado debate sobre el acceso a los archivos.²

ROBOTS Y OTROS PELIGROS. La posibilidad de que haya robots o humanos dedicados a boicotear el software fue contemplada por el equipo a cargo del proyecto, que previó medidas para defenderlo de eventuales ataques. “Además del peligro de que un robot o alguien malintencionado entre al sistema, está el peligro de que alguien se quede con la traza de la gente que participa. Hemos tenido una reflexión: no queremos que se sepa quién trabajó en el programa. En ese equilibrio, por el momento, hemos optado por no guardar ninguna información, no enterarnos de quién es la persona que ingresa o del IP³ de la máquina, y eso nos limita un poquito sobre la capacidad de seguridad. Podríamos poner password, pero no queremos que exista manera de localizar a la gente que participa en esto”, afirma el profesor.

Otro de los desafíos que tendrá el sistema es soportar el acceso masivo que se pretende y espera, principalmente a partir de su presentación.⁴ En este sentido, explica Randall, el equipo irá testeando la capacidad de respuesta del programa.

Los equipos de las facultades de Ingeniería y Comunicación encaran, además, otras líneas del trabajo: la clasificación de los archivos y el desarrollo de una base de datos que permita establecer relaciones entre los documentos.

“Clasificar ayuda a quienes van a hacer el análisis diciéndoles ‘si van a buscar sobre tal cosa, en vez de bucear en 4 millones de documentos, busquen en estos 50 mil o 100 mil’”, ilustra Randall. “La clasificación es todo un problema –dice– porque los algoritmos de clasificación automática no han resultado muy eficientes. Buscamos algoritmos de clasificación que se llaman ‘supervisados’, porque aprenden cómo el ser humano hace la clasificación. Pero para entrenarlo nos hace falta una base importante de documentos clasificados por personas”. A la tarea se dedican varias docenas de estudiantes universitarios, que establecen una serie de etiquetas a los archivos, previamente definidas. Los criterios de clasificación pueden comprender variables como el tipo de documento (actas de interrogatorios, fichas policiales, informes, etcétera), la fecha, la calidad del material o el tema que aborda.

La base de datos relacional completa el proyecto y es en donde se van a ir ubicando los documentos y la metadata que surge de ellos.

MILITANTES TECNOLÓGICOS. Para que un número importante de documentos sea transcrito, harán falta unas cuantas semanas de trabajo y unos cientos de miles de entradas. “En las pruebas que hemos hecho, hemos visto que hay gente que trabaja dos minutos y hay gente que trabaja varias horas”, asegura Randall.

Luisa fue creado con una tecnología que está de moda, señala el docente. En inglés se llama crowdsourcing, el término une las palabras crowd (multitud) y sourcing (abastecimiento). “Podríamos haber puesto a cientos de personas a transcribir documentos enteros, pero hubiera sido un trabajo muy largo, y lo que hemos intentando con Luisa es que entre todo el mundo transcribamos. La gente puede colaborar con mucho o poco tiempo, desde el ómnibus, cuando está esperando y mirando el celular, desde cualquier lugar. Nos parece que este software puede servir como una forma de militancia social generalizada en la que todos ayudamos un poquito a la causa de verdad y justicia”, dice.

1. www.fing.edu.uy/mh/luisa/docdic

2. Sobre ello escribió Brecha, luego de que pusiera a disposición pública 14 mil documentos provenientes del Archivo Berrutti (véase edición del 11-VIII-17).

3. La dirección IP es el número que identifica una computadora, tableta o teléfono inteligente en una red.

4. Aunque ya se encuentra operativo, la presentación de Luisa será el próximo lunes a las 18 horas en el Paraninfo de la Universidad y contará con la participación del rector, Rodrigo Arim, el coordinador del Grupo de Trabajo Verdad y Justicia, Felipe Michelini, y el equipo encargado del proyecto.

[notice]

Ir a la fuente

Del trabajo con los archivos surgieron varias investigaciones1 llevadas adelante por docentes y alumnos de la Facultad de Comunicación: “La estructura del poder militar durante la dictadura” (sobre cómo operaba el aparato de la dictadura en base a documentos de la Fuerzas Armadas); “Una máquina (casi perfecta): el Sid como usina de inteligencia y soporte de la represión durante la dictadura militar” (sobre los objetivos, los responsables y las tareas del Servicio de Información y Defensa); “Un modelo de guerra sucia: el rol operativo del Ocoa en la represión” (sobre el Organismo Coordinador de Operaciones Antisubversivas, brazo ejecutor de la represión) y “Continuidad de viejas prácticas. Espionaje de la inteligencia militar en el referéndum por la ley de caducidad” (sobre el espionaje en democracia).

Puede accederse a ellos en la página www.cruzar.edu.uy/index.php/investigaciones-2/

[/notice]

Luisa, un software colaborativo para trabajar contra la impunidad.

Ir a la fuente

Artículos relacionados

«La ley nos faculta a acceder a cualquier archivo»

Restituciones

«Yo creo que el presidente va a dar la orden»

El sol y el dedo

Incertidumbre y desmesura