La inteligencia artificial está descifrando los Archivos Secretos en la Ciudad del Vaticano

301
La inteligencia artificial está descifrando los Archivos Secretos en la Ciudad del Vaticano

RECIBE MÁS NOTICIAS COMO ESTA EN TU CORREO!

Suscríbete a nuestro boletín de noticias y conoce las historias de las que todo el mundo habla diariamente.

Gracias por suscribirse.

Algo salió mal.

Un nuevo proyecto de inteligencia artificial desenreda los textos manuscritos en una de las colecciones históricas más grandes del mundo en la Ciudad del Vaticano.

El Archivo Secreto Vaticano es una de las colecciones históricas más grandes del mundo. También es uno de los más inútiles.

Anuncios

La grandeza es obvia. Situado dentro de las murallas del Vaticano, al lado de la Biblioteca Apostólica y justo al norte de la Capilla Sixtina, el VSA alberga 53 millas lineales de estanterías que datan de hace más de 12 siglos. Incluye gemas como la bula papal que excomulgó a Martín Lutero y las súplicas de ayuda que María, Reina de Escocia, envió al Papa Sixto V antes de su ejecución. En tamaño y alcance, la colección es casi inigualable.

Dicho esto, el VSA no es muy útil para los eruditos modernos, porque es tan inaccesible. De esas 53 millas, sólo unos pocos milímetros de páginas han sido escaneadas y están disponibles en línea. Aún menos páginas han sido transcritas a texto de computadora y se pueden buscar. Si quieres examinar cualquier otra cosa, tienes que solicitar un acceso especial, ir hasta Roma y revisar cada página a mano.

Pero un nuevo proyecto podría cambiar todo eso. Conocido como In Codice Ratio, utiliza una combinación de inteligencia artificial y software de reconocimiento óptico de caracteres (OCR) para rastrear estos textos descuidados y hacer que sus transcripciones estén disponibles por primera vez. Si tiene éxito, la tecnología también podría abrir un número incalculable de otros documentos en los archivos históricos de todo el mundo.

Anuncios
Anuncios

El OCR se ha utilizado para escanear libros y otros documentos impresos durante años, pero no es adecuado para el material de los Archivos Secretos. El OCR tradicional divide las palabras en una serie de letras-imágenes buscando los espacios entre las letras. Luego compara cada carta-imagen con el banco de letras de su memoria. Después de decidir qué letra se ajusta mejor a la imagen, el software traduce la letra a código de ordenador (ASCII) y, por lo tanto, hace que el texto se pueda buscar.

Este proceso, sin embargo, realmente sólo funciona en texto tipográfico. Es pésimo para cualquier cosa escrita a mano, como la gran mayoría de los viejos documentos del Vaticano. He aquí un ejemplo de principios del siglo XIII, escrito en lo que se llama la minúscula escritura de Caroline, que parece una mezcla de caligrafía y cursiva:

Anuncios

El principal problema en este ejemplo es la falta de espacio entre letras (la llamada segmentación sucia). El OCR no puede decir dónde se detiene una letra y dónde comienza otra, y por lo tanto no sabe cuántas letras hay. El resultado es un punto muerto computacional, a veces conocido como la paradoja de Sayre: el software de OCR necesita segmentar una palabra en letras individuales antes de poder reconocerlas, pero en los textos escritos a mano con letras conectadas, el software necesita reconocer las letras para segmentarlas. Es un callejón sin salida.

Algunos informáticos han intentado sortear este problema desarrollando el OCR para reconocer palabras enteras en lugar de letras. Esto funciona muy bien tecnológicamente: a las computadoras no les “importa” si están analizando palabras o letras. Pero poner en marcha estos sistemas es una pesadilla, porque requieren bancos de memoria gigantescos. En lugar de unas pocas docenas de letras del alfabeto, estos sistemas tienen que reconocer imágenes de miles y miles de palabras comunes. Lo que significa que se necesita un pelotón entero de eruditos con experiencia en latín medieval para revisar documentos antiguos y capturar imágenes de cada palabra. De hecho, se necesitan varias imágenes de cada uno, para tener en cuenta las peculiaridades de la escritura a mano o la mala iluminación y otras variables. Es una tarea de enormes proporciones.

En Codice Ratio evita estos problemas a través de un nuevo enfoque de OCR escrito a mano. Los cuatro científicos principales detrás del proyecto -Paolo Merialdo, Donatella Firmani y Elena Nieddu en la Universidad de Roma Tre, y Marco Maiorino en la paradoja de VSA-Falda Sayre con una innovación llamada segmentación de rompecabezas. Este proceso, tal y como el equipo lo describió recientemente en un documento, descompone las palabras no en letras, sino en algo más parecido a los trazos de los lápices individuales. El OCR hace esto dividiendo cada palabra en una serie de bandas verticales y horizontales y buscando los mínimos locales: las porciones más delgadas, donde hay menos tinta (o, en realidad, menos píxeles). El software entonces talla las letras en estas articulaciones. El resultado final es una serie de piezas del rompecabezas:

Por sí solas, las piezas del rompecabezas no son tremendamente útiles. Pero el software puede agruparlas de varias maneras para hacer posibles las letras. Sólo necesita saber qué grupos de trozos representan letras reales y cuáles son falsos.

Anuncios

Para enseñar esto al software, los investigadores recurrieron a una fuente inusual de ayuda: los estudiantes de secundaria. El equipo reclutó estudiantes en 24 escuelas en Italia para construir los bancos de memoria de los proyectos. Los estudiantes se conectaron a un sitio web, donde encontraron una pantalla con tres secciones: