La empresa de Espaitec 4TIC emplea un sistema de transcripción diseñado en la UJI en la digitalización del Archivo Tarradellas
El 10 de febrero se firmaron los convenios que tienen por objetivo regular la colaboración entre el Monasterio de Poblet, la Diputación de Tarragona, la Universitat Rovira i Virgili (URV) para la digitalización, el acceso y la difusión del fondo cultural del monasterio a través de Internet y la aportación de la infraestructura necesaria para su desarrollo. En el mismo acto se firmaron los convenios bilaterales entre la URV y cuatro socios tecnológicos, 4TIC entre ellos, para hacer posible el desarrollo del proyecto. El objetivo es garantizar la conservación de los contenidos del Archivo de forma segura y permanente. Al mismo tiempo se posibilitará el tratamiento de todos los contenidos con las nuevas tecnologías digitales, de manera que en el futuro se facilitará a los investigadores y público en general el acceso a la documentación y el tratamiento de datos, siempre con las limitaciones establecidas por el Patronato del Archivo en función de los términos de la donación de la familia Tarradellas.
El Archivo Tarradellas está formado por documentos que el presidente Tarradellas conservó durante cerca de cuarenta años, desde la época de consejero de la Generalitat de Catalunya republicana, pasando por el largo exilio hasta el retorno a Cataluña como presidente de la Generalitat durante la Transición. Las cerca de dos millones de páginas de documentos se estructuran en siete series y en las siguientes secciones: política, iglesia, personal, hemeroteca, reproducciones, biblioteca, donaciones y Archivo Montserrat Tarradellas i Macià.
Está previsto que la digitalitzación del fondo duré cuatro años con una media de 600 documentos por día, en un formato de alta resolución. La digitalitzación de los materiales no se puede limitar a capturar y organizar imágenes de páginas de documentos, hay que enriquecer las imágenes con información que permita efectuar búsquedas por contenido a los documentos realizados. Por lo tanto, se han de transcribir los documentos. En el caso de documentos antiguos, con tipografías poco corrientes, manuscritos y manchas en los apoyos, las herramientas de reconocimiento de caracteres OCR, se deben complementar con herramientas que limpian las imágenes, OCRs específicos adaptables que permiten la supervisión humana línea a línea para corregir errores y realimentar el sistema que así “aprende” de sus errores. Por darle solución se ha escogido el sistema 4State, de la empresa 4TIC, nacido de la investigación del Departamento de Lenguajes y Sistemas Informáticos de la UJI.
4TIC es una empresa joven, creado a principios de 2009, dedicada al desarrollo e implantación de soluciones basadas en tecnologías emergentes. Basándose en estándares y software libre, Nicolás Manero y Ángel Jimenez, creadores de 4TIC, intentan que las soluciones desarrolladas puedan ser fácilmente integradas en cualquier entorno.