viernes, 25 de abril de 2014

El diseño de la digitalización


Muchas veces se habla de la digitalización como una actividad
que depende sólo de buenos y apropiados equipos.
En realidad es un proceso que debe ser muy bien diseñado y
planificado porque, cuando hay volumen, repetir no es una opción
Seguimos con el tema de la digitalización. Ese puente que comunica el pasado de papel con el presente digital, absolutamente necesario en no pocos casos. Muchas veces un gran puente, porque se requiere y se acomete la digitalización de millones de páginas. Como hemos visto en las últimas semanas el proceso no es nada trivial y esconde detrás de su nombre una serie de dificultades que no son aparentes para las personas que no han realizado previamente procesos exitosos de digitalización de volumen. Hoy queremos, consecuentemente, comentar algunos aspectos dentro de la imprescindible actividad de diseño y la planificación que debe realizarse en un proceso de digitalización de mediana o gran escala.

Imprescindible, decimos, porque es prácticamente suicida pretender digitalizar una gran cantidad de documentos sin hacer esta planificación cabalmente. Demasiados recursos se invierten en un proceso de digitalización de volumen como para no atender los detalles que aseguran el resultado exitoso.

El diseño comienza con la definición de políticas de organización, digitalización y registro. Deben recorrerse y revisarse todas las políticas relacionadas con la selección de documentos a digitalizar, el tamaño de las imágenes digitalizadas que se obtendrán, los tipos de archivo en que se guardarán estas imágenes, los campos de información a registrar explícitamente, el formato que se usará en éste registro (mayúsculas, minúsculas, subrayados, negritas, comillas, orden de registro) y el lenguaje controlado utilizado. Comentaremos a continuación las decisiones ligadas a las imágenes y dejamos para otro siguiente las ligadas al registro.

El mensaje que queremos transmitir es que decisiones básicas sobre los aspectos que definen la captura digital deben definirse y escribirse explícitamente. No se puede dejar a la discreción de ninguna persona en particular y mucho menos al último eslabón de la cadena, el trabajador que tiene ante si el documento y el escáner. Cualquier error en la definición se paga muy caro por el problema del volumen. Si no definimos explícitamente las pautas que regirán la digitalización masiva corremos el riesgo de que algunas imágenes se obtengan bien y otras mal. Si se tratara de unas pocas imágenes, la digitalización podría repetirse, pero un proceso masivo consume tiempo y recursos de envergadura por lo que deben garantizarse los resultados ya que repetir no es una opción.

El tamaño promedio de una imagen se multiplicará durante la ejecución del proyecto por el número de páginas digitalizadas, que puede ser 100.000 o 1.000.000 o 10.000.000, esto amplifica los errores. Según como se haga, una imagen puede, por ejemplo, ocupar 400 Kb o de 200 Kb. La diferencia no son 200 Kb, eso es irrelevante. Es asunto es que cuando se multiplica cualquier número por 1.000.000 ya el resultado no es irrelevante porque estamos hablando de 200 Gb de almacenamiento que, si se usa un esquema de duplicación por razones de seguridad, pueden significar 400 Gb de almacenamiento. Estos números ya tienen implicaciones de infraestructura. Y no sólo es almacenamiento: mientras más pesadas son las imágenes, más ancho de banda de comunicación requieren y otra vez el volumen vuelve a importar.

Para disminuir el peso de las imágenes éstas se comprimen y se les baja la resolución, pero esto también eso trae consecuencias de pérdida de calidad. Para mejorar la calidad en la captura digital lo que se recomienda usualmente es que se aumente la resolución, pero además de lo mencionado arriba hay que tomar en cuenta que después de un cierto punto el aumento de la resolución no aporta más legibilidad a la imagen obtenida. Así pues, en cada aplicación hay un punto óptimo y éste debe determinarse, no simplemente realizarse a lo que salga, a lo que den los escáneres. Debe haber diseño técnico.

El tema del formato de los archivos es también relevante. Hay que tomar una decisión: jpg, png, pdf. Una vez determinado el formato apropiado a la aplicación (ver ¿Por qué tantos formatos?) éste debe mantenerse consistentemente.

No hay comentarios: