viernes, 30 de mayo de 2014

La línea de producción de bits

En la digitalización de volumen el diseño del proceso de captura digital y la planificación del proyecto son actividades muy críticas. Hay que evitar los errores, dado que éstos se multiplican por el número de páginas digitalizadas y éste número es alto por definición en los procesos masivos. Pero después del diseño, de la consideración de alternativas, de la definición de políticas de organización, digitalización y registro, de la conformación de unidades de digitalización, de las definiciones acerca de la ruta física de los documentos, de la selección e instalación de equipos y de las pruebas de digitalización de una muestra representativa de los documentos a digitalizar, se arranca la línea de producción de bits: la captura masiva de las imágenes digitales de los documentos. Es lo que describimos en este post.

La línea de producción de bits de un típico proceso de digitalización masiva comienza con la valoración inicial, la consideración de los documentos para determinar lo que va a ser digitalizado. Los documentos son agrupados en lotes, paquetes o cajas que son trasladados hasta el lugar de digitalización. En la salida del archivo se registra lo que va en cada paquete y se crea una etiqueta que es leída en el lugar de digitalización para control del flujo de los documentos. En el lugar de digitalización los documentos son rápidamente evaluados para determinar lo que debe ser digitalizado y registrado. Esto puede ser una actividad rápida y sencilla. Por ejemplo, si se digitaliza un archivo fotográfico y todas las fotos son digitalizadas no hay mucho que considerar. Pero también puede ser un trabajo más complejo. Por ejemplo, si se digitalizan expedientes de personas, pero debe seleccionarse con ciertos criterios definidos con anterioridad cuál es la porción del expediente que se digitalizará.

La digitalización y el registro pueden ser operaciones simultáneas y síncronas o pueden ser completamente paralelas y asíncronas. La manera de sincronizar en el caso en que las actividades sean paralelas es muy variada. Una manera sencilla es hacerlo a través del uso del código de identificación que se tenga para las personas (el número de identificación nacional, el número de identificación en la institución, etc) como el nombre del archivo que contiene la imagen si el proceso diseñado crea una única imagen por persona o como nombre de directorio si se crean varias imágenes por documento. Esta forma de trabajar tiene la ventaja de que un prgrama puede luego asociar automáticamte todo lo digitalizado a los expedientes digitales ahorrando un tiempo considerable de trabajo.

Otra manera típica de trabajar es que cada imagen digitalizada se abre en media pantalla y se usa la otra media pantalla para transcribir los campos extraídos de la imagen digital. Si se usan pantallas grandes o apaisajadas esta forma de trabajar puede ser bastante cómoda. La extracción y transcripción como tal puede realizarse a través de lectores  humanos o automatizados. En este último caso se usan técnicas de reconocimiento de caracteres (OCR o ICR, según sea el caso), pero sólo después de probar que funcionan en forma aceptable dentro del tipo de aplicación.

El resultado de la digitalización y el registro son revisados por parte del personal de aseguramiento de la calidad. Puede ser un muestreo parcial o realizarse sobre todas las imágenes.  Los errores se corrigen y en algún punto se realiza la catalogación.

La catalogación o intexación es una actividad de asignación de etiquetas usando un vocabulario definido y controlado. Puede realizarse físicamente en el mismo lugar de la digitalización o en un lugar completamente diferente aprovechando la ubicuidad de las tecnologías de la información.  La catalogación puede, incluso, ser un proceso diferido en el tiempo y debe notarse que requiere su propia actividad de aseguramiento de la calidad.

Cada vez que interviene una persona que realiza una parte de la actividad se debe registrar una pequeña constancia de lo realizado para poder monitorear el proceso. Estos registros permiten tener idea de los avances (retrasos o eventuales cuellos de botella) del proceso.

Típicamente hay un supervisor por cada unidad de producción de digitalización, uno en cada turno en el caso de que hay varios turnos. Estos supervisores determinan si hay problemas técnicos o fallas en las políticas de producción o de calidad que deban subsanarse.

viernes, 23 de mayo de 2014

Pruebas antes del proceso masivo de digitalización


Antes de comenzar un proceso de digitalización de volumen,
es importante hacer pruebas de digitalización sobre una muestra representativa
del conjunto de documentos a digitalizar. En ocasiones el estado del material
en algunos subconjuntos del archivo pueden obligarnos a cambiar el diseño
 de los procesos,o el tipo de solución o de escáneres empleados
En los post anteriores hemos hablado de todo lo que debe planificarse antes de realizar un proceso de captura digital que implique un gran volumen de documentos: La definición de políticas de organización, digitalización y registro, la conformación de las unidades de trabajo, el establecimiento de la ruta de documentos, la selección de los equipos a utilizar, entre otras temas. Se trata de un conocimiento que debe manejar un gerente de información y sobre el que hay complicaciones cuando no se tiene la experiencia. Hoy queremos mencionar las pruebas de digitalización que deben realizarse antes de iniciar el proceso masivo.

El problema con los proyectos de digitalización de volumen es que los grandes números que se manejan hacen que los errores resulten costosos y por eso, si en todos los proyectos suele ser recomendable la planificación, en estos casos la exhaustividad en la misma resulta imprescindible, porque un error multiplicado por centenas de miles o millones es siempre algo que tiene un gran impacto, en tiempo, en recursos necesarios e, incluso, en la factibilidad misma del proyecto.

El profesional a cargo de la planificación del proceso de digitalización no debe dejarse guiar por las apariencias. El estado de los documentos reales no se aprecia con sólo caminar a través de un archivo y hay casos donde aguardan las sorpresas debido, por ejemplo, a las condiciones ambientales a las que estuvieron o han estado expuestos los documentos.

En ocasiones hemos visto que la velocidad con la que se suponía podía realizarse un proceso de digitalización resultó una ilusión porque, la fichas eran totalmente diversas en su legibilidad, desde la que eran muy nítidas a las que resultaban casi imposibles de leer. Muchas cosas pueden variar, el tipo de papel, el color del papel, la tinta usada, con consecuencias prácticas para los parámetros de digitalización necesarios. En ocasiones los bordes de la fichas están deteriorados y pueden entrabar el mecanismo de alimentación del escáner. Igual puede suceder con los bordes de las páginas de documentos encuadernados.

Los problemas pueden estar presentes en ciertos lotes o estar dispersos a través de todos los lotes. Por ejemplo, si un sector del archivo se desarrolló en un cierto período donde cambió el papel, puede que el proceso no sea tan problemático porque las diferencias se dan entre grupos de documentos y lotes importantes pueden ser procesados con velocidad porque las características que teiene los documentos dentro de ellos son similares. El problema se presenta cuando hay simultaneidad en dos hechos: 1) hay diferencias significativas en cuanto a los parámetros de digitalización que requieren ciertos documentos y 2) estos se encuentran diseminados por todo el archivo de tal forma que deben revisarse obligatoriamente los parámetros antes de cada digitalización.

La manera de estar prevenidos a lo que pueda ocurrir es digitalizar una muestra representativa del material para asegurarse de su uniformidad relativa, descubrir si hay diferencias significativas dispersas o cuantificar los lotes donde hay problemas. La regla de oro es, así pues, no dejarse llevar por las apariencias, no probar sólo con las primeras y las últimas páginas a digitalizar, sino hacer un conjunto de pruebas realmente representativo. En algunos casos puede ser incluso recomendable asesorarse acerca de lo que debe ser la muestra representativa del material.

viernes, 16 de mayo de 2014

Los escáneres en la digitalización de volumen

Cada aplicación tiene su tipo de escáner adecuado.
Los escáneres de oficina no son apropiados para operaciones de volumen
La digitalización, como hemos estado comentando, establece un puente entre nuestro pasado de papel y nuestro presente digital. La actividad de conversión es la captura digital que se realiza con un escáner, un equipo que hoy es frecuente en numerosos ambientes de trabajo. ¿Pero qué atributos son imprescindibles para un escáner que se utilizará en proyectos de digitalización de volumen, con muchos miles de documentos? Ese es el tema al que nos referiremos en nuestro post de hoy.

La primera característica que tiene que tener un escáner que vaya a ser usado en un proyecto de digitalización masiva es que sea de tipo industrial, es decir, que haya sido diseñado para trabajar muchas horas en forma continua.

Hoy en día se producen muchos escáneres que resultan excelentes en ambientes familiares o de oficinas, trabajan muy bien y son muy fáciles de usar. Pero esto no los convierte en escáneres que puedan soportar ciclos de trabajo intensivo. Hemos conocido varios casos de empresas sin experiencia o instituciones mal asesoradas que iniciaron proyectos con este tipo de escáneres no industriales, con el triste resultado de que no pudieron cumplir con los tiempos planificados y demás exigencias de sus pretendidos procesos de captura digital masiva, porque los escáneres se les quemaban inexorablemente. No se quemaban porque los mismos era malos, o de mala marca, sino porque estaban siendo usados en condiciones para las cuales no habían sido diseñados.

Después de asegurarnos si el escáner soporta ciclos de trabajo pesado, hay que revisar los restantes atributos de los estos equipos, asegurándose que se adaptan a la necesidad planteada en el proyecto. Hay características que pueden ser valiosas en algunas aplicaciones, pero carecen de valor en otras.

Por ejemplo, un atributo importante para un escáner es la resolución, la cantidad de puntos por pulgada que éste es capaz de reconocer. Mientras más resolución, la imagen que producirá el escáner será más fidedigna, aunque, por supuesto, se pagará como costo el que la imagen ocupe mucho más espacio, lo cual, como hemos visto, es siempre un elemento a tomar en cuenta a la hora de decidir con qué resolución se trabajará. Sin embargo, cuando se trabajan con documentos estándares es suficiente una resolución de 300 puntos por pulgada, ya que resoluciones mayores no aportarán nada significativo en términos de la calidad de las imágenes sino sólo aumentarán el espacio ocupado por éstas y el ancho de banda requerido para la comunicación.

Una variable de muchísimo interés en un proyecto de volumen es la velocidad de digitalización. Mientras más velocidad tenga un escáner, el proceso puede ir más rápido. Si se trata de múltiples planillas iguales, esta capacidad es crucial y vale la pena pagar por ella. Pero si se trata de digitalizar documentos en los que el proceso de pasar de una página a otra debe hacerse manual, la velocidad de escaneo ininterrumpido de múltiples páginas pierde su valor. Si los documentos están encuadernados puede convenir un escáner que tenga la capacidad de pasar automáticamente hojas encuadernadas, pero si se trata de planillas, fotografías u hojas sueltas, esta costosa propiedad carece de valor.

En cualquiera de los casos, si la calidad de los originales es muy variada y el operador debe hacer ajustes o retoques en muchas de las páginas trabajadas, las capacidades del escáner para digitalizar múltiples hojas, encuadernadas o no, pierde valor.

El manejo de colores también es un atributo de valor relativo. Puede ser muy importante, si se digitalizan fotografías a color, pero puede ser de poco o ningún valor si lo que se digitalizan son documentos en blanco y negro, donde más bien puede convenir la capacidad del escáner de filtrar el color de fondo del papel.

viernes, 9 de mayo de 2014

En la transición a un mundo digital hay que decidir sobre átomos


En los proyectos de digitalización de volumen debe diseñarse
cuidadosamente la ruta de documentos físicos desde que salen
de su lugar de archivo habitual hasta que regresan a él
Hay bastante tela que cortar en el mundo antes de podernos hacer un traje digital a la medida. Los proyectos de digitalización se emprenden para lograr la transición que permite a las instituciones almacenar los contenidos y gestionar digitalmente los flujos la información que tradicionalmente han mantenido atados al papel. Como hemos estado viendo, estos proyectos son costosos y por ello requieren de un cuidadoso diseño, planificación y ejecución. En días pasados hicimos una lista de características de los proyectos de digitalización exitosos y hemos estado hablando con más detalles de algunas de ellas. Hoy queremos referirnos a un tema vinculado a los átomos: el establecimiento de la ruta de documentos en la ejecución de un proyecto de digitalización.

Este aspecto suele ser pasado por alto cuando el proyecto de digitalización es planificado por personas sin experiencia, porque no es evidente. Pero la digitalización crea bits a partir de átomos, registros digitales a partir de documentos en papel. Estos documentos en papel  están catalogados y almacenados en forma estructurada.  Para digitalizarlos, deben moverse desde el lugar donde residen actualmente, los archivos físicos a la zona de digitalización, en lugar donde se analizarán, valorarán y clasificarán, de allí a los escritorios de registro y escaneo y finalmente deben ser llevados de nuevo a los archivos físicos donde deben quedar en las ubicaciones correctas.

La planificación de este recorrido es lo que se llama el establecimiento de la ruta de documentos, una actividad donde se diseña el flujo organizado en el viaje de ida y de vuelta de los documentos en papel desde el sitio de archivo al lugar de digitalización y transcripción. Cuando la operación es de gran volumen, se requieren varios escáneres  con el correspondiente personal de digitalización y transcripción y el problema puede ser de cierta complejidad e implicar el establecimiento de archivos temporales diarios que garanticen el funcionamiento adecuado de la unidad de digitalización.

Un aspecto importante en este flujo físico es la bitácora donde se lleva el control de que es lo que se mueve y donde está cada documento, expediente, fotografía, caja o archivador. Cuando el archivo está retirado físicamente de la zona de digitalización suelen haber consideraciones de seguridad especiales, por el hecho de que los documentos se mueven por zonas no convencionales y por el hecho de que son manejados por personal no ordinario. Esta es una de las razones por la que conviene contratar con organizaciones especializadas.

Una complicación adicional se tiene en los lugares en los que el proceso de digitalización se realiza manteniendo la operatividad del archivo que se está digitalizando, ya que en esos casos la actividad de servicio institucional tiene que tener la capacidad de buscar un documento en el archivo convencional o en la zona de digitalización y, una vez usado, debe devolverlo al archivo normal o a la zona de digitalización sin afectar significativamente la realización de la transformación digital de la información. Para ello es conveniente que la bitácora mencionada tenga una expresión digital que facilite el seguimiento de los bultos, cajas, paquetes y documentos con ayudas computarizadas.

En conclusión, como se desprende de las consideraciones anteriores, un proyecto de digitalización masiva requiere de la planificación de qué hacer con los átomos y no sólo que hacer con los bits.

viernes, 2 de mayo de 2014

El registro de metadatos en un proyecto de digitalización de volumen

En un proyecto de digitalización masiva se realiza la captura digital de miles
a millones de documentos. El número de metadatos a identificar y registrar
en estos proyectos es una de las decisiones críticas que los
responsables de servicios deben tomar
Hemos estado conversando acerca de la digitalización de volumen. En nuestro post anterior nos detuvimos en la Planificación de la digitalización y en particular, en las decisiones vinculadas a las imágenes. Manteniéndonos en el tema de la Planificación hoy queremos ir al punto de las decisiones vinculadas al registro de metadatos. Son también muy importantes en su contribución al éxito y el resultado final del proyecto de digitalización.

No hay que perder de vista que la digitalización no se hace como un fin en sí mismo. No se justifica simplemente por alinearse con las nuevas tecnologías. El sentido que tiene, como lo hemos explicado en varias oportunidades, es mejorar la eficiencia de la institución donde se realiza, en su práctica regular. Esto es uno de los ingredientes centrales que debe tomarse en cuanta a la hora de decidir qué metadatos se registran en la base de información que se construye durante el proceso de digitalización.

Se deben seleccionar los campos a registrar para mejoran la encontrabilidad de la información en los servicios cotidianos y para hacer más eficiente la búsqueda y la realización del manejo recurrente de la información (Ver: Arquitectura de información) .

Mientras más campos de información se registren, normalmente se puede prestar un mejor servicio, la búsqueda luego de la digitalización será más fácil, segura y rápida y además los trámites típicamente mejoran en su eficiencia. Sin embargo, no se trata de registrar muchos campos por dos razones: la primera es su impacto en los costos del proyecto y la segunda es que siempre hay un punto a partir del cual aumentamos la complejidad pero no el valor de la solución.

El impacto en los costos tiene que ver por el efecto de multiplicación que ocurre cuando se trabaja con un volumen grande documentos. Registrar un campo de información implica reconocer el metadato y cargarlo en la base de información. Esto toma un tiempo. Puede ser relativamente pequeño al considerar un registro individual y un campo dentro de ese registro. Pero aumenta con el número de campos y se magnifica con el número de documentos a trabajar ya que las cantidades de éstos en un proyecto de digitalización masiva son altas: desde miles a millones.

Los números a tomar en cuenta crecen rápidamente. Por ejemplo, si identificar un campo en un documento de papel y cargarlo en la base de información toma, en promedio, 5 minutos de trabajo, y en un determinado proceso se desea hacerlo en cuatro campos de cada documento, significa que se requieren veinte minutos por documento. Esto se traduce en un máximo de tres documentos por hora, lo que tiene un gran impacto en el proyecto.

Si se trata de proyecto de sólo doscientos mil documentos, se requerirán alrededor de 67.000 horas de trabajo. Si se trabaja con dos turnos de 6 horas cada uno se necesitarán cerca de cinco mil días de trabajo. Si diez personas trabajan en cada turno durante 20 días al mes durante los doce meses al año aún se requerirán dos años de trabajo para completar este registro masivo de información. Es decir, para sólo 200.000 documentos, se requieren 20 personas en la actividad de registro para lograr finalizar el proyecto en 2 años. En lugar de ello, si se registra sólo un par de campos en lugar de los cuatro usados en el cálculo anterior, el proyecto podrá terminarse en sólo un año.

En conclusión, el número de campos a registrar es crítico, y la decisión de con cuáles trabajar puede ser crucial. Este debe ser comprendido por los gerentes y responsables de servicios ya que lo deben tomar en cuenta en el momento de planificar proyectos de digitalización de volumen.