viernes, 8 de julio de 2011

Formatos y conjuntos: Dos conceptos claves en la iniciativa de archivos abiertos


Logo de la Iniciativa de Archivos abiertos (OAI)
http://www.openarchives.org/

Hemos estado hablando de la Iniciativa de Archivos Abiertos (OAI). Desde la historia a los conceptos. Hoy queremos conversar acerca de formatos y conjuntos, dos definiciones que se introdujeron para caracterizar la noción de “cosecha de metadatos”, que desglosamos con más detalles la semana pasada y que, como vimos, se implementa a través de seis acciones simples que todo repositorio de datos debe poder realizar.

Cosechar metadatos” es, como hemos explicado, traer a nuestro servidor los metadatos producidos en algún servicio de información de Internet (biblioteca, archivo, museo, etc.) con el objeto de hacer valor agregado. Por ejemplo, generar un catálogo colectivo temático o institucional. Los metadatos que traemos no pueden ser cualesquiera, porque si no no podríamos compararlos con otros registros, mezclarlos, obtener resultados razonables sobre la información de varios repositorios, etc. Por eso, para que la cosecha sea posible, tiene que haber estándares de formatos de metadatos.

Adicionalmente, a la hora de hacer valor agregado, normalmente no estamos interesados en todos los metadatos producidos por cada repositorios, sino en una parte de ellos. Es allí donde aparece la noción de conjunto en la Iniciativa de Archivos Abiertos. Un recolector de metadatos puede definir los conjuntos que requiere, escogidos entre los que ofrece un repositorio o servidor.

La cosecha como tal se realiza a través de un lenguaje de verbos que el repositorio y el recolector manejan. Tres de estos verbos se usan para que el cosechador pueda preguntar al repositorio quién es y qué ofrece. El primero es el de Identificarse, y lo expusimos la semana pasada (Ver "¿Qué es cosecha metadatos?"). Los siguientes dos son Enunciar los formatos y Enumerar los conjuntos.

Enunciar los formatos con los que se trabaja es definir los esquemas de metadatos que pueden usarse para caracterizar un registro. Por ejemplo, Dublin Core, cuya implementación es siempre obligatoria en OAI-PMH. Pero pueden implementarse y por tanto enunciarse otros tipos de esquemas de metadatos. Por ejemplo, MARC 21, MODS, etc.

Enumerar los conjuntos de metadatos es proporcionar información de los nombres de los conjuntos con los que el repositorio clasifica sus metadatos. Estos pueden ser por temas (Economía, Historia, Ingeniería,…), tipos de materiales (Libros, Publicaciones seriadas, Fotografías,…), o cualquier otro criterio de clasificación. No hay mayores restricciones o exigencias. Cada repositorio usa los conjuntos que desee y puede definir subconjuntos cada vez que lo crea necesario.

La importancia de que un cosechador pueda enterarse de los formatos y los conjuntos que se usan en un repositorio es que le permite sintonizar su cosecha. Un recolector de metadatos puede querer cosechar sólo ciertos subconjuntos (por ejemplo, Ingeniería Mecánica) o solicitar los registros con un cierto esquema (por ejemplo MODS o Dublin Core). Las dos cosas pueden combinarse. Así, por ejemplo, un cosechador puede solicitar a la biblioteca de una universidad que le envíe sólo los registros de sus tesis de grado con un cierto esquema particular de metadatos.

La realidad es que, gracias a este tipo de definiciones estandarizadas de cómo cosechar metadatos, a partir de su versión 2, OAI-PMH se convirtió en un protocolo que abrió un camino simple y práctico a los interesados en generar valor agregado a partir de los contenidos de múltiples servicios proveedores de metadatos.

No hay comentarios: