martes, 26 de julio de 2011

El tamaño de los catálogos colectivos

El Catálogo Colectivo de de las Colecciones de Mapas,
Planos y Dibujos de los Archivos Estatales Españoles

son una muestra interesante del uso del OAI-PMH
para construir catálogos colectivos.
La semana pasada estuvimos hablando de los catálogos colectivos universitarios. Un caso de aplicación interesante del tema de metadatos y protocolos que hemos venido trabajando en los últimos meses y cuya facilidad de construcción actual no tiene nada que ver con las dificultades que había para este tipo de soluciones en el pasado. Nos llegaron a nuestro buzón algunas preguntas, por lo que atendemos en este post algunas de las dudas que nos plantearon nuestros lectores y, por razones de espacio, dejaremos para uno siguiente algunas otras. En este nos concentraremos en atender las dudas sobre el desarrollo de redes de relativo gran tamaño, con muchas decenas de nodos. Atendemos pues preguntas como ¿Cuántas bibliotecas pueden ser reunidas en un catálogo colectivo con OAI-PMH? o ¿Dónde están los limites que los directores de servicios de información debemos tener en cuenta? y dejaremos para la siguiente oportunidad preguntas sobre el caso de las bibliotecas pequeñas, las redes de las instituciones escolares y el tema de los escasos presupuestos.

¿Cuántas bibliotecas pueden ser consolidadas con catálogos colectivos construidos con OAI?
Una de las ventajas del protocolo OAI-PMH es el uso de un control sencillo del flujo de información en cada cosecha. Este control de flujo permite que, sin intervención humana, los sistemas dosifiquen automáticamente sus comunicaciones y la recolección de metadatos cuando los volúmenes a cosechar son grandes. Una vez definido el proceso adecuadamente con las herramientas de OAI, el software proveedor de metadatos y el software cosechador de metadatos sincronizan la recolección sin que ninguna persona tenga que intervenir y sin degradar los servicios de ninguna de las partes. La cosecha de metadatos ocurre detrás de los bastidores de la red sin que los usuarios de ninguna biblioteca tengan que darse por enterados.

Por otro lado la cosecha de metadatos se realiza normalmente en forma incremental, es decir, se cosecha en cada ciclo sólo lo que se ha cambiado (incorporado, modificado o borrado) en el proveedor de metadatos desde la última vez que el recolector lo cosechó, haciendo innecesario mover volúmenes muy grandes de información cotidianamente.

Adicionamente OAI-PMH está preparado para manejar sin problemas muchos repositorios de metadatos, por lo que su uso es adecuado para catálogos colectivos de numerosas bibliotecas o unidades de información. Hay servicios de catálogos colectivos en el mundo que albergan millones de registros provenientes se centenares de unidades de información contribuyentes, lo cual prueba que efectivamente con OAI-PMH se pueden desarrollar catalogos colectivos muy grandes (Ver OAISter).

Limitaciones físicas
Sin menoscabo de lo anterior, si es importante a tomar en cuenta, en el caso de servicios de relativo gran tamaño, las características del servidor físico que debe manejar el catalogo consolidado, ya que finalmente tendrá que trabajar con tantos registros como la suma de los registros de todas las unidades de información participantes en el catálogo colectivo.

Además de la cantidad de registros está el tema de la cantidad de consultas. Si los servicios llegan a ser interesantes para un público numeroso, pudiera darse el caso de que la cantidad de consultas también lo fuera, lo que debe llevar también a evaluar el dimensionamiento adecuado del servidor que proveerá el servicio consolidado.

Finalmente es importante cuidar el tema de las conexiones der servidor que centraliza la cosecha de información y provee el servicio de valor agregado. Si bien, OAI-PMH permite que la calidad de las conexiones a Internet de cada unidad de información individual no sea un tema relevante, la calidad de la conexión a Internet del servidor recolector si lo es.

viernes, 22 de julio de 2011

Catálogos colectivos universitarios

El reloj de la Universidad Central de Venezuela,
una de la univeridades líderes en Latinoamérica
en el uso del protocolo OAI-PMH
(Ver catálogo colectivo de la UCV)

Desde el advenimiento de la Iniciativa de Archivos Abiertos (OAI), es relativamente sencillo para una institución universitaria consolidar todas sus referencias en un catálogo colectivo que integre a todas las unidades de su sistema bibliotecario distribuido. No es necesario que las bibliotecas estén todas operadas con un mismo software o que residan en un mismo servidor. No es necesario que todas tengan conexiones de alta velocidad. No es necesario ni siquiera que el sistema de catalogación bibliotecario sea exactamente el mismo para que la idea funcione. Basta con convenir que el catálogo colectivo se implemente mediante el uso de un protocolo internacional de cosecha de metadatos, eficiente y flexible, como OAI-PMH, y definir los servicios que se desean prestar desde el catálogo colectivo. Explicamos en este post el cómo hacerlo en un lenguaje claro para directores de bibliotecas y responsables de servicios.

Cómo participa una biblioteca en un catálogo colectivo bajo OAI
Para integrar un catálogo colectivo con la información de múltiples bibliotecas, cada biblioteca que desee participar en el catálogo colectivo debe habilitar en su sistema bibliotecario la publicación de metadatos según el protocolo internacional OAI-PMH. Este, como hemos estado exponiendo en las últimas semanas, es un protocolo sencillo cuyas especificaciones son abiertas y están publicadas en el sitio http://www.openarchives.org. Habilitar este protocolo es normalmente una opción que está disponible en los sistemas bibliotecarios de calidad internacional, por lo que sólo hay que preguntar al proveedor cómo se realiza. Una vez que se activa el OAI-PMH, el siguiente paso es registrar la biblioteca como un repositorio de metadatos en el sitio http://www.openarchives.org. Esto se hace para que cualquier servicio de integración de metadatos pueda saber qué tipo de información está disponible y, al mismo tiempo, ofrecer garantías de que el software OAI-PMH está bien implementado.

Cómo se crea el catálogo colectivo
Con las distintas bibliotecas registradas como repositorios de metadatos, el catálogo colectivo se crea en un servidor que implementa la pieza complementaria: un recolector de metadatos OAI-PMH. Este cosechador recogerá periódicamente los metadatos producidos en las distintas bibliotecas y los reunirá en una única base de información.

En forma adicional al protocolo, la clave para mezclar apropiadamente los datos cosechados es el uso de un esquema de metadatos común. Bajo OAI-PMH este esquema común es normalmente, pero no necesariamente, Dublin Core. Una ventaja de Dublin Core es su sencillez y la otra que permite reunir en forma apropiada metadatos de orígenes diferentes. Por ejemplo, la información de bibliotecas puede reunirse consistentemente con la información de archivos, centros de documentación y otras unidades de información que no son bibliotecas.

Una vez reunidos los metadatos procedentes de distintas fuentes en una base de información local (para el servidor que cosecha), el proveedor de servicios puede proporcionar valor agregado estadístico, de búsqueda, de exploración, de clasificación temática, etc.

Qué tipo de catálogos colectivos pueden crearse
Pueden crearse distintos tipos de catálogos colectivos, por ejemplo institucionales, uniendo en un mismo catálogo la información de todas las bibliotecas de la institución. También pueden crearse catálogos temáticos, uniendo en un mismo catálogo todas las referencias procedentes de distintas unidades de información que tengan contenidos en un determinado tema, por ejemplo, Energía. Del mismo modo, puede usarse el protocolo OAI-PMH para crear catálogos interinstitucionales, con referencias de múltiples instituciones.

La característica de conjuntos del OAI-PMH puede usarse para definir un catálogo, pero en ese caso si se requiere acuerdo en lo que se considera un conjunto determinado en cada unidad de información participante.

viernes, 15 de julio de 2011

Entrega abierta de metadatos: ¡solo tres verbos!

La Universidad de Chile es una de la universidades líderes en
latinoamérica implementando servicios basados en la cosecha de
metadatos usando el protocolo OAI-PMH de la iniciativa de archivos
abiertos (www.openarchives.org)
Hablando en el contexto de la Open Archive Initiative (OAI), la semana antes pasada presentamos cómo un repositorio de metadatos puede identificarse a sí mismo y la semana pasada hablamos de cómo puede caracterizar el servicio que ofrece: con qué formatos puede presentar sus salidas, cuáles conjuntos de metadatos se distingen al clasificar sus registros de información, etc. Este tipo de descripción de un servicio de información sirve para que un eventual recolector de metadatos tome decisiones acerca de si le interesa cosechar los metadatos de un cierto repositorio, así como para decidir la mejor manera de cosecharlos. Siguiendo nuestro trabajo formativo, en este post explicamos cómo se realiza la entrega de metadatos dentro de la iniciativa de archivos abiertos, usando, sólo tres verbos, es decir, tres acciones, para cosechar metadatos de cualquier tipo a través de Internet. Esta conversación nos hará entender lo práctico que resulta OAI-PMH en numerosos servicios de información.

Tres acciones para cosechar
Bajo OAI-PMH, el protocolo de cosecha de la OAI, una vez que un servicio de recolección decide traer metadatos desde un servidor remoto a uno local, puede usar tres verbos básicos que el repositorio proveedor de los metadatos debe poder entender y ejecutar: Listar registros, Listar encabezados de registros y Recuperar un registro. Por sencillo que parezca, estos son todos los comandos que existen en este protocolo para hacer cualquier tipo de cosecha de metadatos, simplicidad que contrasta con la complejidad de otros protocolos para establecer comunicación y flujo de información.

Listar registros
Listar registros es proporcionar, usando un formato de metadatos proporcionado en forma explícita o implícita, una lista de registros de metadatos. La lista de registros es entregada en respuesta a una solicitud que puede haber definido o no el conjunto o subconjunto de interés y el intervalo de fechas requerido por el servicio recolector. En una lista de registros de metadatos de OAI-PMH, cada registro describe un único item usando Dublin Core, si no se especificó un formato alternativo, o el formato solicitado, si así se requirió en la pregunta.

Listar encabezados de registros
Listar encabezados de registros es proporcionar una lista descriptiva básica de los registros de metadatos que pueden entregarse. A diferencia del caso anterior, los registros como tales no son colocados en respuesta a la solicitud, sino sólo la información de cómo pueden recuperarse, incluyendo en qué formatos, con qué identificadores. También aquí la solicitud puede definir o no, al momento de comunicarse con el servidor, el conjunto o subconjunto de interés y el intervalo de fechas requerido por el servicio recolector.

Recuperar un registro
Si un recolector tiene la información del encabezado de un registro, obtenida luego de una solicitud de lista de encabezados, puede solicitar al proveedor de metadatos que le envíe el contenido propiamente dicho de ese registro, usando uno de los formatos de metadatos enumerados en el encabezado. Para ello debe escribirse en la solicitud el identificador único de registro que se desea, tal y como fue indicado en la lista de encabezados.

De lo anterior se desprende que todo cosechador de metadatos tiene, bajo OAI-PMH, dos maneras distintas de cosechar metadatos: una, solicitando la lista de registros de una sola vez, y dos, solicitando la lista de encabezados de registros y luego recorriendo esta lista para recuperar registro por registro. En ambos casos la cosecha de metadatos puede hacerse con un criterio de fechas, con un criterio de conjuntos o con ambos criterios a la vez.

viernes, 8 de julio de 2011

Formatos y conjuntos: Dos conceptos claves en la iniciativa de archivos abiertos


Logo de la Iniciativa de Archivos abiertos (OAI)
http://www.openarchives.org/

Hemos estado hablando de la Iniciativa de Archivos Abiertos (OAI). Desde la historia a los conceptos. Hoy queremos conversar acerca de formatos y conjuntos, dos definiciones que se introdujeron para caracterizar la noción de “cosecha de metadatos”, que desglosamos con más detalles la semana pasada y que, como vimos, se implementa a través de seis acciones simples que todo repositorio de datos debe poder realizar.

Cosechar metadatos” es, como hemos explicado, traer a nuestro servidor los metadatos producidos en algún servicio de información de Internet (biblioteca, archivo, museo, etc.) con el objeto de hacer valor agregado. Por ejemplo, generar un catálogo colectivo temático o institucional. Los metadatos que traemos no pueden ser cualesquiera, porque si no no podríamos compararlos con otros registros, mezclarlos, obtener resultados razonables sobre la información de varios repositorios, etc. Por eso, para que la cosecha sea posible, tiene que haber estándares de formatos de metadatos.

Adicionalmente, a la hora de hacer valor agregado, normalmente no estamos interesados en todos los metadatos producidos por cada repositorios, sino en una parte de ellos. Es allí donde aparece la noción de conjunto en la Iniciativa de Archivos Abiertos. Un recolector de metadatos puede definir los conjuntos que requiere, escogidos entre los que ofrece un repositorio o servidor.

La cosecha como tal se realiza a través de un lenguaje de verbos que el repositorio y el recolector manejan. Tres de estos verbos se usan para que el cosechador pueda preguntar al repositorio quién es y qué ofrece. El primero es el de Identificarse, y lo expusimos la semana pasada (Ver "¿Qué es cosecha metadatos?"). Los siguientes dos son Enunciar los formatos y Enumerar los conjuntos.

Enunciar los formatos con los que se trabaja es definir los esquemas de metadatos que pueden usarse para caracterizar un registro. Por ejemplo, Dublin Core, cuya implementación es siempre obligatoria en OAI-PMH. Pero pueden implementarse y por tanto enunciarse otros tipos de esquemas de metadatos. Por ejemplo, MARC 21, MODS, etc.

Enumerar los conjuntos de metadatos es proporcionar información de los nombres de los conjuntos con los que el repositorio clasifica sus metadatos. Estos pueden ser por temas (Economía, Historia, Ingeniería,…), tipos de materiales (Libros, Publicaciones seriadas, Fotografías,…), o cualquier otro criterio de clasificación. No hay mayores restricciones o exigencias. Cada repositorio usa los conjuntos que desee y puede definir subconjuntos cada vez que lo crea necesario.

La importancia de que un cosechador pueda enterarse de los formatos y los conjuntos que se usan en un repositorio es que le permite sintonizar su cosecha. Un recolector de metadatos puede querer cosechar sólo ciertos subconjuntos (por ejemplo, Ingeniería Mecánica) o solicitar los registros con un cierto esquema (por ejemplo MODS o Dublin Core). Las dos cosas pueden combinarse. Así, por ejemplo, un cosechador puede solicitar a la biblioteca de una universidad que le envíe sólo los registros de sus tesis de grado con un cierto esquema particular de metadatos.

La realidad es que, gracias a este tipo de definiciones estandarizadas de cómo cosechar metadatos, a partir de su versión 2, OAI-PMH se convirtió en un protocolo que abrió un camino simple y práctico a los interesados en generar valor agregado a partir de los contenidos de múltiples servicios proveedores de metadatos.

viernes, 1 de julio de 2011

¿Qué es cosechar metadatos?

La foto muestra una cosechadora moderna de maíz.
La metáfora de la cosecha se usa en la  Iniciativa de Archivos
Abiertos (OAI). En la cosecha de metadatos los proveedores se
identifican, y explican qué es lo que se puede cosechar de ellos.

En los últimos meses hemos estado hablando de metadatos y en las últimas semanas de la Iniciativa de Archivos Abiertos (OAI) y la recolección de metadatos. Ubicamos este movimiento internacional en un contexto histórico desde la perspectiva del profesional de Ciencias de la información. Queremos esta vez detenernos en un punto particular: El concepto de cosecha de metadatos, como fue definido formalmente en el protocolo OAI-PMH a comienzos del presente siglo. Por supuesto, orientaremos nuestra exposición a proporcionar, en un lenguaje natural, los conceptos fundamentales de lo que es cosechar metadatos, sin entrar en detalles excesivamente técnicos que aparten a los lectores que no los manejen. Las acciones que básicamente puede realizar un proveedor de metadatos y que por tanto pueden ser solicitadas por un recolector de metadatos son acciones que pueden explicarse en forma relativamente simple y es lo que pretendemos abordar.

Cosechar metadatos
Cosechar metadatos es traer los metadatos cultivados en otros servicios hasta un servidor local con el objeto de reunirlos con otros metadatos y prestar servicios de valor agregado.

Para cosechar metadatos en una forma estándar se requiere ciertos acuerdos entre el proveedor de metadatos y el cosechador. Estos acuerdos se condensan en el protocolo de cosecha que se esté usando, por ejemplo OAI-PMH.

Mientras más sencillos sean los términos de este acuerdo más fácilmente será implementar el protocolo para los proveedores de metadatos y para los recolectores de los mismos. Una de las virtudes del OAI-PMH es que definió el acuerdo básico en la posibilidad de realizar sólo seis acciones, definidas en el protocolo a través de seis verbos básicos.

Los seis verbos que bajo OAI-PMH el proveedor de metadatos debe poder entender y realizar se pueden clasificar en dos grupos: Acciones de información sobre el repositorio, a través de los cuales un servicio informa acerca de si mismo y Acciones de entrega de metadatos, a través de los cuales el servicio proporciona los registros de metadatos que almacena.

Información acerca del servicio
Bajo OAI-PMH un repositorio debe poder caracterizar su servicio para que cualquier cosechador sepa con quien está conversando. Así, un recolector que conoce la dirección de un proveedor de metadatos podrá preguntar: "¿Quién eres?" Y también: "¿Qué información puedes proporcionar?" Con la seguridad de poder ser entendido y de entender la respuesta.

Para ello un repositorio de metadatos debe poder 1) Identificarse como repositorio, 2) Enunciar los formatos que se reconocen, 3) Enumerar los conjuntos de registros con los que se trabaja.

Identificar el repositorio es entregar la información básica acerca de éste: su nombre, su dirección en Internet, la fecha más lejana en los registros que contiene.

Esta identificación es importante en una Internet llena de potenciales proveedores de metadatos en la que un servicio que desea producir valor agregado debe por lo menos poder enterarse en forma básica las características que definen cada uno de los repositorios que consulta.