viernes, 24 de junio de 2011

Las nuevas ideas en los protocolos de la iniciativa de archivos abiertos

El protocolo OAI-OMH permite cosechar metadatos
desde varios tipos de proveedores de datos y reunirlos
en un servidor local para prestar con ellos algún tipo de
servicio de valor agregado
Como hemos estado trabajando en una serie de post, el OAI-PMH puede considerarse como el primer protocolo de intercambio de metadatos sencillo y por tanto, fácilmente adoptable por múltiples tipos de instituciones. Más allá de todos los detalles técnicos, que no interesan a muchos de nuestros lectores, está la pregunta de cuál fue la idea disruptiva, la chispa básica del movimiento hacia la simplificación que se inició en el nuevo milenio. No cabe duda que (como expusimos hace unas semanas), el cambio fundamental significó el desprenderse de la idea, teóricamente eficiente, de que consultar en tiempo real múltiples repositorios era lo mejor. La alternativa fue buscar un esquema más plano. Pragmáticamente, plantearse traer a un servidor local registros de datos recuperados a través de un protocolo de cosecha universal. Exploramos en este post las nuevas ideas que aportó la iniciativa de archivos abiertos.

Una nueva visión del intercambio de metadatos
Dentro de la Open Archive Initiative en el mundo hay Provedores de datos y Proveedores de servicios. Los primeros crean repositorios de metadatos y los segundos cosechan los metadatos de varios repositorios y generan valor agregado, es decir, nuevos servicios.

La metáfora de la cosecha viene porque se trae hasta un cierto lugar, el lugar de la recolecta, la información cultivada (es decir, creada, catalogada) por los Proveedores de Datos.

Los metadatos se comunican a través de registros que tienen un identificador único para cada uno. La idea es que siempre sea posible saber el origen de un determinado registro recolectado. Quién fue su proveedor y cómo se puede acceder al registro original. De esta manera el Proveedor de servicios puede aportar su valor agregado a partir del reconocimiento del mérito del productor original.

Puede notarse que esta es una visión muy diferente a la de compartir en tiempo real, donde se hace una pregunta a múltiples servidores y se espera que nos llegue la consolidación de todas las respuestas independientemente de las diferencias técnicas entre los distintos servicios.

El papel de Dublin Core en OAI
Los registros de metadatos que se intercambian con OAI-PMH se escriben según un esquema o formato preestablecido, como, por ejemplo Dublin core. Esta idea es importante porque permite mezclar, combinar, registros provenientes de distintas partes manteniendo la consistencia de la información. El hecho de que sea Dublin Core el formato de metadatos elegido como base es también interesante, porque por la naturaleza simple y universal de este esquema de metadatos, permite asegurar que siempre se puede lograr la consolidación de la información proveniente desde variados repositorios, archivos y bibliotecas.

Por otra parte, para permitir redes especializadas, el protocolo OAI-PMH es compatible con el uso de varios formatos de metadatos, es decir, no obliga a usar exclusivamente el esquema de Dublin Core. Lo que se exige es que siempre se pueda solicitar la expresión de un registro cosechado bajo Dublin Core. Es decir, otro u otros formatos para organizar y presentar los metadatos son bienvenidos con tal de que el Dublin Core esté en el grupo de formatos de metadatos implementados. Eso significa una garantía de que luego de cosechar registros desde varios repositorios de metadatos estos se podrán reunir bajo, al menos, un esquema que está presente en todos.

Usuarios, registros y recursos
Los usuarios pueden consultar libremente los Proveedores de servicios de valor agregado y a partir de ellos acceder a los Proveedores de datos originales, que siempre son referenciados.

Cada registro de metadatos es, al final, una representación de un item existente en algún repositorio y al cosechar el registro siempre se mantiene el conocimiento de la referencia, así como estos ítems a su vez representan recursos de naturaleza lógica o física que existen en algún sitio.

viernes, 17 de junio de 2011

La Iniciativa de archivos abiertos: El nacimiento de la sencillez al compartir metadatos

Fotografía del nacimiento del río Mundo.
La iniciativa de archivos abiertos originó un río de ideas
frescas que permitieron redefiniór el
cómo compartir metadatos en el mundo.

La Iniciativa de Archivos Abiertos (OAI, por su siglas en inglés) y su protocolo base, el OAI-PMH, representó histórica y conceptualmente, un salto cualitativo. Como hemos estado conversando, no era suficiente tener un esquema de descripción sencilla de metadatos, como Dublin Core, para lograr que el compartir metadatos fuese práctico. Fue necesaria la experiencia implementando el protocolo Z39.50 (ver nuestro post del viernes 3 de junio: ¿Por qué cosechar en lugar de buscar en tiempo real los metadatos que necesitamos?) y la presión que se generó para buscar y compartir desde los repositorios de documentos académicos como ArXiv (ver nuestro post previo: Los pioneros de la cosecha de metadatos…) para crear las condiciones que finalmente permitieron concretar la idea de que recolectar metadatos con el objeto de producir con ellos valor agregado era, en muchos casos, mejor que buscar. Con estos antecedentes claros estamos en condiciones de entender las ideas que marcaron el cómo hacer sencillo compartir metadatos, un tema de interés para estudiantes y profesionales de información. Explicamos en este post los tres legos fundamentales.

El desiderátum en la iniciativa de archivos abiertos
El protocolo OAI-PMH fue un evento fundacional en la iniciativa de archivos abiertos. Se diseñó con la intención de concretar un marco de trabajo para la interoperabilidad de repositorios académicos, permitiendo a los proveedores de servicios de información cosechar metadatos desde proveedores de datos. La idea era facilitar el que los proveedores de servicios pudieran proporcionar valor agregado a los usuarios a partir de la combinación de la información recabada en sus servidores, después de recolectar metadatos desde los repositorios donde estos estaban originalmente almacenados. La cosecha de metadatos se convertiría así en una práctica regular, sistemática, simple. Debería realizarse en forma periódica e incremental, es decir, sólo se cosecharía desde un repositorio lo que hubiese cambiado desde la última vez que se cosechó. El protocolo debería asegurar que la recolección incremental de los metadatos, así como su interpretación, fuese un proceso sencillo y sin ambigüedades. Debería haber facilidades para recolectar subconjuntos de un repositorio.

De la gestión de e-prints a numerosas bibliotecas
Históricamente, el protocolo OAI-PMH nació por motivación de los pioneros de la Iniciativa de Archivos Abiertos (OAI) que buscaban una manera de tener estándares y un marco tecnológico para compartir documentos electrónicos de contenido académico, conocidos como archivos de e-prints.

Sin embargo, la solución fue tan práctica que se convirtió en un estándar amplio para compartir metadatos públicos, por lo que muchas instituciones y servicios, que ofrecían metadatos o que los requerían, comenzaron su adopción, en particular, muchas bibliotecas digitales e híbridas.

Los tres legos principales
Tres legos que existían previamente se combinaron en el diseño de la Iniciativa de Archivos Abiertos. Estos legos fueron posteriores al Z39.50 y sintetizaban un conocimiento básico que se requería para el salto hacia delante que significó el OAI-PMH.

Las tres piezas fundamentales fueron: el HTTP o protocolo de la WWW, que facilitaba el intercambio de contenidos a través de la Internet, el Dublin Core, que creó un esquema de metadatos sencillo, universal y manejable como base para el intercambio y mezcla de contenidos nacidos en distintas instituciones y dominios de conocimiento y el XML, que estableció una manera simple y universal de escribir los metadatos en archivos físicos.

Cuando arrancó el Z39.50 no se había universalizado la Web y por eso el método básico para compartir era el protocolo base de la Internet, el TCP-IP. Esto significaba significaba poder, pero también dificultades técnicas. No se había desarrollado la Iniciativa de Dublin Core, y por eso el esquema base de intercambio fue el MARC, prolijo y exhaustivo, pero complejo.

En ausencia de algo como el XML, un esquema universal para los archivos físicos de metadatos, se usaban patrones de archivos definidos ad-hoc, como en su momento lo hicieron los autores del MARC. Esta manera de trabajar no era sencilla, no facilitaba el reuso de las aplicaciones ni la validación automática de archivos de metadatos. Esta facilidades tuvieron que esperar al OAI-PMH.

Era otra época. Por eso, puede decirse con propiedad, la frase con la que titulamos este post: con el advenimiento de la Iniciativa de Archivos Abiertos nació la sencillez en protocolos para compartir metadatos.

viernes, 10 de junio de 2011

Los pioneros de la cosecha de metadatos, sus motivaciones y sus ideas

Los pioneros de la iniciativa
de archivos abiertos y
el protocolo OAI-PMH:
Paul Ginsparg, Richard Luce y
Herbert Von de Sompel

Como presentamos en nuestro post más reciente, en el nuevo milenio se inició el desarrollo de protocolos sencillos para cosechar metadatos. Hacía poco más de una década que se había desarrollado el protocolo Z39.50, que fue un diseño hecho con la intención de resolver el problema idealmente. De alguna manera éste protocolo planteó una solución excelente, pero en la práctica algunos problemas se evidenciaron y se prefirió hacer entonces un viraje hacia una solución más pragmática, más humilde, pero mucho más práctica y sencilla de implementar: el OAI-PMH. Esta solución más sencilla no eliminó la necesidad del Z39.50, porque simplificó conceptos que aquel resolvía bien, pero si resolvió en forma concreta problemas que limitaban a muchos servicios de información pública. En este post contamos brevemente la historia de los pioneros del movimiento de archivos abiertos, para reconocerles en su contexto su gran mérito, pero también, para extraer lecciones de la historia, contada desde una perspectiva útil a los profesionales de la información. Eso nos permitirá entender mejor el presente y el futuro del intercambio de metadatos.

Los pioneros de la idea de archivos abiertos
Los pioneros detrás de la idea de archivos abiertos fueron Paul Ginsparg, Richard Luce y Herbert Von de Sompel. Son tres personas que para fines del milenio había hecho aportes muy interesantes en términos de soluciones para el almacenamiento y recuperación de información académica, que coincidieron en el tiempo y en el espacio en Los Álamos y tomaron una iniciativa que despegó internacionalmente el movimiento.

Paul Ginsparg comenzó en 1991 un servicio de auto archivo de documentos académicos que fue operado desde Los Alamos National Laboratory como un repositorio para pre prints de Física y que se hizo célebre como la “lista de los Álamos”. Por su éxito significativo, el servicio se expandió a otras áreas de la ciencias como las Matemáticas, las Ciencias de la computación, la Biología y las Estadísticas. Con los años, al ampliar su volumen y flexibilidad, la lista se convirtió en el servicio arXiv.org y comenzó a operarse desde la Universidad de Cornell. Este servicio tiene actualmente varios centenares de miles de artículos y recibe todos los meses varios miles de ellos.

Richard Luce fue director de la Biblioteca de Investigación en Los Alamos National Laboratory desde 1991 hasta el 2006, experiencia que le permitió hacer contribuciones sobre el papel de la publicación electrónica en la llamada eInvestigación y, particulamente, el papel de las bibliotecas de investigación en este proceso. En 1999 fue cofundador de la iniciativa de archivos abiertos y en el 2003 coorganizó la declaración de Berlin sobre Acceso abierto al conocimiento, un hito histórico para la humanidad. Sus contribuciones están en las áreas de innovación en Bibliotecas digitales y publicación electrónica.

Herbert Von de Sompel es un bibliotecario belga y científico de la computación que, con el beneficio de esta doble perspectiva, ha hecho contribuciones importantes en la Iniciativa de Archivos Abiertos, particularmente en el establecimiento y desarrollo de estándares tales como el OAI-PMH, para la cosecha de metadatos, el OpenURL, para servicios sensibles a contexto, y el OAI-ORE (Object Reuse and Exchange), para la descripción, intercambio y valor agregado de recursos existentes en la Web.

La idea de servicios universales de literatura académica auto archivada por los autores
La idea que motivo a los pioneros mencionados en los finales del milenio pasado era cómo cambiar el paradigma de la publicación científica y el acceso al conocimiento académico. El antecedente principal fue el enorme éxito que la lista de los Alamos había alcanzado para 1.999. Estas personas se encontraron y sincronizaron en el célebre laboratorio y desde allí convocaron un par de encuentros que catalizaron el desarrollo del OAI-PMH y que se realizaron en la ciudad de Santa Fe en octubre de 1.999 y Junio del 2.000. El protocolo nació con una primera edición preliminar en Septiembre del 2000, una par de versiones iniciales (Beta 1.0 y Beta 1.1) en el 2.001 y una versión de producción en Junio de 2.002.

Organizaciones importantes como la National Science Foundation (NSF) y la Digital Library Federation (DLF) apoyaron financieramente la iniciativa y personalidades de prestigio en el área se identificaron y soportaron el trabajo. Así la idea de cosechar metadatos que expusimos en nuestro post anterior (¿Por qué cosechar en lugar de buscar en tiempo real los metadatos que necesitamos?) concretó posibilidad de contar con un marco de referencia moderno y sencillo para compartir metadatos: el protocolo OAI-PMH.

viernes, 3 de junio de 2011

¿Por qué cosechar en lugar de buscar en tiempo real los metadatos que necesitamos?

Biblioteca Geral da Universidade de Coimbra, una legendaria biblioteca
con una historia que se remonta al siglo XVI, ya que existía en la
ciudad de Coimbra incluso antes del establecimiento de la
Universidad en 1537.
(Ver: Historia en la Wikipedia y Foto en Marfiles y Rosas)

Desde hace muchos años los profesionales de la información aprendieron la necesidad de desarrollar esquemas de metadatos. Primero se transitó el camino de la exhaustividad y luego, con la amplificación de los recursos de información y la Internet, se aprendió que una cierta sencillez era necesaria en muchos casos. Así se recorrió la senda que va del MARC al Dublin Core, sin abandonar el MARC. Pero además de los esquemas de metadatos hacían falta los protocolos que normaban el cómo compartirlos. También en este caso se comenzó con una propuesta sofisticada para luego comprender que una cierta sencillez puede ser mejor en muchos casos. La evolución fue entonces desde el Z39.50 al OAI-PMH, recorrido en el que, en forma análoga al del caso anterior, se llegó al segundo sin abandonar el primero. Pero en tránsito al OAI-PMH hay, para el profesional de la información, puntos interesantes que conviene tener claros: ¿Por qué puede ser mejor cosechar metadatos que consultarlos en tiempo real? O algo más básico todavía: ¿Qué significa, en información, cosechar metadatos?

Cosecha de metadatos
La idea de que cosechar metadatos es mejor que buscarlos en tiempo real no es evidente. Cosechar metadatos significa tomar todos los metadatos producidos en un repositorio de información externo y traerlos hasta un servidor local para consultarlos desde el servidor local. La primera ventaja es bastante clara: después del trabajo de cosechar los metadatos, las consultas son todas locales y por ello se esperaría que fueran rápidas y de funcionamiento seguro. Pero las primeras desventajas son también muy fáciles de apreciar: cosechar es un trabajo, hay que tener capacidad local para almacenar todos los datos que provienen del proveedor remoto y, muy importante, es muy fácil que se obtenga información no actualizada, porque, al fin de cuentas, no se consulta en línea el servidor remoto, sino una imagen local, creada por el cosechador en el momento que realizó la cosecha.

¿Por qué puede ser mejor cosechar que buscar en tiempo real?
La respuesta tiene que ver con la experiencia que se desarrolló con el protocolo Z39.50 y que resumimos en nuestro post anterior al hablar de las desventajas de este protocolo.

En teoría es mejor consultar información completamente actualizada en tiempo real, pero en la práctica pueden surgir problemas si el servidor remoto o la red a través de la cual éste se accede no está disponible en el momento de consultar. En ese caso muchas veces se preferiría la respuesta no actualizada de una recuperación reciente que la respuesta de cero registros que se obtiene del servidor puntualmente inaccesible.

Uno necesita muchas veces consultar varios servicios de información remotos y si intenta hacer la consulta simultánea en tiempo real, como lo permite el Z39.50, la consulta termina siendo consolidada a la velocidad del más lento, por lo que la efectividad del tiempo real puede desaparecer.

Por otro lado, el abaratamiento de los costos de almacenamiento y de procesamiento hacen la cosecha de muchos servidores cada vez más viable.

En términos prácticos, por las razones anteriores, cuando se quiere consultar algunas decenas de servidores, la idea del tiempo real puede no ser apropiada. Por ello hubo un momento en que los responsables de ciertos servicios de información líderes se pusieron de acuerdo para decirse, que si, contrariamente a lo que parecía inicialmente, es mejor cosechar metadatos, lo que necesitamos es un protocolo que nos ayude a hacer bien, en forma sencilla y práctica, esta cosecha. Así fue que llegamos al OAI-PMH, un protocolo para compartir metadatos a través de un esquema de recolección de metadatos y del que continuaremos hablando más adelante.