viernes, 26 de agosto de 2011

arXiv, Web 2.0 antes de la Web 2.0

La Universidad de Cornell hospeda actualmente el servicio de arXiv
(foto)

La semana pasada nos referimos a los 20 años de arXiv, un servicio pionero que revolucionó la manera de acreditar el valor de un aporte científico en muchas áreas del saber. Hoy queremos hacer algunas reflexiones adicionales sobre méritos que deben atribuírsele a arXiv, servicio que de alguna forma inventó la Web 2.0 antes de que esta se inventara, dado que la célebre lista, nacida en el Laboratorio Nacional de los Álamos y patrocinada luego por la Universidad de Cornell, se inició en 1991, en la época de la Web (que hoy llamamos 1.0) y muchos años antes que la Web 2.0.

Web 2.0
La Web 2.0 se gestó en la segunda mitad de los años 90 y se hizo consciente a partir de la conocida conferencia realizada en San Francisco en el 2004, que definió los cuatro principios básicos de las aplicaciones Web 2.0:

  • La Web es la plataforma.
  • La información y la comunicación es lo que mueve la Internet.
  • Los efectos más importantes de la red se crean por la participación de los usuarios.
    Los contenidos y el valor surgen de esta participación.
  • Los servicios están en un punto beta perpetuo. Nada está completamente terminado.

arXiv y la Web 2.0
Sobre arXiv.org hablamos la semana pasada (ver), como un servicio de publicación extraordinariamente exitoso que se convirtió en muy poco tiempo en un repositorio de centenares de miles de documentos de valor científico y que numerosas comunidades de investigadores de todo el mundo lo hicieron suyo subiendo contenidos y descargando a la tasa sin precedentes, en un sitio Web académico de esta neturaleza, de un millón de documentos semanales.

Cuando revisamos cómo y por qué creció arXiv, nos damos cuenta de que lo esencial estuvo desde el comienzo en la participación de los usuarios, en su reconocimiento temprano de que la Web era la plataforma (arXiv comenzó antes que la Web), pero por sobre todo, que creó el concepto adecuado para concretar la participación, el servicio interpretó la necesidad subyacente en numerosas comunides académicas. Estas comunidades lo reconocieron al punto de que con su aceptación como estándar de facto naciera natural la reevaluación de las reglas de la acreditación científica, como expresamos en nuestro post de la semana pasada.

Esto es interesante porque arXiv no se menciona normalmente entre los pioneros de las Web 2.0. Quizá porque se trata de un servicio que no está orientado al amplio público, sino a comunidades científicas. Pero la observación muestra que en varios de los pioneros de la Web, hoy 1.0, estaba la semilla de lo que después devendría en sitios en los que posteriormente reconoceríamos cualidades diferentes y que llamaríamos Web 2.0.

¿Qué atributos Web 2.0 aún le falta a arXiv?
En su artículo arXiv at 20 Paul Ginsparg escribe: “algunos usuarios han requerido que se soporte la realización de comentarios directos a los papers publicados en el sitio, mientras otros prefieren que se mantenga sin añadidos lo publicado por el autor. Yo simpatizo por más interactividad: en la Web social de hoy, un canal unidireccional parece un anacronismo”. Este comentario refleja que aún al medio académico y a un pionero tan avanzado como arXiv le falta madurar y que hay una discusión abierta que señala la distancia entre los repositorios académicos de hoy y las referencias icónicas de la Web 2.0 (ver).

Cuando ese anacronismo que comenta Ginsparg se cambie en arXiv.org, lo que cambiará será algo mucho mayor. Será la última estocada para el mecanismo de discusión privada como criterio para certificar el valor dentro de la Ciencia, algo cuyo sentido se seguirá diluyendo en la medida en que se siga industrializando la producción de conocimiento científico.

martes, 16 de agosto de 2011

La lista de los Álamos 20 años más tarde

http://arXiv.org es un hito histórico en la historia
de la Ciencia Moderna y un embriom de lo que hoy conocemos
en el ámbito de información como crowdsourcing
En el medio científico sería casi impensable que alguien no conociera la lista de los Álamos. Entre los profesionales de la información y entre los de informática es también frecuente que la gente tenga referencias, más cercanas o más lejanas según sus relaciones con la academia. La lista de los Álamos, hoy conocida como arXiv, es un hito histórico. Pero quizá muchos no se enteraron que muy recientemente, el 14 de agosto del presente, se cumplieron 20 años de un acontecimiento trascendente: La puesta en producción de este célebre servicio, con la llegada del primer correo a la lista. Un experimento de gestión de información que trasciende la gestión de la información, un archivo de prepublicaciones científicas que cambió el curso de los acontecimientos y abrió una nueva era para las ciencias. Podría interpretarse, sin lugar a dudas, como un hito en la construcción de una manera diferente de hacer Ciencia y de hacer gestión de información en la sociedad del conocimiento. La iniciativa histórica fue liderada por físicos, pero sus aportes e implicaciones van, claramente, mucho más allá de la Física.

Paul Ginsparg y arXiv
En otra ocasión hablamos de Paul Ginsparg y de sus compañeros, Richard Luce y Herbert Von de Sompel, como los impulsores de un cambio en la manera de compartir metadatos que dio origen a la Iniciativa de Archivos Abiertos (OAI, por sus siglas en Inglés). La intención de Ginsparg en el Laboratorio Nacional de Los Álamos en Nuevo México, hace 20 años, fue, precisamente, facilitar el intercambio de manuscritos o preprints, es decir, de documentos escritos por sus autores pero aún en proceso oficial de publicación. Incluso el alcance inicial era bien limitado al área de trabajo de Ginsparg: la Física de Altas Energías.

Ginsparg creó un repositorio para compartir este tipo de información aprovechando las tecnologías que recién comenzaban a desplegarse. Lo que ocurrió luego fue un éxito que trascendía todo lo que había hasta la fecha. En unos pocos años el servicio evolucionó para convertirse en un recurso Web (http://arXiv.org) con cerca de 700.000 documentos en texto completo, 75.000 nuevos cada año y sobre el que se realizan cada semana cerca de un millón de descargas en texto completo por unos 400.000 usuarios diferentes. Los contenidos trascendieron la física para incluir trabajos de matemáticas, computación estadísticas y biología (Puede verse muchos más detalles en el documento arXiv at 20, del propio Paul Ginsparg ). El servicio fue trasladado de Laboratorio de Los Álamos a la Univerisdad de Cornell y su crecimiento sigue llevando a sus autores a buscar salidas para su financiación.

Una revolución en la manera de certificar la Ciencia
Las lecciones aprendidas de arXiv son muchas, todas importantes y más aún, trascendentes, históricamente. Los profesionales de la información, para los cuales escribimos, están obligados a conocer la historia.

Toda la Ciencia ha descansado tradicionalmente sobre un mecanismo de calidad llamado evaluación de pares: cuando algún científico hace algún aporte a la Ciencia, en algún área del saber, escribe un documento que somete a la consideración de sus pares, científicos especializados en el mismo dominio de conocimientos, enviando su trabajo con la intención de que sea publicado por alguna revista especializada. Si se trata de un aporte científico real, personas de conocida reputación por sus conocimientos en el área en cuestión deben tener criterios para emitir un juicio, actuando como árbitros de la revista a la cual el autor envió su trabajo. Se parte de la premisa que si varios de estos árbitros, debidamente reconocidos, opinan que hay un aporte, sin duda lo hay y se autoriza la publicación en la revista científica. El trabajo es publicado y a partir de allí el autor y el aporte pueden ser citados con esa publicación. Los árbitros deben cuidar el prestigio del cual dependen en su hacer cotidiano, y por eso, el mecanismo de calidad funciona.

Sin embargo, como puede notarse, el proceso descrito es artesanal y con los volúmenes de información que maneja arXiv y la gran cantidad de personas que actualmente elaboran conocimientos, es clara la necesidad de un cambio en el mecanismo de certificación del contenido científico de una publicación. Este es el gran debate que arXiv abrió al convertirse en el recurso primario diario para comunidades mundiales de investigadores. Como la publicación en arXiv es la primera referencia de autoría en muchas áreas de la Ciencia, se convierte, en la práctica, en la principal referencia en cada comunidad científica participante al momento de atribuir autoría a ideas, teorías y conocimientos. Pero como en ArXiv se publica sin arbitraje, es claro que se trata de una revolución en el mecanismo de calidad de la producción científica. El crowdsourcing del que se habla ahora comenzó a gestarse en el ámbito científico con arXiv. No todos lo vieron, incluso ahora no todos lo ven, pero con arXiv comenzó a hacerse evidente el cambio inevitable en los mecanismos de validación de la ciencia moderna.

sábado, 13 de agosto de 2011

Catálogos colectivos con Z39.50


Trinity College Library Dublin es una biblioteca legendaria
con una historia que se remonta al año 1592. Es la biblioteca
más grande de Irlanda. Hoy día, como cualquier biblioteca
moderna, tiene su catálogo disponible a través de un servicio Z39.50,
lo que le permite ser consultada a su vez desde otros catálogos colectivos

Hemos estado trabajando el tema de los catálogos colectivos bibliotecarios bajo los nuevos esquemas que, después del año 2000, se desarrollaron bajo la Iniciativa de Archivos Abiertos (OAI). Pero, como es fácil constatar, ésta no es la única manera en que actualmente se crean catálogos colectivos. También se han desarrollado y se continúan desarrollando catálogos colectivos bibliotecarios usando el protocolo Z39.50, una aproximación anterior, pero sobre todo diferente. Lo que es importante para el profesional de la información, el director o gerente de servicios de información, es conocer las diferencias entre un tipo de catálogo colectivo y otro y en qué condiciones se puede preferir cada uno, así cómo y por qué se pueden implementar los dos simultáneamente. Dedicamos a esta conversación nuestro escrito de hoy.

Z39.50
Z39.50 es un protocolo al que le hemos dedicado varios post (Ver por ejemplo: El protocolo Z39.50 ). Es un protocolo que data de finales de los años 80 pero que se desarrolló ampliamente en los años 90. Una de sus principales virtuales es la interconexión de sistemas bibliotecarios heterogéneos en tiempo real. Como mostramos en las conversaciones sobre el desarrollo de nuevas alternativas que surgieron en la década de los 2000 (Ver La evolución del Z39.50 al OAI), su principal virtud, el tiempo real, se convirtió, en la práctica, también en su principal limitación.

Por qué puede ser bueno un catálogo colectivo en tiempo real
Un catálogo colectivo generado en tiempo real ofrece la ventaja de que apenas un item es cargado en cualquier unidad de información participante, el item está disponible inmediatamente en el catálogo colectivo. No hay retrasos asociados. Cuando un usuario consulta el catálogo, en ese instante se exploran todas las bases de datos de cada una de los nodos integrantes, por lo que la respuesta no se elabora a partir de una copia, sino siempre sobre los datos originales. Es por diseño fidedigna y actualizada.

Otras ventajas de un catálogo colectivo con Z39.50
El uso de Z39.50 para la implantación de catálogos colectivos tiene también otras ventajas, como lo es la interfaz unificada con el servicio local que presenta el catálogo colectivo al usuario final y el uso de un esquema de base de metadatos prolijo en términos bibliotecarios, como el MARC.

Por qué puede no ser bueno un catálogo colectivo en tiempo real
El problema de preparar la respuesta a partir de los datos originales, en tiempo real, es esencialmente práctico. Se requiere que todas las unidades integrantes del catálogo colectivo tengan buenas conexiones a Internet y que respondan rápidamente. Lo que ocurre en la práctica es que la respuesta colectiva tiene a ir al ritmo del nodo más lento y cuando se están consultando simultáneamente más de cinco bases de datos en tiempo real, todas participantes de un mismo catálogo colectivo, el tiempo de la más lenta suele pesar excesivamente en la calidad del servicio global.

Catálogos híbridos
Como Z39.50 y OAI-PMH son protocolos complementarios, en no pocos casos se implementan catálogos colectivos duales, en los que conviven los dos tipos de protocolos. Ésta puede ser una solución razonable para servicios de mediano tamaño donde las conexiones de todos los nodos son razonablemente rápidas. Sin embargo, cuando se piense en implementar este tipo de catálogos híbridos se debe tomar en cuanta la complejidad intrínseca de este tipo de solución. En algunos sistemas integrados el tener ambas alternativas es fácil y estandarizado, mientras que en los sitios donde las capacidades que definen el servicio se logran articulando módulos de software de distinto origen, el trabajo de implementación puede ser más complicado.

viernes, 5 de agosto de 2011

Calidad de las conexiones y calidad de la información

OAI-PMH puede usarse para conformar bibliotecas
virtuales o catálogos colectivos de redes
de bibliotecas pequeñas,
así como en pequeñas redes de bibliotecas.

Hace 15 días, expusimos el tema de los catálogos colectivos universitarios en el contexto de Iniciativa de Archivos Abiertos (OAI). La semana pasada, en ocasión de contestar las preguntas que se generaron acerca del uso del protocolo OAI-PMH para cosechar metadatos y armar catálogos colectivos universitarios, nos referimos como ésta solución es apropiada en el caso de catálogos grandes, con millones de registros provenientes de centenares de repositorios. Pero como mencionamos ese día en la introducción, algunas de las preguntas que recibimos solicitan aclaratorias sobre un problema opuesto ¿Es el uso de OAI una solución conceptualmente válida y funcionalmente práctica en el caso de instituciones pequeñas y redes de pequeñas bibliotecas? ¿Qué pasa en los lugares donde las conexiones son lentas y a veces sin una completa garantía de continuidad, como ocurre en numerosos casos latinoamericanos? Trabajamos en este post las respuestas a estas otras situaciones.

¿Es ésta una solución válida en redes de pequeñas bibliotecas?
OAI-PMH es un protocolo válido en grandes redes y grandes servidores porque es eficiente en el manejo de volúmenes de datos, por el esquema de cosechas y por el mecanismo de control de flujo que incorpora. Pero es interesante observar también, que por lo liviano y simple de su concepción, su aplicación se adecua a pequeñas bibliotecas y pequeñas redes de bibliotecas y a redes de pequeñas bibliotecas, como puede ser el caso de bibliotecas escolares. Otros esquema para la integración de redes, como el Z39.50, son más exigentes en su implementación y eso los hace menos aptos para el caso de servicios de información de pequeño tamaño.

Para pequeños centros de documentación y pequeñas bibliotecas el OAI-PMH tiene como virtud que se puede implementar en servicios de bajo costo y requiere relativo poco mantenimiento.

¿Qué pasa en los lugares donde las conexiones son lentas y a veces sin una completa garantía de continuidad?
Una de las características de las conexiones en muchos lugares de Latinoamérica es la baja velocidad de las conexiones que se disponen en algunas unidades educativas. La buena noticia es que precisamente OAI-PMH es una buena solución y trabaja bien en estos ambientes heterogéneos donde hay disimilitud en la velocidad de las conexiones y en la calidad del servicio. El esquema de cosechas reúne en el servidor local los metadatos de los distintos proveedores y por eso poco importan para él las capacidades de los servidores de origen, ya que el valor agregado no se hace en tiempo real sino en tiempo diferido, después que se han reunidos consistentemente todos los metadatos en un único sitio.

El protocolo es simple y liviano al operar. Los registros pueden ser producidos en unidades de información de conexiones lentas y cosechados a servidores de mayores capacidades residentes en lugares mejor conectados. Esto hace que con OAI-PMH se pueda disponer de servicios de valor agregado eficientes a pesar de las limitaciones de muchos nodos de la red.

Conclusión
En conclusión, OAI-PMH es una excelente alternativa para formar bibliotecas virtuales o catálogos colectivos provenientes de cualquier tipo de proveedores de metadatos, entidades homogéneas o heterogéneas, grandes o pequeñas, con conexiones rápidas o lentas, con servicios regulares o de prestaciones inconstantes. Se puede decir que mientas más heterogéneo sean los nodos proveedores de contenidos que alimentan un servicio recolector de metadatos, más importante es el aporte del OAI-PMH al desarrollo de un catálogo colectivo.