jueves, 31 de marzo de 2011

Del MARC al Dublin Core

La Conferencia Internacional Dublin Core 2011
se realizará del 21 al 23 de Septiembre en The Hague, Holanda
Hemos estado trabajando el tema de la evolución de los metadatos, particularmente desde la perspectiva del intercambio de registros en bibliotecas. Establecimos lo trascendente que fue el nacimiento del MARC en los 70 y cómo evolucionó. Luego los aportes de la revolución de la Internet que llevaron a la fusión con el XML. En ese punto de la historia nos quedó planteado como, pragmáticamente, tuvimos que darnos cuenta que era imposible catalogar todos los volúmenes de información que estábamos trabajando con algo tan detallado, tan exhaustivo, como el MARC. Este tipo de reflexión condujo a dos simplificaciones de gran interés que marcaron hitos en el desarrollo moderno de metadatos: Dublin Core y MODS. Hablaremos del primer conjunto en este “post” y en uno más adelante de MODS.



El problema de catalogar lo inmensurable
Con el paso de los años han ido cambiando los soportes donde almacenamos la información. Pero lo único que ha evolucionado no es el tipo de soporte físico y lógico de los metadatos. También el contenido de los mismos. Las nuevas tecnologías han permitido que sea muy fácil producir información y los volúmenes que se manejan en la Internet ya no son los de unos cuantos millones de títulos, como antes. La información que hay que clasificar ahora es mucho más grande y la velocidad de producción de información sigue creciendo por lo que cada vez el problema de la clasificación será mayor.

Este problema de manejo de cantidades inconmensurables de información, aunado al hecho de las múltiples, numerosas, alternativas de presentación de los contenidos en los diversos formatos digitales, nos hizo tener que aceptar que nuestra aproximación a los metadatos debía ser otra. No el esquema que diseñamos con el MARC de los 70. En algún momento pudimos creer que con un esfuerzo de una cantidad adecuada de personas podíamos clasificar y catalogar con gran diligencia la totalidad de libros, publicaciones periódicas, archivos de computación, mapas, sonidos, materiales visuales y mezclas, lo que se podía catalogar con el MARC.

Un viraje en la aproximación a los metadatos
Hoy esta perspectiva ha cambiado. Había que reconocer que la pretensión de catalogar tan prolijamente resultaba imposible y que por tanto había que simplificar los metadatos para poder adecuarnos a la era Internet. El principal esfuerzo en esta nueva dirección ha sido Dublin Core que, muy concienzudamente, redujo los metadatos a un conjunto tan pequeño como 15, con lo cual se hizo posible catalogar volúmenes de información gigantescos, en relación a las limitaciones de nuestra aproximación anterior, basada en MARC.

De este modo hay que entender que Dublin Core no es ningún sentido un paso en la evolución de MARC como el MARCXML o el MOD (del que aún tenemos pendiente una conversación). Dublin Core representa una ruptura, un cambio de concepto, una aproximación conceptual diferente. Precisamente por esa diferencia tan radical es que Dublin Core es en la actualidad el esquema de metadatos más exitoso de la actualidad, la referencia esencial de metadatos en archivos y bibliotecas y, sin duda, un tema obligado para todo estudiante y profesional de Ciencias de la Información.


viernes, 25 de marzo de 2011

El matrimonio del MARC con el XML

El formato MARC puede usarse para describir libros, publicaciones
periódicas, archivos de computación, mapas, música, sonidos,
materiales visuales y mezclas. Todas las distinciones del MARC
permanecen en MARCXML.
(Fotografia: Buho del prolífico escultor Deco Lee Lawrie,
almacenada en la Biblioteca del Congreso de los EEUU)

Como expusimos en nuestros últimos “post”, los metadatos han evolucionado y el formato MARC, dentro de ellos, lo ha hecho también. Un aporte histórico importante fue la fusión de la semántica bibliotecológica intrínseca en el MARC con el XML adoptado por los informáticos como metalenguaje para el intercambio de información. En efecto, actualmente, después de muchos altos y bajos, todo el intercambio de información ha estado reescribiendo sus soportes básicos en XML. En esas condiciones es natural que se hayan desarrollado traducciones de MARC a XML, produciéndose varias versiones de MARCXML. Los bibliotecólogos de la era Internet deben entender, por tanto, qué significa y por qué llegamos a esta fusión de herramientas y conocimientos. Eso, más allá del MARC, facilitará entender los caminos a través de los cuales transitan hoy día todos los esquemas de metadatos usados en bibliotecas y archivos.

¿Por qué MARCXML?
Con lo que expresamos en nuestro “post” anterior es claro que el uso de XML es un aporte de la informática contemporánea para el almacenamiento y transporte de datos y no compromete para nada las categorías lógicas, bibliotecológicas, intrínsecas en el MARC. Es decir, se trata, simplemente, de un cambio que no afecta la semántica del MARC y que le permite un soporte más genérico y universal que el de su versión original.

Puede decirse que el intercambio de registros MARC aprovechó el XML para hacerse más independiente de los medios físicos. La definiciones iniciales del MARC tenían que ver, como hemos señalado en anteriormente (Ver La evolución del MARC), con el hecho de que más que las redes de sistemas heterogéneos de hoy, en el momento de nacimiento del MARC, el mecanismo de soporte físico al intercambio de datos eran las cintas magnéticas de 1600 dpi, algo que los computistas de las actuales generaciones sólo han oído mencionar en clases de historia.

MARCXML mantiene la semántica MARC
Cuando se habla de MARCXML entonces lo que se habla es de la semántica completa del MARC, sin cambios, sin adiciones, sin supresiones, escrita en XML. Todas las distinciones, todos los campos y subcampos del MARC permanecen en MARCXML. Hay varias versiones, pero el cambio que opera entre versiones es simplemente en cómo se escriben, como se separan los campos y los subcampos de MARC, usando para ello convenciones válidas en XML.

Más allá del MARCXML la semántica MARC si ha sido revisada
Indudablemente que MARCXML es un aporte que ayuda al MARC en su evolución, pero que deja intactas sus bases porque, como mencionamos, no revisa la semántica asociada a su gran cantidad de definiciones de campos. Pero la Internet cambió la gestión de información no sólo aportando nuevas herramientas para el intercambio, como el XML. La popularización de la Web magnificó los volúmenes de información y eso motivó la necesidad de  plantearse, seriamente, si tenía sentido la idea de mantener intacta toda la semántica del MARC. Este camino reflexivo condujo a cambios sustantivos nacidos de la pregunta de qué metadatos (es decir, qué distinciones) eran las más importantes, las que en la mayor parte de los casos se debían mantener. Debido a ello, la evolución de los metadatos fue impactada por nuevos aportes.

Al analizar qué es sustantivo y qué no en la evolución de los metadatos en general y del MARC en particular, hay que centrar la atención en otros aspectos, que trascienden lo resuelto con la adopción del XML y que si tienen que ver con la revisión de las categorías lógicas, bibliotecológicas, del MARC. Es el siguiente tema en la conversación sobre la evolución de los metadatos y lo tocaremos en siguientes “post”, al hablar de Dublin core y de MODS.

viernes, 18 de marzo de 2011

Evolución de Metadatos y XML

Hoy hay muchos más dispositivos y soportes de información.
El XML (eXtensible Markup Language)
es un hito en la historia de los metadatos.
(Foto tomada de: http://www.w3c.es)

En nuestros últimos “post” hemos estado hablando de la evolución de los metadatos y especialmente del MARC. Pero la historia muestra un punto de inflexión en el camino de mejoras continuas en la conceptualización de los metadatos que ocurre cuando todas las especificaciones modernas comienzan a definir la semántica de metadatos valiéndose de un lenguaje llamado XML. El fenómeno es importante y resulta conveniente detenerse un poco en él para entender por qué hoy día se usa XML, qué aporta en la especificación de metadatos y comprender así como se llega a los matrimonios que se han venido dando entre las semánticas bibliotecarias, de archivos y de gestión de información en general, con el XML.

XML
El XML es un lenguaje genérico para el intercambio de datos promovido desde 1998 como una recomendación del consorcio W3C, entidad que asume el desarrollo y control de los estándares de la WWW (World Wide Web).
El XML enfatiza la simplicidad, la generalidad y la usabilidad sobre la Internet. Es un formato de datos textual que tiene un soporte importante para los diversos lenguajes hablados en el mundo (a través de una codificación llamada Unicode, diseñada para representar consistentemente los caracteres especiales que se requieren en los distintos alfabetos). Los informáticos expresan hoy día sus interfases de programación en XML y sobre él se desarrollan centenares de lenguajes y protocolos que aportan las semánticas especializadas de las distintas disciplinas y normalizan el intercambio de información.

El éxito de la simplicidad
El hecho de que el XML sólo posea unas pocas reglas sintácticas, fáciles de entender y de implementar, ha extendido su utilidad a muchas áreas. Entre las aplicaciones del XML está su uso como un lenguaje para escribir metadatas específicas. Esto es posible porque, semánticamente, el XML es un lenguaje bastante neutro y sus definiciones están pensadas para que otros lo usen para definir semánticas especializadas. Debido a ello, el XML permite, sin problemas, su uso en múltiples contextos. El conjunto de características que mencionamos hacen que, de facto, el XML sea el metalenguaje de normalización y control del intercambio de metadatos más utilizado en la actualidad.

Algunas críticas
Se le critica al XML, no si razón, que tiende a generar archivos grandes porque cada etiqueta se escribe dos veces, como apertura y como cierre de cada contenido de datos etiquetado. Sin embargo, su sencillez y legibilidad lo ha promocionado más allá de estas limitaciones.

Los matrimonios con el XML
El éxito de XML durante toda la década del 2000 implicó que se convirtiese en una práctica estandarizada que toda especificación de metadatos se hiciera en XML. El XML se convirtió en un mecanismo universal para el almacenamiento y transporte de datos y para la especificación de las partes internas de cualquier documento o conjunto estructurado de datos. Se usa como lenguaje para transportar reglas sintácticas y semánticas. De allí que en toda la gestión de documentos se use XML y tengamos que profundizar en su impacto sobre los metadatos aplicados en bibliotecas. Esto lo haremos a partir de nuestro próximo “post”.

viernes, 11 de marzo de 2011

La evolución del MARC

Una parte del MARC refleja que en su origen la información
se comunicaba a través de cintas magnéticas
(Foto: Archivos de IBM)
El tema de los metadatos es uno de esos temas siempre presente en las bibliotecas, independientemente de que sean genéricas o especializadas, tradicionales, digitales, virtuales o híbridas. En nuestro “post” anterior, al abrir el tema de la evolución de los metadatos comentamos que no era casualidad el desarrollo del MARC en los años setenta. Cerramos nuestra exposición señalando que diversos acontecimientos en la historia de la automatización de bibliotecas obligaría a la evolución del MARC y nos comprometimos a extender el planteamiento en próximos “post”. Como señalamos en esa oportunidad, la evolución del MARC en particular y de los metadatos en general es importante entenderla para comprender adónde estamos yendo en las Ciencias de la Información, y, particularmente, dentro de las bibliotecas, con el desarrollo de esquemas para clasificar, catalogar y compartir información. Queremos llegar a conversar sobre los enfoques de metadatos de hoy día, pero para ello necesitamos, como línea base, comprender lo que pasó con el MARC.

¿Qué estaba colapsado en el origen del MARC?
El MARC, en su origen, abarcaba en forma colapsada dos aspectos que son conceptualmente diferentes: El primero tenía que ver con los conceptos de clasificación, el metalenguaje descriptivo, qué categorías pueden usarse para describir una determinada referencia. El segundo con el formato físico, la codificación con la que estos elementos descriptivos deberían escribirse en un registro, un determinado soporte físico que pudiera ser leído por un computador, cómo debería separarse un campo de otro, un subcampo de otro, un registro de otro.

Así como en un lenguaje natural siempre podemos distinguir los conceptos: casa, libro, silla, amarillo, grande, de las funciones gramaticales, casa y libro son sustantivos, amarillo y grande son adjetivos y las reglas sintácticas que definen cómo pueden combinarse las palabras para decir algo con sentido y todo esto es, sin embargo, independiente de los mecanismos de soporte donde expresemos nuestras frases, del papel, la cartulina, el acetato, los tipos de letras que usamos y los mecanismos de escritura, manuscrita o impresa, hay distinciones que podemos hacer en las definiciones realizadas en el MARC de los años 70.

Las definiciones más físicas del formato MARC se trataban, sin duda, de contribuciones circunstanciales, porque la manera de comunicarse con un computador, la forma de escribir archivos, igual que los distintos tipos de medios o de soportes cambian mucho más rápidamente en el tiempo que las categorías lógicas que usamos para describir y clasificar información. Por esta razón esa segunda parte del MARC, demasiado cercana a los formatos físicos, se hizo obsoleta, mientras que la primera, las categorías y sus jerarquías, los campos y subcampos, no.

Las distinciones bibliotecológicas del MARC siguen siendo válidas, lo cual no significa que no haya venido cambiando el enfoque y o los énfasis con el que se realiza el trabajo de clasificación y registro, debido a las distintas prácticas de procesamiento automatizado de información que tenemos ahora.

La dirección de los cambios
El MARC ha evolucionado en dos planos. Uno primero, de actualización de la parte que del MARC que estaba referida a los soportes para el intercambio de información. En su origen, tenía mucho que ver con el intercambio a través de las cintas magnéticas que se usaban en los 70 y 80 y que resultan completamente anacrónicas desde el punto de vista de la infraestructura para el intercambio de información que usamos hoy día.

El otro plano es de la racionalidad de la clasificación. La pregunta de qué tiene sentido y qué es posible distinguir en volúmenes de información como los que se manejan actualmente. En este plano la evolución se planteó de forma no sólo diferente sino interesante. Volveremos sobre estos cambios de dirección.

viernes, 4 de marzo de 2011

La evolución de los metadatos

El conjunto de metadatos que puede especificarse en la catalogación es grande
Foto: British Library (*)
Las distinciones de clasificación son muchas y complejas y por ello el conjunto de metadatos que puede especificarse para caracterizar un material bibliográfico puede ser de varios centenares. En efecto, a la hora de  caracterizar una referencia es mucho lo que puede decirse como información asociada a un registro bibliotecario. Esto se reflejó en los años setenta con un hito histórico en materia de clasificación de recursos bibliohemerográficos e intercambio de metadatos: el desarrollo de los llamados formatos MARC para el intercambio de registros catalográficos. Este paso representó un salto hacia delante al crear un sistema de intercambio de información útil para el procesamiento con computadores que comenzaban a proliferar en las corporaciones y a extenderse en las bibliotecas. Los formatos MARC facilitaban el intercambio de registros entre sistemas, pero su gran cantidad de distinciones los hacían muy difícil de manejar para los humanos. Cuatro décadas después, con computadores, sistemas y prácticas de uso de información que son muy diferentes cabe preguntarse ¿cuál es la vigencia del MARC? ¿Hacia donde están evolucionando los metadatos?

Cultura y herramientas diferentes
La cultura y las herramientas de hoy son muy diferentes de la de hace cuarenta años y por eso es natural que hayan cambios de significación en el modo como clasificamos, como catalogamos los registros bibliotecarios, como los intercambiamos, como armamos redes de bibliotecas, como distinguimos los metadatos como categorías lógicas, como los almacenamos, cómo los intercambiamos y donde colocamos los acentos en esas actividades cuando desarrollamos catálogos colectivos, bibliotecas virtuales, bibliotecas digitales y nuevos conceptos de información en el ciberespacio actual.

El principio y el MARC
El MARC no estuvo en el principio de la automatización bibliotecaria, ni mucho menos de las bibliotecas, pero no fue por casualidad que llegamos a él en los años setenta y no es tampoco casualidad que su legado, con transformaciones continuas, llegue a nuestros días.

Puede decirse, con propiedad, que toda la computación bibliotecaria ha tenido históricamente que ver con el MARC que definió en épocas tempranas como registrar la información de autoridades, registros bibliográficos y los registros de los poseedores de copias. El MARC pretendió y en gran medida logró hacer distinciones muy pormenorizadas y exhaustivas y expresarlas en un lenguaje estandarizado sintetizando el conocimiento bibliotecológico de la época.

Los cambios en el MARC
La complejidad del MARC evolucionó de forma diferente a lo largo de la historia. En los ochenta se produjo una explosión divergente que creó una serie de estándares MARC de países, pero pronto se vio que esto tenía poco sentido y se trabajó en un proceso de unificación que convergió en el llamado MARC 21.

Después del MARC 21
Después del MARC 21 ocurrieron cosas muy interesantes, el MARCXML y el MODS, entre otras. Para los que trabajamos en o con bibliotecas y para los jóvenes estudiantes de Ciencias de la Información es importante entender esta evolución para entender dónde estamos, cómo llegamos aquí y adónde estamos yendo en las bibliotecas. Nos proponemos entrar en estos temas en próximos “post”.

(*) Fotografía de la British Library: http://artandhistory.wordpress.com/2010/01/30/british-library