viernes, 30 de septiembre de 2011

Lo bueno, lo malo y lo feo del formato PDF


El formato PDF puede es muy bueno cuando se usa
en forma apropiada, pero es muy malo cuando se
usa inadecuadamente...
La impresión de documentos pareció resolverse desde hace algunos años con la propuesta de Adobe, basada en el lenguaje Postcript y concretada en el formato PDF. Hoy en día se dispone de muchas herramientas tanto para generar como para visualizar archivos creados con este formato y las salidas impresas lucen, por lo general, muy bien. El problema que tenemos es que muchos implementadores de sitios Web no han entendido en qué momento es bueno el HTML y en qué momento es bueno el PDF y esto genera usos incorrectos de ambos formatos. Entre estos errores, el más grave es el uso del PDF como mecanismo de exposición de contenidos en la Web. De allí que continuaremos la conversación sobre formatos que hemos estado manteniendo en las últimas semanas con los Gerentes de Información que nos siguen, dedicando este post a explicar por qué no es aconsejable usar siempre el PDF, con la esperanza de que este conocimiento ayude a mejorar el diseño y la navegación de algunos de los sitios donde se hace un uso excesivo de este formato.

El formato PDF no siempre es lo mejor
El formato PDF, creado en 1993, fue diseñado para representar documentos y lograr que la gente los imprima con gran control, no sólo de los contenidos, sino también de la diagramación y la presentación general de la salida. En ningún momento ha sido ni es un sustituto del HTML como lenguaje universal de la navegación en hipertextos. Pero a pesar de que hay personas a la que esto puede sonar una obviedad, o casi, en muchos lugares de la Web hemos visto que la gente usa documentos PDF como mecanismo de publicación y, como consecuencia, numerosas páginas resultan complicadas de navegar en el computador, o en las nuevas tabletas digitales, debido esencialmente a que los contenidos fueron publicados en PDF.

Muchas veces el volcado de información al papel es innecesario para los nativos digitales, si bien para algunos inmigrantes digitales, a veces, es imprescindible. Pero el problema al que nos referimos es independiente de este. No queremos hablar de la necesidad o no de imprimir, de los temas ecológicos derivados, de la diferente aproximación de los nativos y los inmigrantes digitales a la lectura en los nuevos medios electrónicos. Esos otros temas son pertinentes, los hemos tocado y los seguiremos tocando en este blog, pero el tema central de hoy es en qué contexto es apropiado el uso formato PDF y, complementariamente, en qué contexto no lo es.

¿Cuándo es apropiado el PDF?
El PDF es un formato apto para representar documentos que van a ser impresos en papel, pero es importante entender que, a pesar de que hay esquemas para crear mecanismos de navegación con él, este formato resulta poco adecuado como un sustituto de la exploración y la navegación directa en la Web.

¿Qué significa esto? Que el PDF no es un formato para presentar contenidos, para eso está el HTML, que es más rápido y versátil para adecuarse a las diversas pantallas. Por tanto, cada vez que en un sitio Web usemos el PDF para presentar un contenido en pantalla para su primera lectura por el usuario, nos estamos equivocando. Todos los sitios Web que así lo hacen, lo están haciendo mal. En primer lugar porque el PDF requiere un visor que generalmente está, pero no siempre, disponible. En segundo lugar porque cuando el visor está, es más lento ver los contenidos de esta forma y la Web en general es un mecanismo rápido de búsqueda de información. Finalmente, a pesar de que es posible representar enlaces y menús con el formato PDF, este no tiene las facilidades de adecuación y de navegación de las páginas formateadas en HTML.

¿Cuál es la recomendación?
Al desarrollar un sitio Web lo apropiado, en términos prácticos, es usar una arquitectura en la que se presenta la información usando HTML y se coloca un enlace de impresión que construye o descarga el mismo contenido que se mostró inicialmente en su versión en HTML, pero esta vez con una diagramación explicita para la impresión, en formato PDF. En ese contexto, cuando se visualiza un documento PDF es porque la decisión de imprimir el contenido se ha tomado, el usuario puede esperar un poco más y la rigidez de la navegación PDF no es un problema. Así debe hacerse para una mayor usabilidad. Es la recomendación general.

viernes, 23 de septiembre de 2011

Separar Contenidos, Estilos y Metadatos

Mucha de las interacciones que hacemos hoy día son posibles gracias
a que por detrás hay una comunicación de metadatos con XML
Hace 15 días comenzamos a hablar de formatos e hicimos la pregunta: ¿Por qué tantos formatos? La semana pasada ampliamos nuestra respuesta a esta pregunta explicando como cada formato está siempre vinculado a un aprendizaje por lo que, como consecuencia, en la medida en que como humanidad vamos a seguir aprendiendo a lidiar con la información vamos también a seguir produciendo nuevos formatos. Es inevitable. Viene junto. Una de las afirmaciones en esta conversación es que hoy día, contenidos, estilos y metadatos se distinguen y se tratan de manejar separados. Por ello un documento HTML de los inicios de la Web es muy diferente internamente de uno de los que se produce en la actualidad. Si la semana pasada hablamos de contenidos y estilos, ahora volvemos a la conversación para hablar incluir en ella el punto de los metadatos.

Metadatos
La mejor forma de separar los metadatos es a través de XML. Un formato del cual hemos hablado con detalles en varias oportunidades (ver, por ejemplo, Evolución de metadatos y XML y El Matrimonio de MARC con XML). El XML garantiza, como no puede hacerlo el HTML, la comunicación de metadatos: los campos internos o distinciones que hacemos en un documento. Si con el HTML podemos trasmitir contenidos a las personas, con el XML logramos un formato que nos permite la comunicación y el intercambio de metadatos entre los sistemas. Esto fue bien claro en las explicaciones que hicimos en el caso de la iniciativa de archivos abiertos y el protocolo OAI-PMH (ver La inciiativa de archvios abiertos: el nacimiento de la sencillez al compartir metadatos).

El XML es el formato que facilita el intercambio de metadatos, por excelencia. De hecho, todas las áreas del saber y del hacer tienen metadatos específicos pero, en general, se converge al uso de XML como el formato o lenguaje base que debe usarse para trasmitir contenidos en los cuales es importante distinguir detalles, campos, clasificadores, partes internas, en una palabra: metadatos.

La combinación de formatos
A la hora de almacenar documentos se usan adecuadamente las bases de datos, cada una con su formato específico. A la hora de intercambiarlos el XML es adecuado. Al momento de presentarlos, el XML se traduce a HTML y los estilos se escriben en forma separada en una hoja de estilos .CSS. Así es la historia, cada vez que consultamos muchos sitios Web modernos. Por eso tenemos muchos formatos y vamos a seguir teniéndolos, cada uno para un uso específico.

Lo interesante es que el usuario de un sitio Web dinámico lo que observa de todo este cuento es que cada vez los sitios Web proporcionan mejor la información, en forma más agradable, más personalizada y más útil. Todo el tema de formatos le es invisible. Así debe ser cuando todo esta funcionando y bien implementado. Con el aprendizaje de hoy entendemos que mucho de las mejoras tienen que ver con funcionalidades que se implementan gracias a la comunicación XML, un formato que permite distinguir detalles internos en un contenido.

El caso de la impresión
La impresión en papel de un contenido electrónico puede ser vista como un modo de presentación diferente, en otro tipo de soporte físico además. Para ello se ha venido usando el formato PDF, sin embargo, como veremos en nuestro próximo post hay uso y abusos del formato PDF. Como veremos, en contextos apropiados este formato puede ser muy bueno, pero como veremos también, usado inadecuadamente, en contextos inapropiados donde deberían usarse otras soluciones, el formato PDF puede ser muy malo.

viernes, 16 de septiembre de 2011

Aprendizajes y formatos

El sitio http://www.csszengarden.com ilustra el aprendizaje que hicimos
al inventar los estilos en la Web. Pueden verse varios ejemplos
que ilustran como hoy día se separan contenidos y estilos

Entre los profesionales de la información a veces produce desconcierto la gran cantidad de formatos con los que hay que lidiar. Pero efectivamente, como expusimos en nuestro post de la semana pasada, los aprendizajes que como humanidad tenemos en el camino se concretan en los nuevos formatos digitales que van apareciendo y desarrollándose. Cada uno nos sintetiza una lección. De modo que una de las respuestas a la pregunta que hacíamos la semana pasada: "¿Por qué tantos formatos?" es que cada formato encierra un aprendizaje. Veamos hoy como hicimos el aprendizaje de sumar estilos a nuestros textos e hipertextos digitales.

Separar contenidos de estilos
Una lección particularmente importante la obtuvimos cuando la WWW comenzó a crecer:  en todo lo posible, es conveniente separar los estilos de presentación de los contenidos textuales. Esto se logró en los documentos HTML con la introducción del concepto mismo de “estilo” o forma presentación de un contenido y la práctica recomendada de usar las llamadas “hojas de estilo”. Estas hojas no eran otra cosa que archivos (.CSS) con un formato que especificaba cómo debían, estéticamente, aparecer en la pantalla los diversos componentes de una página Web: los párrafos, títulos, tablas, etc., es decir, los “estilos” que debían usarse en la presentación de las salidas.

La mayoría de los documentos HTML que se producen hoy en día distinguen internamente contenidos, estilos y metadatos, si bien para el lector final estas distinciones internas pueden no ser visibles en un momento dado porque él, simplemente, ve un texto con una tipografía y una diagramación específica.

Un primer paso fue reconocer que la Web necesitába incorporar el concepto de estilo y un siguiente paso fue darse cuenta que estilos y contenidos debíamos manejarlos por separado. En efecto, después del primer paso teníamos contenidos y estilos mezclados, eran más difíciles los cambios de contenido y eran más difíciles los cambos de estilo. No siempre la persona que cambia uno es la misma que cambia el otro y es más complicado encontrar lo que se quiere cambiar si está todo en un mismo formato. El uso de estilos que hacemos hoy día en la Web permite cambiar con bastante sencillez el concepto estético con el que se presenta los textos, logrando apariencias muy diferentes sin afectar los contenidos de los documentos presentados. Suena evidente la necesidad, sin embargo, el aprendizaje fue paulatino: Cuando comenzamos con la Web, no usábamos estilos y luego textos y estilos estaban todos mezclados en los documentos HTML. Veamos la historia.

La historia de cómo aprendimos a trabajar con estilos
Al principio, cuando no habíamos inventado el concepto de estilo y de archivos .CSS los hipertextos los escribíamos en documentos HTML donde no se explicaba cómo “formatearlos”: colores, tipos de letras, alineación, etc. eran simplemente aspectos que no podían definirse y por eso la primera Web era un poco plana visualmente, algo que muchos no recuerdan (20 años no es un día) y que los nuevos nativos digitales no vivieron.

En los primeros hipertextos sólo marcábamos donde comenzaba y donde terminaba cada párrafo y donde comenzaba y terminaba cada título o subtítulo. Esto alejaba las posibilidades de la Web de la riqueza de la presentación que se lograba en los medios impresos. Por ello, con la especificación versión 3.2 de HTML se introdujeron etiquetas para establecer tipos de letras y colores. Esto aumentó la riqueza visual pero también la complejidad del manejo. Colocar este tipo de información estética en cada documento era largo, complejo y sujeto a error.

Se había creado una posibilidad, se satisfacía mejor una necesidad, pero había que solucionar mejor el cómo hacerlo. Es decir, se requería un nuevo formato. Y este vino: El Consorcio de la WWW (http://www.w3c.org) creó posteriormente, con el HTML versión 4.0, las hojas de estilo .CSS que definen en forma condensada como deben presentarse estéticamente los elementos (párrafos, encabezados, imágenes, tablas) de un hipertexto HTML. La historia a partir de allí fue otra. La calidad estética de la Web mejoró y se comprobó, una vez más, que cada formato encierra un aprendizaje…

viernes, 9 de septiembre de 2011

¿Por qué tantos formatos?

Los nuevos medios digitales permiten nuevas interacciones
y nos traen nuevos formatos

Uno de los méritos del papel como mecanismo de soporte de contenidos de información es su relativamente fácil preservación. Los especialistas saben que hay varios temas relacionados: temperatura y humedad de los lugares donde se hace el resguardo, acidez de los mecanismos de impresión, insectos y otras plagas, por ejemplo. Pero más allá de los detalles, es indudable que la buena conservación por centenares de años de muchos impresos, documentos, libros y revistas, habla de la relativa facilidad de la preservación en papel y de los mecanismos para apreciarla y asegurarla. Este tema es más sofisticado y no está completamente resuelto en el mundo digital, por la evolución constante de los soportes y de los formatos y la invisibilidad de lo que se almacena hasta que no se presenta. Hemos conocido casos de universidades que creyeron poder preservar las versiones digitales de las tesis de sus estudiantes solicitándoles una copia que, con los años, simplemente dejó de poder ser leída. La WWW tiene una historia de cerca de veinte años y, en este breve espacio de tiempo ha habido y va a seguir habiendo evolución en los formatos. ¿Qué es lo que cabe esperar hacia adelante?

La diversidad de formatos digitales está vinculada con la diversidad de funcionalidades y modos de presentación
En el medio digital la variedad es más rica que en el medio impreso: un mismo contenido puede tener distintos modos de presentación, cada uno con sus ventajas. Algunas de estas presentaciones pueden tener funcionalidades específicas, por ejemplo notas de los usuarios. Esto no ocurría en la cultura del papel donde una vez impreso el libro formaba un todo prácticamente indivisible con el soporte físico, la funcionalidad y el formato de presentación unidos. Ahora, en cambio, tenemos en el mundo digital formatos adecuados para almacenar la información, formatos para presentarla en un medio, formatos para presentarla en otros, formatos para compartir mediante protocolos de intercambio, formatos para los nuevos dispositivos móviles e incluso, formatos para llevar la información digital al papel.

La World Wide Web evoluciona para mantenerse y aumentar su utilidad
El HTML como lenguaje para presentar hipertextos y el HTTP como protocolo de comunicación son las piedras angulares de la WWW y en gran medida, de la Internet de hoy, donde la mayoría de las interacciones ocurren a través de la Web, a diferencia de la Internet de antes del 2000 donde las interacciones ocurrían, sobre todo, en el correo electrónico.

En términos técnicos, internamente, la Web ha ido evolucionando con aportes coordinados por el consorcio institucional que la regula: el World Wide Web Consortium (http://www.w3.org). Del HTML llevamos ya cuatro ediciones y la quinta en curso, con aportes importantes (lo que implica diferencias) en cada una de ellas, si bien una de las ventajas de esa evolución es la llamada “compatibilidad hacia atrás”: el hecho de que las nuevas versiones de las herramientas de visualización nos permiten ver documentos hipertextos formados con las técnicas que disponíamos en los comienzos de los años noventa.

Uno de los méritos de las tecnologías alrededor del HTML usado en la Web es que los documentos grabados inicialmente con este lenguaje siguen, en general, pudiendo ser trasmitidos y presentados en los servidores y exploradores modernos que tenemos en la Internet de hoy. Pero esto no significa que los documentos HTML de la actualidad sean parecidos a los de 15 años atrás. Internamente han cambiado mucho. Interesantemente, los cambios entre los documentos de hoy y los de las pasadas décadas reflejan aprendizajes por lo que dedicaremos algunos de nuestros próximos post a exponer esta relación entre aprendizajes y formatos para entender cómo, en la medida en que vamos a seguir aprendiendo como comunidad internacional que produce y comparte información con las nuevas tecnologías, vamos a seguir, inevitablemente, produciendo nuevos formatos digitales para lidiar con la información en forma cada vez más útil, con una mezcla paradójica de felicidad, sencillez y complejidad.

jueves, 1 de septiembre de 2011

La ciencia y la generación digital

A las nuevas generaciones de académicos les corresponde hacer un
cambio que tendrá tracendencia: llevar de un modo más integral la cultura
digital a las prácticas científicas de manejo de información
Los actuales estudiantes universitarios son todos nativos digitales. Sólo por excepción no lo son. Hay diferencias, claro está, derivadas de las oportunidades que han tenido o que se han labrado gracias a los contextos culturales y las redes humanas en las que se han formado, pero a fin de cuentas es evidente su comportamiento social de nativos digitales. Los Profesores titulares de las Universidades y una cantidad importante de los bibliotecarios que administran sus bibliotecas todavía son, en promedio, inmigrantes digitales, formados con la cultura del papel y reciclados a la producción industrial de información y conocimiento del mundo en que vivimos. Un mundo en el que por cierto, las redes digitales no sólo habilitan la difusión de los contenidos sino que empoderan y crean nuevas formas de participación y de interacción, un fenómeno que se expresa en lo que hoy llamamos Web 2.0 para distinguirla de la primera Web, la Web hoy 1.0, mucho más unidireccional en la manera de crecer sus contenidos. ¿Qué pasa con los repositorios académicos en este contexto?
Ese es el tema de hoy.

La Ciencia aún tiene que cambiar sus prácticas
Recientemente hemos hecho un par de post, uno para prestar atención a un hito histórico: los 20 años de arXiv.org y otro para señalar como arXiv.org tenía en su concepto una semilla Web 2.0, si bien algunos de sus genes estaban limitados culturalmente, como expresamos al final del segundo post. Queremos esta vez insistir con algunas reflexiones adicionales inspiradas en la última parte del artículo de Paul Ginsparg, arXiv at 20, que comentamos parcialmente en estos últimos post. En resumen: La Ciencia ha creado las herramientas, pero las nuevas generaciones de académicos aún tienen que cambiar las prácticas de la institucionalidad científica, ya que ésta aún está signada por la cultura del papel.

La generación digital no ha llegado a la Ciencia
Como Ginsparg comenta, a pesar de que la vida actual hay numerosos servicios en línea, motores de búsqueda globales y que los estudiantes actuales están habituados a usar mecanismos de compartir fotos, videos y actualizaciones de estatus, todavía se usan (incluyendo a la generaciones de académicos jóvenes en la afirmación) las técnicas de reunir información científica de los científicos tradicionales. Los estudiantes todavía siguen árboles de citas, buscan por palabras claves, consultan con pares y mentores para eliminar las fuentes no confiables. Todo esto sucede aunque en otros aspectos de sus vidas estas personas se comporten diferentes, usando más ampliamente las nuevas posibilidades de descubrimiento, interacción y participación.

Los filtros en los repositorios científicos deben evolucionar
No cabe duda que en el presente las cantidades de contenidos que se producen son mucho mayores que nuestra capacidad de lectura y estudio y que por ello se hace claro que necesitamos ser selectivos. En otras palabras, disponer de buenos filtros conviene: Navegar cantidades crecientes de data inevitablemente lleva a problemas de sobrecarga de información. El problema señalado es que un filtro de información inadecuado puede ser peor que ningún filtro. Por ejemplo, sistemas de recomendación basados en medidas pasivas de popularidad pueden ampliar las opciones de lectura individual, pero al ampliar a cada quien en la misma dirección, restringen la diversidad en la comunidades donde están los individuos.

Menciona Ginsparg que en arXiv se han podido apreciar los efectos adversos de la ausencia de filtros adecuados en la ingestión de información por parte de las comunidades de investigación global, derivado de consumos de la misma información dado el hecho de que todos usan las mismas interfases sobre una base diaria. Muy concreto uno de sus ejemplos: El orden en el cual los nuevos preprint se suben y se presentan en las alertas diarias afecta las lecturas de éstos y, sorprendentemente, dejan una traza en las citas seis años más tarde. Es obvio que este resultado no armoniza con la pretensión de objetividad de la Ciencia.

Los filtros que enfatizan los materiales populares sobre períodos de tiempo largo exacerban este efecto. De allí que en los repositorios científicos se requieren filtros diferentes, personalizados a las preferencia e intereses individuales. Actualmente, comenta Ginsparg, se están haciendo experimentos con este tipo de sistemas y se espera que entren en producción en uno o dos años. Indudablemente alentador.