Arquitectura de la Información (Parte 2, Metadatos)

Metadatos al estilo Dublin Core
 
Imagen de Metadatos
 
 ¿Qué es Dublin Core? 
 
Dublin Core es un esquema de metadatos elaborado y auspiciado por la DCMI (Dublin Core Metadata Initiative), diseñado para proporcionar información descriptiva básica sobre cualquier tipo de recurso sin que importe el formato de origen (ya sean recursos físicos, recursos web u otros objetos como obras de arte, etc.). El Dublin Core, es un conjunto de quince elementos genéricos y ampliamente utilizados (creador, colaborador, editor, título, fecha, idioma, formato, tema, descripción, identificador, relación, fuente, tipo, cobertura y derechos), Dublin Core Metadata Element Set (DCMES). Cada elemento es opcional, repetible y, además, puede aparecer en cualquier orden.

Estos 15 elementos que integran el formato Dublin Core se pueden clasificar en tres grupos, que indican la clase o el ámbito de la información que contienen:

  1. Elementos relacionados principalmente con el contenido del recurso: título, tema, descripción, fuente, lenguaje, relación y cobertura.
  2. Elementos relacionados principalmente con el recurso cuando es visto como una propiedad intelectual: autor, editor, otras colaboraciones y derechos.
  3. Elementos relacionados principalmente con la temporalidad y formato del documento, así como su identificación: fecha, tipo de recurso, formato, identificador del recurso, etc.
Es el esquema de metadatos más utilizado a nivel mundial para describir y recuperar información electrónica. Se redactó por primera vez en una reunión de 1995 en Dublin, Ohio (de ahí su nombre), creado para facilitar la búsqueda de información en una Web en crecimiento exponencial, y para ello se incorporaban metadatos simples, similares a catálogos de tarjetas, en sus páginas, pero con carácter de metadatos enlazados (linked).

Dublin Core se define por la norma ISO 15836:2003 (última revisión en 2017) y por la norma ANSI/NISO Z39.85-2012.

Metadatos:

Los metadatos, como literalmente lo presenta Dublin Core son "datos sobre datos", también se refiere a “metadatos descriptivos”, definidos como: datos estructurados sobre cualquier cosa que se pueda nombrar, como páginas web, libros, artículos de revistas, imágenes, canciones, productos, procesos, personas (y sus actividades), datos de investigación, conceptos y servicios. Con la evolución de Internet, especialmente con el WWW (1994), se amplía más el concepto en el mundo de los macrodatos asociados a las técnicas del Big Data, incluyendo: “likes” de redes sociales como Facebook, llamadas telefónicas IP, Tweets y similares. Recordaremos la forma tan particular y amplia que el expresidente Donald Trump, hizo uso de Twitter llegando incluso a emitir decisiones de geopolítica por medio de esa red social, que podríamos afirmar “gobernó a golpe de Twitt” y cada emisión se veía reflejado en movimientos en Wall Street.

Los metadatos Dublin Core ™, o quizás más exactamente metadatos "al estilo Dublin Core ™", son metadatos diseñados para la interoperabilidad sobre la base de los principios de la Web Semántica o Linked Data. Los metadatos en este estilo utilizan identificadores uniformes de recursos (URI, “Uniform Resource Identifiers”) como identificadores globales tanto para las cosas descritas por los metadatos como para los términos utilizados para describirlos (vocabularios). No confundir las direcciones de un web, URL con los URI. La idea de un identificador uniforme de recursos también fue concebida por Tim Berners-Lee, el padre de la World Wide Web y precursor de una multitud de funcionalidades de acceso a sitios de Internet. Este estilo se distingue por el perfil de la aplicación, una especificación que detalla cómo se utilizan, restringen o combinan vocabularios genéricos conocidos, como el Dublin Core, con vocabularios más especializados para satisfacer los requisitos de aplicaciones específicas.

Creo que esquemas de metadatos como Dublin Core, han trascendido las propuestas mismas que contienen en sus fundamentos de creación. Cumplen a la perfección como estándar de localización, de ubicación (search engines, crawlers, index), pero adicionalmente permiten que los documentos en general, sea cual sea su “especie y género”, preserven (término profundamente técnico) el contexto, el contenido, la estructura y el aspecto físico del documento o más precisamente el “activo de información” (“assets”) durante todo su ciclo de vida.

Los 4 principios que guían el conjunto de metadatos Dublin Core son:
  • Simplicidad de creación y mantenimiento.
  • Semántica universal.
  • Cobertura internacional.
  • Extensibilidad.
He utilizado esquemas básicos (de los 15 mencionados) para crear plantillas, tablas o índices asociados al escaneo de documentos, dotando así a PDF’s o TIF’s de una inteligencia adicional para su accesibilidad. Esto es crucial, sobre todo, cuando los documentos de texto, por diferentes razones: costo, calidad de imagen, tiempo de procesamiento o simplemente por oportunidad no tienen OCR; pero sobre todo es sustantivo para otra gama, inmensa, de contenidos documentales que no son textos y requieren acceso inteligente, oportuno, como videos, imágenes, planos, mapas y otras variedades de formatos no textual. Sea cual fuere, el repositorio que se tenga para el resguardo documental, tener un método de acceso daría enormes posibilidades de aprovechamiento posterior como por ejemplo, insertarlos en flujos de trabajo automatizados (workflows).

No es sencillo, en los contextos actuales de creación exponencial de información y datos, el cumplimiento de estas condiciones de preservación de documentos. Considero que con la llegada de los algoritmos de big data, redes neuronales, inteligencia artificial se deberían automatizar las generaciones de metadatos basados en estándares como Dublin Core para reducir la intervención humana en su producción, de lo contrario, caeremos, sin duda, en la pérdida de valiosa información que debe preservarse. Esto exige definición de estándares documentales a nivel de formatos o plantillas en las que los algoritmos pueden localizar en sectores específicos de los documentos los términos que se emplearán para los metadatos.

Como “bono” para quienes leyeron el documento, les quisiera comentar que en sistemas de impresión modernos (multifuncionales), es sencillo definir con lenguajes de programación simples, botones de configuración para los usuarios que escaneen el documento, ejecuten OCR, establezcan los metadatos y movilicen la información de forma muy eficiente hacia destinatarios o procesos con “workflow”. Un ejemplo de ello son los equipos de Ricoh (GlobalScan NX). Utilizar metadatos asociados a los documentos y para los documentos es fundamental para la memoria, colectiva, es un acto de responsabilidad de quienes creamos contenidos que serán valiosos para la posteridad.

Para ver detalles de cómo funciona una generación de metadatos al estilo Dublin Core, les propongo visitar y emplear estas páginas web:

Comentarios