Agenda formativa DSpace, segundo semestre de 2019

Programamos para su impartición en el segundo semestre de este año una nueva edición de los cursos siguientes:

Cursos DSpace V6

  • Dspace v6 para Administradores, 07 de Octubre al 22 de Noviembre de 2019, (+ información)
  • Dspace v6 para Administradores Técnicos, 07 de Octubre al 22 de Noviembre de 2019, (+ información)

Open Repositories 2019, Hamburgo

La conferencia anual Open Repositories, (OR2019, #OpenRepo2019) , se celebró este año hospedada por la Universität Hamburg (que cumplía su primer centenario) y como cada vez que podemos, acudimos a esta reunión de profesionales de los repositorios, ciencia abierta y disciplinas conectadas.

Del 10 al 13 de junio se celebraron un ingente número de workshops, paneles, presentaciones, reuniones de desarrolladores, presentaciones 24*7 workshops y posters (entre 300 y 400 actividades¡¡¡). Un sinvivir agotador.

Asistimos -evidentemente las cabras tiran al monte- a todo lo que pudimos sobre el eje de Dspace 7, que ya en pasadas conferencias había ido cogiendo impulso, pero que en el OR2019, explotó. Hasta 25 actividades contamos, principalmente de la esperada versión 7, pero también con presencia de Dspace 6. Hubo de todo: presentaciones introductorias, actividades de promoción, talleres de manejo de las nuevas interfaces, uso de docker, proyectos como el interesante desarrollo de GLAMpipe u otros… Un mes después de regresar de Hamburgo aún estamos elaborando lo visto y escuchado.

En el ir y venir entre salas de conferencia, nos desviamos para atender a (casi) todo lo que se dijo sobre los nuevos servicios OpenAIRE. Además de un workshop de un día completo de duración impartido por una buena parte del equipo de OpenAIRE (buena elección del comité del congreso), hubo comunicaciones específicas sobre el Dashboard, así como sobre su nueva política de adquisición de contenidos. Muy ilustrativo.

Y para los que nos conocéis, sabéis que intentamos aportar alguna experiencia a los congresos que asistimos. En esta ocasión, por partida doble. En primer lugar, una presentación del proyecto «DSpace-ORCID integration: name authority control solution at the European University Institute» que las responsables del repositorio Cadmus hicieron de una compleja integración que realizamos el año pasado. El vídeo se encuentra disponible aquí

Y en segundo lugar, presentamos conjuntamente con los responsables del repositorio de la Universidad de Huelva, el póster «Adapting repositories to OpenAire 4 Guidelines: Huelva repository, a case study«. El texto e imagen sobre esta adaptación tempranera, lo podéis ver en http://eprints.rclis.org/38797/.

Magnífica edición del Open Repositories¡¡¡

Extracción automática de términos MeSH-DeCS en repositorios de ciencias de la salud: el caso de RUNA

En las jornadas Bibliosalud 2019, (Hospital Universitario Central de Asturias, 4 y 5 de Abril de 2019) presentamos un póster, realizado conjuntamente con Carmen Rodríguez Otero de Bibliosaúde-Biblioteca Virtual do Sistema Sanitario Público de Galicia, sobre los sistemas de extracción automatizada de palabras clave aplicados a repositorios temáticos.

Sigue el texto explicativo y extendido del póster. (También disponible en http://eprints.rclis.org/34448/)

Introducción

Para administrar y mejorar las búsquedas en la literatura biomédica, la Biblioteca Nacional de Medicina de EE.UU. (NLM®) desarrolló el vocabulario controlado Medical Subject Heading (MeSH). La clasificación temática basada en vocabularios se ha identificado como uno de los factores principales en las estrategias de búsqueda y recuperación de documentos.

Desafortunadamente, dada su naturaleza especializada, la asignación manual de términos MeSH a artículos biomédicos es una tarea compleja, subjetiva y que requiere mucho tiempo, por lo que los sistemas de extracción automatizada de palabras clave (AKE) se convierten en soluciones evidentes para su incorporación a sistemas que necesitan describir y manejar miles de documentos, como son los repositorios.

En el póster se muestra la solución incorporada en el repositorio RUNA, repositorio institucional del Sistema Público de Salud de Galicia para facilitar la clasificación temática sobre vocabularios temáticos (MeSH-DeCS).

Se describe de forma específica el sistema de extracción automatica de términos de documentos y cómo se ha integrado dicha solución en el flujo de archivo de documentos en el repositorio para posibilitar el complemento por catalogadores expertos y así mejorar la calidad de la descripción temática efectuada.

Metodología
El sistema construido se integra en el flujo de autoarchivo de los documentos del repositorio, con el fin de unir las ventajas del procesamiento automático con la existencia de un experto que realice la selección de los términos efectivamente usados. En este sentido el subsistema extractor automatizado se visiona como un pre-tratamiento del documento que propone términos de clasificación, que deberán luego ser validados y rechazados por el usuario experto del repositorio.

En primer lugar el documento, normalmente en formato PDF o en formatos tipo WORD, etc.. , es convertido a formato simple textual (txt). Este paso del proceso no sirve únicamente para normalizar la entrada documental al sistema extractor sino que el fichero transformado es usado también por el indexador a texto completo del repositorio RUNA.

A partir de ese fichero «simple» se realiza una primera selección de términos candidatos, con extracción de todas de las frases, palabras, términos y conceptos susceptibles de ser descriptores.

Sigue un proceso de puntuación y selección de términos. Todos los términos candidatos son puntuados combinando las propiedades de los términos (p.ej, su pertenencia al título del documento) con tecnicas de aprendizaje-máquina (machine learning techniques) para determinar la probabilidad de que un elemento sea un término clave. El sistema está configurado para proponer, a la finalización de este proceso un número determinado de términos. En la implementación específica que se ha realizado del motor de extracción, los elementos extraídos deben pertenecer al vocabulario MeSH-DeCS.

Los elementos extraídos se presentan al personal catalogador que en base a su experiencia puede aceptarlos, rechazarlos o añadir nuevos términos, como en un proceso normal de flujo de ingesta al repositorio, finalizando así el proceso de aceptación del documento en RUNA.

Como aspecto complementario, el sistema se inicializa mediante el suministro de un número suficiente de documentos, a modo de corpus, y sus correspondientes metadataciones temáticas realizadas por un experto. El motor de extracción realiza un primer ajuste de las probabilidades de los términos, efectuando así su aprendizaje inicial.

Igualmente, aunque no se ha implementado aún en RUNA, el flujo continuo de las selecciones, revisiones y aprobaciones efectuadas por el personal catalogador pueden ser usados para realimentar el motor de extracción, evolucionando las probabilidades asignadas a cada término y mejorando así la calidad de las propuestas automáticas.

La solución descrita, además del software Dspace del repositorio RUNA, se basa en Maui, un extractor de software libre (licencia GPL). Maui es el acrónimo de Multi-purpose automatic topic indexing, Indexador de tópicos automático y multi-propósito, un software diseñado por la doctora Alyona Medelyan

El núcleo de Maui es el sistema de aprendizaje-máquina denominado WEKA, que a su vez incorpora el algoritmo KEA de extracción de palabras clave.

Resultados y Conclusiones
El sistema construido automatiza la extracción, descripción e indexado de términos tópicos sobre los documentos incorporados al repositorio RUNA. Además de efectuar una extracción automática, permite que el personal experto en catalogación seleccione (y añada/corrija si así lo considera) los términos MeSH-DeCS mas adecuados, mejorando así la calidad y precisión de la catalogación del documento.

Los sistemas de extracción automática de palabras clave pueden considerarse un complemento que facilite de manera eficiente la precisión de la catalogación temática de los documentos incorporados a los repositorios temáticos.

Proceso de extracción

¿y cómo es realmente el proceso de implantar DSpace?

Una pregunta recurrente en organizaciones que se están planteando la instalación de un repositorio institucional es qué pasos dar.  Ya hace muchos años que el   Manual LEADIRS II. Cómo crear un Repositorio Institucional, nos orientaba sobre todas las consideraciones a tener en cuenta a la hora de acometer un proyecto de este estilo, pero queríamos dar una visión más concisa basada en nuestra experiencia con muchos de ustedes.

Un aspecto principal a tener en cuenta en una implantación de Dspace es que los requisitos afloran muy progresivamente en la vida del proyecto, según los usuarios van ajustando y trasladando los  modelos mentales conceptuales y las necesidades de la organización en requisitos y funcionalidades Dspace.  Por esto desaconsejamos un modelo tradicional de toma de requisitos–> documento de requisitos–> desarrollo–> implantación… Mas bien el modelo sería iterativo, con una primera fase para cubrir los requisitos que ya se hayan explicitado y uno o varios ciclos posteriores para llevar el repositorio a puntos posteriores de adaptación a las necesidades de la institución…

Así, un plan constará de una fase inicial de toma de requisitos, incepción, en donde se identifican los parámetros principales de la instalación: equipamiento disponible hw/sw,  tipo de objetos, estructura general de grupos-autorizaciones, origen de contenidos, necesidades de migración de contenidos,  estructura de colecciones, interfaces con otros aplicativos, necesidades de recolección (harvesting) de/desde, integración con sistemas de autenticación, licenciamiento, gestión de derechos, y alguna cosa más… Parece mucho, pero en realidad es una fase bastante ligera…

En este punto se está en condiciones de construir y configurar una instalación base, comprobando que los aspectos técnicos se cumplen. Si no se requieren desarrollos, en un plazo breve se debería tener una instancia DSpace razonablemente operativa. Además, se aprovecha para identificar y dimensionar, si acaso, los posibles desarrollos a efectuar.

En paralelo se trabaja en configurar/parametrizar la estructura lógica de Dspace, mediante una serie de ciclos de evolución de colecciones, usuarios, metadatos, etc….  Nuestra experiencia nos dice que los usuarios agotan todo el tiempo disponible, y más, pero si la estructura de las colecciones es simple (colección:  entendida como el conjunto de especificaciones de objetos-metadatos-permisos-pantallas de envío y de revisión)  o la tenéis ya pensada, pues se puede hacer razonablemente rápido.  No es intensivo en trabajo, pero podría dar lugar a períodos de implantación largos. Esa es la mala noticia. La buena es que por lo general no forma parte del camino crítico de una puesta en producción, ya que las actividades de ajuste «fino» se pueden hacer tras la puesta en producción, si así se determina…

Cuando el paso anterior está al 80%… ya se podría proceder a la carga inicial de contenidos, si existen, puesto que aportarán un valor inmediato a los usuarios. La carga de datos en general da problemas, porque se aprovecha para hacer revisión del material existente, complementar metadatos, etc… Señalaremos que al ser un proceso ad-hoc (aunque Dspace tenga herramientas específicas) pues siempre hay que inventar o reinventar algo.

En cuanto a cambiar la apariencia o look&feel, aspecto siempre recomendable, siempre se va mas rápido si nos adherimos  al libro de estilo intitucional…si no, pues habrá que acometer un diseño especifico…

Y ya se está listo para salir en producción (y listos para acometer otras fases de evolución y crecimiento del repositorio), aunque antes hay que proceder a aprender y formar y divulgar internamente… como casi cualquier proyecto complejo.

Nos adaptamos al RGPD

No queremos ser menos que todas las webs que se están actualizando con nuevas políticas de privacidad. Por eso te explicamos de la manera más simple cómo y para qué usamos tus datos.

Hemos creado una página en que te contamos qué datos obtenemos cuando navegas por nuestro blog y para qué usamos esos datos. Usamos las cookies míinimas para saber cuantas visitas hemos tenido, cómo evolluciona la web, o desde qué sitio nos leeis, ni más ni menos.  Tambien te explicamos cómo controlar la información que esas cookies recogen. Tu decisión cuenta en cómo se usa la web y que datos se recogen.

Igualmente, como indica el RGPD, te informamos en esta página de cuáles son tus derechos en lo relativo a tus datos personales, y cómo ejercitarlos

Te recomendamos que te tomes uno minutos y leas en esas dos páginas la información sobre las políticas de privacidad y las políticas de cookies.

Preservación e integridad de ficheros en DSpace

La preservación y la integridad de los ficheros almacenados en un sistema Dspace preocupan con frecuencia, y con razón, a los gestores de los repositorios. Intentaremos despejar las dudas más frecuentes sobre el comportamiento del software DSpace al respecto.

Una función hash es, básicamente, un algoritmo criptográfico que aplicado a un fichero produce como resultado una cadena alfanumérica única, permitiendo determinar, por comparación con valores anteriores de la cadena,  los cambios en el mismo, la integridad del fichero. DSpace realiza el  cálculo del valor hash de cada fichero almacenado en el sistema, incluidos los ficheros de licencia, etc.. Cuando se sube un fichero (en los cambios de estado submitted, approved y made available), se calcula automáticamente su valor hash, almacenándose en la tabla de bitstreams:

arvo.pdf   checksum: d4c4979a5f4f34f6158a2620f0d5710c (MD5)

license_rdf   checksum: 603b6a1a20b0b67b338ea745cbacb74f (MD5)

¿Y qué sucede entonces ante la modificación de un fichero? Para responder a esta pregunta, en primer lugar debemos aclarar que en DSpace un fichero en realidad no se modifica, sino que se sustituye por otro diferente (borrándose el antiguo o versionándolo) calculándose automáticamente el hash del nuevo fichero y generándose una nueva entrada en la tabla de bitstreams. Con este proceso se asegura que la integridad de cada fichero queda reflejada en la tabla bitstreams.

Parte de esta información se graba adicionalmente en el metadato dc.description.provenance. Importante tener en cuenta que este metadato sólo se graba en la subida inicial del fichero, no en las acciones de borrado o sustitución de fichero que pudieran ser realizadas posteriormente por un administrador.

dc.description.provenance Submitted by xxxxxx  (name@mail.com) on 2008-02-11T11:46:16Z No. of bitstreams: 1 RSCAS_DL_2005.pdf: 185727 bytes, checksum: 4d46d9280e930bf6a024f6d39f3a74bb (MD5)

Existe además el comando checker  (cuya ejecución se programa normalmente a intervalos regulares mediante crons) que permite comprobar que los hash de los ficheros no han cambiado y cuyo resultado y fecha de ejecución se almacenan en la tabla ckecksum_history:

[dspace]/bin/dspace checker

Adicionalmente, podríamos reseñar que en los logs de DSpace se registran las acciones realizadas sobre los bitstreams (añadir nuevos y borrar los existentes) y los usuarios que las han realizado. Pero hay que señalar que interpretar los logs directamente es una tarea bastante ardua que requiere del análisis de ingentes cantidades de datos sobre la historia/logs del repositorio. Una vía que no nos atreveríamos a recomendar.

En caso de detectarse la alteración o algún problema con un fichero, se deberá recurrir a un backup del assetstore  (o mas infrecuentemente, backups AIP).  Este no es un proceso de DSpace propiamente dicho, sino de las políticas de recuperación de cada repositorio. Cada repositorio deberá plantearse los modos y medios de recuperación de la información ante eventuales pérdidas.

Finalmente, señalar que DSpace no comprueba la existencia de virus en los ficheros de forma estándar, pero mediante la implantación de módulos específicos es posible analizar los ficheros del repositorio en busca de virus, avisando a publicadores y administradores de potenciales riesgos en sus ficheros y eventualmente restringiendo el archivo de los mismos.

¿y si empezamos a adaptar los repositorios a OpenAIRE 4 ?

OpenAIRE publicó en noviembre de 2017 para su consulta pública antes de su aplicación efectiva, las especificaciones OpenAIRE 4 para repositorios de publicaciones, OpenAIRE 4 Guidelines for Literature Repository Managers.

Esta nueva recomendación OpenAIRE, a fecha de escribir esto, aún con estatus de borrador, tiene dos objetivos principales, orientados a mejorar la calidad de la medida, control y seguimiento de los resultados de investigación: conectar correctamente los autores con su producción científica, y enlazar la información de financiación con esa producción.

Para lograr esta interoperabilidad, que de eso trata OpenAIRE, se propone un nuevo perfil de aplicación para la exposición OAI-PMH basado en Dublin Core y DataCite.

De interés en este perfil tenemos elementos ampliados de metadatación de autoría, recomendándose la inclusión de identificadores ISNI u ORCID.

<datacite:creator> 
<datacite:creatorName>Wallentin, Carl‐Johan 
</datacite:creatorName>
 <datacite:nameIdentifier 
 nameIdentifierScheme="ORCID" 
 schemeURI=“http://orcid.org"> 
 http://orcid.org/0000-0003-1983-9378 
</datacite:nameIdentifier> 
</datacite:creator>

Igualmente para la identificación de proyectos y agencias financiadoras se incorporan nuevos elementos de metadatación, fundingReference.

 <datacite:fundingReference>
 <datacite:funderName>European Commission</datacite:funderName> 
<fundingStream>H2020 Marie Skłodowska-Curie Actions</fundingStream> <datacite:funderIdentifier 
funderIdentifierType="Crossref Funder ID"> 
</datacite:funderIdentifier> 
<datacite:awardNumber>
awardURI="http://cordis.europa.eu/project/rcn/195983_en.html">660668 
</datacite:awardNumber> 
 <datacite:awardTitle>ACT against AMR</datacite:awardTitle>
</datacite:fundingReference>

No menos importante son los cambios de sintaxis de los metadatos de tipología, con inclusión de vocabularios COAR, versionados, etc..

¿Y en qué afecta a los repositorios? 

Básicamente la inclusión de ORCID, realizada ya por un número considerable de repositorios institucionales, deberá ir pareja a la adaptación del interfaz OAI-PMH al nuevo esquema de recolección oaire.  En un reciente proyecto piloto para la FECYT, hemos realizado una primera adaptación de un repositorio institucional  para esa exposición OAI-PMH. Os informaremos próximamente de este proyecto, señalando además que el código es de uso público.

Igualmente los repositorios deberán capturar información (mas) precisa sobre los proyectos y la financiación de la que se derivan los resultados de investigación. Deseamos la aparición de servicios de consulta (APIs públicas) para facilitar esta tarea a los repositorios.

¡ Una nueva etapa para el ecosistema de repositorios y recolectadores con OpenAIRE4 !

 

API de ORCID V1 y V2, acceso público

Creemos que son interesantes para los repositorios DSpace los servicios de integración que ofrece ORCID a través de su API (Application Programming Interface). La API, en su versión actual v2.0, ofrece un serie de funcionalidades que permiten a los repositorios (y otros sistemas) interactuar con ORCID.

  1. Obtener el ORCID iD
  2. Leer/recuperar datos públicos (ORCID iDs y datos autorizados por los autores)
  3. Leer/recuperar datos privados (Si los autores han concedido autorización al que accede)
  4. Notificaciones de actualización del perfil (webhooks)
  5. Notificaciones cuando ocurren cambios en los ORCID iDs que se monitorean
  6. Añadir y actualizar datos de registros ORCID
  7. Creación de nuevos registros ORCID

Sólo algunas funciones API (1 y 2) son de libre uso, la denominada API-pública, mientras que el resto están restringidas al uso por aquellas organizaciones que contribuyen a la financiación de ORCID con una cuota anual (membresía básica y premium)

 

DSpace tiene incluidas desde el año 2014, con el lanzamiento de la versión 5, algunas capacidades de integración con ORCID usando la API-Pública, que se constuyeron por Atmire en el contexto de un proyecto con la Universidad de Missouri. La funcionalidad construida permite la  consulta de identificadores correspondientes a los nombres de autor, y tras la validación,  la incorporación del identificador y otros datos del registro ORCID a DSpace. Como aspecto importante de esta integración, se realizó con la API disponible en ese momento, V1. Lamentablemente esa versión de API ha sido retirada (deprecated) y mas lamentable aún, la V2 no ha mantenido la compatibilidad con los modos de recuperación de información de la versión anterior.

Just an FYI that ORCID.org has finally deprecated the v1 API that DSpace was using to look up authors. Their mailing list announcement[0] says that as of February 1, 2018 the default API version for calls to pub.orcid.org will become v2, and that v1 will move to a new URL until March 1, 2018, but this appears to be broken currently

Los usuarios del lookup de autoridades en este momento ya no pueden validar contra ORCID, en tanto no se desarrolla y prueba el acceso a la versión 2 de la API. El impacto es bastante limitado, pues la mayoría de repositorios con ORCID iDs no validaban directamente contra la bbdd de ORCID, sino únicamente contra la bbdd de autoridades del propio repositorio, no afectando en principio a las operativas de validación de autoridades.

Os mantendremos al corriente de los avances en los desarrollos de la nueva integración de DSpace con la API v2.

Nueva versión del módulo de publicación en twitter.

A diferencia de las integraciones con capacidades 2.0 del tipo “add-this” disponibles hace tiempo en muchos repositorios, este módulo incluye la integracíón fuerte con la API de Twitter. Recientemente hemos actualizado la versión de este módulo, ahora en su versión 2.3 para permitir la publicación en diferentes perfiles twitter dependiendo de la colección de archivo, asi como para aprovechar la máximo la extensión a 280 caracteres introducida por Twitter.

El conector Twitter permite publicar en el perfil de twitter de un repositorio o una biblioteca los envíos publicados en el repositorio. La publicación se realiza en la última fase del proceso de ingesta o en fases posteriores, pues es posible re-postear un ítem cualquiera a selección del administrador, útil para destacar en cualquier momento ítems ya archivados y que pueda interesar su redifusión.

Estrenamos blog, Hablando de OJS

Fruto de nuestra actividad profesional y experiencia, lanzamos un nuevo espacio de reflexión y divulgación de información sobre OJS homólogo a nuestro blog sobre temas de DSpace, denominado Hablando de OJS

Nuestro principal objetivo es aportar información de valor a todas aquellas personas interesadas en el mundo de las publicaciones electrónicas y, especialmente, a los usuarios del sistema OJS de PKP.

Confiamos en que los temas a tratar os resulten interesantes y pedimos, de manera anticipada, vuestra participación a través del blog para enriquecer nuestro espacio de divulgación de información y conocimientos OJS.

Podréis acceder al contenido del mismo en esta dirección   http://www.arvo.es/ojs