Author Archives: Emilio Lorenzo

El soporte de ORCID en Dspace 5 (y superiores)

En el anuncio a finales de 2014 de la  versión 5, figuraba entre las funcionalidades destacadas el denominado “soporte ORCID”  (para interfaces XMLUI con mirage ó mirage 2), contribución de @tmire y de la Universidad de Missouri. Esta funcionalidad se definía como:

The current product will provide a means for realtime ORCID lookup during submission of an item. A subset of ORCID metadata will be retained in a local store.

Ampliando la escueta definición anterior, diríamos que DSpace  incorpora  la capacidad de enlazar un campo de metadatación, como  dc.contributor.*,  con una consulta (lookup)  sobre la base de datos de autores orcid.org.

clipboard01La implementación estándar de ese lookup, es decir lo incluido en Dspace v5,  normaliza el nombre del autor al valor del nombre de autor orcid, le asigna una clave interna de autoridad (un id de authority control que no tiene nada que ver con el orcid-id) y crea una entrada adicional en el nuevo núcleo SOLR  de caché de autoridades, ésta si, conteniendo el orcid_id.  Por ejemplo, la entrada del autor que se seleccionó en la pantalla anterior quedaría (en formato JSON) así:

{
"id": "53577e21-cd61-4e84-ae73-400c73a60d31",
"field": "dc_contributor_author",
"value": "Lorenzo, Antonio",
"deleted": false,
"creation_date": "2016-08-17T15:02:25.323Z",
"last_modified_date": "2016-08-17T15:02:25.323Z",
"authority_type":"orcid",
"first_name": "Antonio", "last_name": "Lorenzo",
"orcid_id": "0000-0002-5831-0808",
 }

Es decir, conseguirá en un primer paso normalizar nombres (bueno, quizá es bastante), pero el orcid-id  lo tiene por ahí oculto, dentro del SOLR  y poco mas podrá aprovechar de forma fácil ese proceso de consulta-desambigüación-normalización, teniendo que recurrir a extensiones sustanciales a Dspace si se quieren incluir integraciones adicionales usando la API de orcid, como sincronización de publicaciones, uso de la autenticación, etc…

La funcionalidad base es migrable hacia atrás para versiones 4, quizá para versiones 3, y para versiones JSPUI con algún trabajo y existe una implantación adicional para aquellos valientes que se atrevieron con el módulo  Dspace-CRIS.

Señalar que además hay funciones adicionales relacionadas con la importación-exportación batch de metadatos (BME)  y  que esta funcionalidad no cambia en la versión 6 (liberada hace nada) y no está prevista su ampliación para la versión 7 (¿enero 2018?)

DSpace versión 6

Bien, la versión 6 ya está aquí, se anunció su disponibilidad el 24 de octubre y ya está lista para ser instalada…

¿y qué nos trae de nuevo la versión 6? Pues unas cuantas funcionalidades y cambios:

  • Incorporación de Hibernate, herramienta de mapeo objeto-relacional, paso necesario para poder abordad la refactorización de la API de Dspace (estamos pensando en la versión 7). Si teníais código propio que accedía a la base de datos de Dspace, posiblemente tengas que reescribirlo…
  • Se mejora el sistema de configuración de Dspace, que ahora usa la sintaxis de Apache Commons Configurations. Las configuraciones de dspace.cfg pueden recargarse sin rearrancar el Tomcat, el fichero de configuración build.properties se ha cambiado por un local.cfg  y algunas mejoras más. Algunas mejoras, pero al ser un nuevo sistema pues hay que volver a aprender la forma de hacer despliegues…
  • Se ha retirado el soporte al sistema de acceso al almacenamiento (assetstore) basado en SRB (no habia constancia de que lo usasen muchas instalaciones). Para compensar, se ha añadido soporte al sistema Amazon S3.
  • Ya no se distribuye la interfaz LNI (poco o nulo uso).  Quedará no obstante como “add-on”
  • El motor de búsqueda basado en Lucene y los métodos de browse basados en base de datos desaparecen por completo del código (deprecated, en terminología de desarrollo de software). Ya se desaconsejaba su uso en la v4, si querías usarlo daba muchísimos problemas en la V5 y se ha finalizado eliminando estos elementos de código.
  • Tenemos unos nuevos informes, denominados Healthcheck (chequeo de salud) que revisan una serie de parámetros del repositorio y pueden enviar esos informes al administrador, por correo electrónico. Nos parece un avance sobre las posibilidades de comprobación existentes en versiones anteriores.
  • Es posible exportar los resultados de una búsqueda a CSV  (en XMLUI)
  • Hay un panel de control administrativo ampliado y configurable, las opciones del control panel, crecen y crecen….
  • Se anuncia el framework de importación de metadatos (aclaremos que realmente estaba  ya funcionando e incluso documentado extensamente en la versión 5) pero parece que hacen ahora el anuncio oficial. Será porque se aprovecha este framework para posibilitar la importación de metadataciones desde Pubmed, CrossRef, ScienceDirect, que insistimos, ya se podía hacer en la versión anterior….
  • La interface REST admite los mismos métodos de autenticación que las UI (hasta ahora solo se soportaba el login-password). Parece lógico, ¿verdad? sobre todo desde que se plantea para la próxima versión desagregar DSpace de las interfaces de usuario…
  • Aparece un sistema de chequeo de metadatos (REST metadata quality control) que permite interrogar via la interface REST sobre los valores de metadatos que tenemos en nuestros ítems..¡¡¡ muy curioso el funcionamiento !!! recomendable….
  • El operador de búsqueda de Discovery pasa a ser AND (el OR causaba más preguntas de la cuenta, pero realmente el cambio es mínimo, unas lineas en un fichero de configuración)
  • Se posibilita el indexado de documentos que se escriben de derecha a izquierda (RTL), como el árabe o el hebreo.
  • Se actualiza a PDfbox 2.0 y se incluye un nuevo generador de miniaturas de PDF (por lo que ya no es necesario el xpdf)

y seguro que me dejo algo….

Novedades Dspace en la conferencia Open Repositories 2016

La Conferencia Internacional de Repositorios Abiertos (11th International Conference on Open Repositories) se acaba de celebrar la semana pasada en Dublín. Al ser uno de los eventos principales en el mundo de los repositorios, pues no nos lo pudimos perder, pues concentra un gran número de novedades, presentaciones, proyectos, comunicaciones y  asistentes, de evidente interés.

Además, la Conferencia se aprovecha para la sesión plenaria de DuraSpace, en que la dirección rinde cuentas a los miembros de la organización, ver las diapositivas de la presentación y se anunció la nueva política de transparencia y apertura, openness, de DuraSpace.

Adicionalmente se celebraron los DSpace Interest Groups,  en que se actualiza el estado del proyecto. Tim Donohue, responsable técnico del proyecto DSpace, junto con un grupo de desarrolladores proporcionó una visión de la versión 6, del proyecto DSpace-CRIS y de la nueva interface de Dspace basada en Angular2.js. Ampliaremos estos temas en otro post.

Y no acabó ahí la conferencia, pues el jueves el DSpace Steering Group hizo una presentación sobre el Estado de Dspace, hablando sobre el modelo de gobernanza, la financiación, la membresía, el papel de los diversos grupos en el ecosistema DSpace  (DCAT, Registered Service Providers, Marketing Interest Group…) y la planificación o roadmap.

En cuanto a nosotros, pues la conferencia era un lugar ideal para presentar a una audiencia especializada el módulo OPRM que os hablamos en otro post. Y alli hablamos,  junto con Pandelis Perakakis, responsable del proyecto Open Peer Review, e Isabel Bernal, de digital.CSIC. Os mantendremos informados de novedades en este módulo.
IMAG1154

Módulo Open Peer Review

Con el apoyo financiero de OpenAIRE, la organización Open Scholar ha coordinado un consorcio de 5 socios para desarrollar un módulo de Peer Review Abierto para revisar y evaluar trabajos albergados en repositorios institucionales basados en software DSpace

Open Peer review module
En este proyecto han participado:

  • DIGITAL.CSIC, el repositorio institucional del Consejo Superior de Investigaciones Científicas
  • e-IEO, repositorio del Instituto Español de Oceanografía
  • IIIA-CSIC, Instituto de Inteligencia Artificial del CSIC en Cataluña
  • SECABA, Multidisciplinary Laboratory of Library and Computer Sciences en Granada
  • Arvo Consultores

El proyecto ha sido financiado por OpenAIRE 2020, EU-Horizon2020 Grant ID 643410, y se acaba de presentar en el Jardín Botánico de Madrid, ante un numeroso grupo de responsables de repositorios institucionales e investigadores interesados en los nuevos paradigmas de revisión científica.

Señalar que iguamente se presentará en la conferencia Open Repositories 2016 de este año en Dublín.

El módulo Open Peer Review, OPRM, se puede instalar en repositorios institucionales Dspace existentes como un add-on. Los objetos digitales alojados de estos repositorios podrían entonces ser evaluados por un número ilimitado de evaludores, permitiéndo no sólo una evaluación cualitativa en forma de texto, sino también las medidas cuantitativas que serán utilizados para construir la reputación del objeto. Es importante destacar que este sistema de evaluación es abierto y transparente. Por abierto -open- queremos decir que el texto completo de las revisione está a disposición de los usuarios junto con el trabajo de investigación original. Por transparente se entiende que la identidad de los revisores se divulgará a los autores y al público. En nuestro modelo, la apertura y la transparencia son dos aspectos elementales que consideramos necesariao para abordar el problema de opiniones sesgadas o no expertas, que es inherente al modelo de revisión por pares anónimos, que se caracteriza por la falta de responsabilidad de los colaboradores.

El código del proyecto, así como sus indicaciones para la instalación,  puede encontrarse en https://github.com/arvoConsultores/Open-Peer-Review-Module/wiki

 

¿Por qué debiera interesarte la versión 6 de Dspace?

Hemos de decir que DSpace 6 es, principalmente, una versión de transición hacia la versión 7, esa esperada versión en la que sólo habrá una única interfaz de usuario. Por eso, para poder abordar una transición manejable a la V7, se ha tenido que re-escribir la mayor parte de la Java API de DSpace. Igualmente se ha mejorado el sistema de configuración, para evolucionar hacia un sistema más flexible y con capacidad de carga dinámica de las configuraciones.

Para dar una idea del esfuerzo tras este cambio, unas cifras del mismo:

      La refactorizacion de la Java API ha requerido cambiar 1,440 de los ficheros java de la apliciación DSpace.
      El Sistema Mejorado de Configuración (Enhanced Configuration System) modifica menos ficheros ¡solo 324¡¡¡ pero afecta a unas 6,000 líneas de código con el fin de lograr un sistema más flexible de configuración de Dspace.

Si a lo anterior el añadimos unos procesos de prueba de Dspace (los testhaton son una parte de este proceso…) mas intensos, pues tenemos unas cuantas buenas razones para el retraso que esta versión está sufriendo (de finales de 2015 a enero de 2016, luego al 8 de febrero y luego a una fecha indeterminada entre marzo y abril o mayo, quién sabe…)

Bien, y funcionalmente ¿qué ofrece la nueva versión?

  • Mejoras a los plugins de almacenamiento físico, incluyendo soporte para el almacenamiento Amazon S3
  • Chequeo del estado del repositorio, con informes al administrador via correo electrónico.
  • Panel de control administrativo ampliado
  • mejoras a la REST API con soporte a todos los métodos de autenticación,  Shibboleth, LDAP, etc
  • mejoras a XMLUI : importación de metadatos de fuentes externas como Pubmed y  ScienceDirect).
  • mejoras a XMLUI:  exportación de resultados de búsqueda a CSV

Posiblemente no encuentres muchas razones (funcionales) para  plantear una migración, excepto que tu versión actual sea realmente antigua y quieras recoger los frutos funcionalmente jugosos de las versiones 3, 4 y 5.

 

 

XXIII Asamblea Anual de Rebiun

Arvo participa como patrocinador en la XXIII Asamblea Anual de la Red de Bibliotecas Universitarias Españolas en la Universidad de Cantabria los días 5 y 6 de noviembre del 2014. La Asamblea Anual es el  foro nacional para planificar la organización, el funcionamiento y los objetivos de REBIUN

La Red de Bibliotecas Universitarias, está formada por las bibliotecas de las 76 universidades miembros de la Conferencia de Rectores de las Universidades Españolas (50 de ámbito universitario público y 26 de ámbito universitario privado) y el CSIC.  Sus objetivos son liderar, coordinar y dar las directrices a las bibliotecas universitarias para poder realizar proyectos conjuntos que den como respuesta nuevos retos en ámbito del aprendizaje, la docencia, la investigación y la formación.

Información detallada del evento en el siguiente enlacehttp://eventos.crue.org/event_detail/2133/detail/rebiun-2015.-xxiii-asamblea-anual-de-la-red-de-bibliotecas-universitarias.html

y puedes seguir el evento por Twitter con el hashtag 

y además en Youtube,  la conferencia inaugural  por  Ignasi Labastida, con el título “Los retos de la investigación en abierto para las universidades” en  esta dirección:  https://www.youtube.com/watch?v=sP7lB9R37Co

 

El soporte del estándar METS en DSpace

El estándar METS, Metadata Encoding and Transmission Standard, es una especificación XML que especifica los metadatos necesarios para la gestión de objetos digitales en un contexto digital así como para el intercambio entre sistemas de dichos objetos. METS se crea y diseña para proporcionar un formato relativamente simple de descripción de las actividades realizadas durante el ciclo de vida de un objeto digital.

Adicionalmente a la metadatación descriptiva interna, realizada habitualmente en Dublin Core Cualificado, el software Dspace incluye entre sus funcionalidades lo que se denomina un package disseminator and matching ingester adecuado para el tratamiento de determinados documentos METS.  La finalidad de este elemento es ayudar a los usuarios en la ingesta y exposición de los objetos DSpace usando el estándar METS.

DSpace tiene definidas pasarelas en formatos METS que usan el perfil de aplicación denominado, DspaceMETSSIPProfile,  en el que se han tomado las siguientes decisiones de diseño relevantes:

  • Los elementos de metadatación descriptiva se contemplan bajo un esquema MODS (Metadata Object Description Schema) aunque el formato METS acepta el encapsulado (wrapping) de otros esquemas, incluso coexistiendo en una única declaración.
  • Los elementos de metadatos técnicos que DSpace tiene definidos, sirven para sus propias necesidades de gestión del ciclo de vida y preservación de los objetos almacenados, lo que significa que no se contemplen objetos, eventos u agentes fuera de esas necesidades de gestión propias.  Mediante mapeo del  DSpace Content Object Model al modelo de objeto METS estos elementos se expresan usando el esquema de metadatos de preservación PREMIS. Es importante notar que el uso del PREMIS Data Dictionary no significa que DSpace soporte una implementación completa del modelo de datos PREMIS (p.ej. no usa las entidades de tipo evento)
  • Entre los elementos de metadatación administrativa, los correspondientes  derechos y autorías, si éstos son explícitos, se referencian, p.ej.  las licencias CC como rdf/xml, e incluyen en el manifiesto xml

Los creadores de este perfil METS, siguiendo criterios de simplicidad en la transferencia de información en los formatos SIP/DIP,  eran plenamente conscientes de la sobre-simplificación del mismo para una descripción completa de los AIPs:

Future use of this profile, or related profiles, to govern the creation of Archive Information Packages (AIPs) will require the inclusion of additional information to account for the larger information needs of AIPs.

Estas pasarelas o transformaciones se emplean en los siguientes ámbitos
Ingesta

  • El soporte de formatos empaquetados METS (conformes al perfil apuntado) está incluido en la herramienta de importación denominado packager
  • La interface SWORD también está adaptada para la ingesta de paquetes METS, haciendo uso del perfil especificado, mediante el plugin SWORDMETSIngester

Difusión:

  • El soporte de formatos empaquetados METS está incluido en la herramienta de exportación del packager
  • OAI-PMH, con metadataFormat METS
  • además, se expone en el interface XMLUI   (p.ej. añadiendo a la url de un item el /mets.xml)

Estas transformaciones exponen nada más que una historia parcial del ítem, no recogiendo todo el ciclo de vida de nuestro objeto digital, por otra parte desconocido para DSpace, ya que DspaceMETSSIPProfile es un perfil con objetivos diferentes de los requeridos habitualmente en los proyectos de digitalización como p.e.j:

  • Library of Congress METS Profile for Bibliographic Records
  • METS profile Biblioteca Virtual Patrimonio Bibliográfico del Ministerio de Educación y Cultura
  • METS Profile for Historical Newspapers (no registrado aún)

 

Liberada la versión 5 de DSpace

El 21 de enero de 2015 se produjo la liberación de Dspace v5.0, tras un proceso de desarrollo que arrancó hace un año, y que tuvo su pre-versión el pasado 3 de noviembre cuando comenzó el Testhaton.

Señalaríamos que incorpora una larga lista de pequeñas correcciones, pero que su característica principal son las funcionalidades añadidas (por eso es una versión, claro..) y que pasamos a revisar rápidamente:

El tema Mirage2 para XMLUI.  Bien, qué quéreis que os digamos, no es exactamente una novedad, pero es una excleente noticia su incorporación a la versión 5. El tema Mirage2 de @tmire nos gustó según lo vimos en su presentación “oficial” en el Open Repositories de Helsinki en junio de 2014. Tanto nos sedujo que lo empezamos a implantar en versiones 4 de inmediato y ya llevamos varias.

Actualización automática de datos en las migraciones a la versión 5. Simplifica la ejecución de los scripts de actualización de los esquemas de BBDD y migra los índices SOLR.  Es un avance sobre el ¿proceso? artesanal actual de migración. No se si lo pondríamos en una lista de nuestras prioridades, pero bienvenida la simplificación.

Importación de SIPs desde el interface de usuario. Pschee, la parte más compleja de una importación no es la ejecución del comando desde la UI o desde el CLI, sino la propia creación del paquete.

REST API con CRUD (Create/Read/Update/Delete). Esto ya está mejor, sobre todo porque estabilizará  el paisaje de proliferación de interfaces REST que había por el universo DSPaciero. Recordemos que aunque otras interfaces REST (la de Hedtek, p.ej.)  ya posibilitaban el Create/read/update,  lo que se necesitaba , y así se discutió en DCAT y otros foros de desarrollo, era la continuidad de las soluciones adoptadas. La api usada es la JAX-RS: Java API for RESTful Web Services.

Todos los DSpaceObjects con soporte de metadatos. Esto es interesante. Esta extensión es la que posibilitará (posibilitará, porque la interface de usuario aún no se ha extendido para poder gestionar el nuevo modelo)  flexibilizar la infraestructura de metadatos, que hasta ahora era aplicable sólo a los ítems, a las Comunidades, colecciones, e-persons, grupos, …

Soporte Linked (Open) Data mediante una interface RDF. A partir de esta versión se podrán publicar contenidos del repositorio en forma de Linked Open Data. No obstante, no todo es tan sencillo, pues la instalación de Dspace hay que complementarla con otra webapp, un Triple Store, es decir una base de datos que almacene de forma nativa el modelo RDF. El sistema, puede servir Apache Fuseki, debe soportar SPARQL 1.1 Query Language y  SPARQL 1.1 Graph Store HTTP Protocol.

Las estadisticas de Google Analytics ahora recogen las descargas de bitstreams (p.ej, las que vienen directamente de Google Scholar y que antes no se recogían como eventos) y se pueden visualizar (al menos si se usa Mirage2)

Se ha realizado una primera integración con los identificadores ORCID mediante la generación de un nuevo índice SOLR de autoridades. La clave de autoridad enlaza ahora con metadatos adicionales, entre los que se incluyen el identificador ORCID y nombres alternativos de autor. Esto sólo funciona en XMLUI, y bien, resuelve problemas de identificación de autores a las organizaciones que usan este identificador, pero no es la integración con las ORCID_API que estábamos esperando.

Y más mejoras, como la Creación de Thumbnails con ImageMagick / Ghostscript; la Autogeneración de páginas de cubierta PDF en la descarga de los objetos, la función lookup sobre SHERPA/RoMEO y alguna funcionalidad adicional, las puedes ver aquí.

 

Traducción al español de Dspace 5 (y 4) disponible

Ya está puesta a disposición de la comunidad DSpace la traducción al español de la versión 5.0 e interfaz XMLUI. El fichero messages_es.xml y el resto de ficheros de idiomas de la release está incorporado en la distribución de la versión 5.0, además de encontrarse ya disponible en el ticket jira 2233 o en el github

Así, está disponible el fichero de traducción de los mensajes correspondientes al Discovery, SwordClient y XMLWorkflow.  Recordar que desde la versión 1.8, cada módulo distribuye su propio messages.xml, separado del messages.xml principal, de manera similar a la fragmentación de los ficheros de configuración…

Además, como los ficheros de mensajes son compatibles con versiones atrasadas, pues se puede incorporar a las versiones 4 (de las que no se disponía de versión traducida)

Moviendo assetstores

Ya vimos en un post anterior qué estructura tenía el assetsore y cómo se configuraba este subsistema de DSpace, vamos a explicar ahora cómo se mueven los assetsores.  ¿Y por qué ibamos a querer mover un assetstore?,  pues puede haber múltiples razones:

  • Tenemos otro tipo de almacenamiento, más moderno, más barato, con mejor rendimiento, el assetsore estaba antes como almacenamiento de servidor y ahora lo muevo a almacenamiento en red, SAN, etc…
  • Donde lo tenemos actualmente nos está danto algún error de disco,
  • Separamos el assetstore del resto de ficheros del sistema Dspace, para facilitarnos la migración de servidores, cambio de versiones, crecimiento orgánico de la instalación, etc..

Los pasos son bien sencillos:

  • Asumiendo que sólo tenemos un assetstore y que nunca la movimos de sitio, es decir tiene la configuración inicial que viene estándar en el dspace.cfg,  (comprobarlo viendo la variable assetstore.dir). Algo así como:
 assetstore.dir = ${dspace.dir}/assetstore

tenemos que localizar en nuestro sistema de ficheros el   ${dspace.dir}/assetstore siendo  ${dspace.dir} el directorio de ejecución de dspace, otra variable de dspace.cfg….  Es un poco recursivo, pero lo localizaremos sin problemas..

  • Paramos Dspace, es decir paramos la aplicación bajo el servidor Tomcat, o todo el Tomcat si es la única aplicación bajo el servidor de aplicaciones
  • Movemos (mejor copiamos, por ahora) todos los directorios bajo  ${dspace.dir}/assetstore a la nueva localización
  • Reconfiguramos Dspace, sustituyendo assetstore.dir por el valor de la nueva localización, como  por ejemplo:
     assetstore.dir = /data/assetstore
  • Rearrancamos Dspace, y finalizada la  tarea y el post.

Advertencia: Tener cuidado con las manipulaciones al assetstore, perderlo es perder su instalación DSpace…toda precaución es poca.