{"id":1870,"date":"2019-04-04T15:23:22","date_gmt":"2019-04-04T14:23:22","guid":{"rendered":"http:\/\/www.arvo.es\/dspace\/?p=1870"},"modified":"2019-07-10T17:11:01","modified_gmt":"2019-07-10T16:11:01","slug":"extraccion-automatica-de-terminos-mesh-decs-en-repositorios-de-ciencias-de-la-salud-el-caso-de-runa","status":"publish","type":"post","link":"https:\/\/www.arvo.es\/dspace\/extraccion-automatica-de-terminos-mesh-decs-en-repositorios-de-ciencias-de-la-salud-el-caso-de-runa\/","title":{"rendered":"Extracci\u00f3n autom\u00e1tica de t\u00e9rminos MeSH-DeCS en repositorios de ciencias de la salud: el caso de RUNA"},"content":{"rendered":"\n<p>En las jornadas <a href=\"https:\/\/bibliosalud2019.com\/\">Bibliosalud 2019<\/a>,  (Hospital Universitario Central de Asturias,  4 y 5 de Abril de 2019)  presentamos un p\u00f3ster, realizado conjuntamente con  Carmen Rodr\u00edguez Otero  de Bibliosa\u00fade-Biblioteca Virtual do Sistema Sanitario P\u00fablico de Galicia, sobre los sistemas de  extracci\u00f3n automatizada de palabras clave aplicados a repositorios tem\u00e1ticos. <\/p>\n\n\n\n<p>Sigue el texto explicativo y extendido del p\u00f3ster.  (Tambi\u00e9n disponible en <a href=\"http:\/\/eprints.rclis.org\/34428\/\">http:\/\/eprints.rclis.org\/34448\/<\/a>)<br><\/p>\n\n\n\n<p><strong>Introducci\u00f3n<\/strong><\/p>\n\n\n\n<p>Para administrar y mejorar las b\u00fasquedas en la literatura biom\u00e9dica, la Biblioteca Nacional de Medicina de EE.UU. (NLM\u00ae) desarroll\u00f3 el vocabulario controlado Medical Subject Heading (MeSH). La clasificaci\u00f3n tem\u00e1tica basada en vocabularios se ha identificado como uno de los factores principales en las estrategias de b\u00fasqueda y recuperaci\u00f3n de documentos.   <\/p>\n\n\n\n<p>Desafortunadamente, dada su naturaleza especializada, la asignaci\u00f3n manual de t\u00e9rminos MeSH a art\u00edculos biom\u00e9dicos es una tarea compleja, subjetiva y que requiere mucho tiempo, por lo que los sistemas de extracci\u00f3n automatizada de palabras clave (AKE) se convierten en soluciones evidentes para su incorporaci\u00f3n a sistemas que necesitan describir y manejar  miles de documentos, como son los repositorios.<\/p>\n\n\n\n<p>En el  p\u00f3ster se muestra la soluci\u00f3n incorporada en el <a href=\"https:\/\/runa.sergas.gal\/\">repositorio RUNA<\/a>, repositorio institucional del Sistema P\u00fablico de Salud de Galicia  para facilitar la clasificaci\u00f3n tem\u00e1tica sobre vocabularios tem\u00e1ticos (MeSH-DeCS).<\/p>\n\n\n\n<p>Se describe de forma espec\u00edfica el sistema de extracci\u00f3n automatica de t\u00e9rminos de documentos y c\u00f3mo se ha integrado dicha soluci\u00f3n en el flujo de archivo de documentos en el repositorio para posibilitar el complemento por catalogadores expertos y as\u00ed mejorar la calidad de la descripci\u00f3n tem\u00e1tica  efectuada.<\/p>\n\n\n\n<p><strong>Metodolog\u00eda<\/strong><br>El sistema construido se integra en el flujo de autoarchivo de los documentos del repositorio, con el fin de unir las ventajas del procesamiento autom\u00e1tico con la existencia de un experto que realice la selecci\u00f3n de los t\u00e9rminos efectivamente usados. En este sentido el subsistema extractor automatizado se visiona como un pre-tratamiento del documento que propone t\u00e9rminos de clasificaci\u00f3n, que deber\u00e1n luego ser validados  y rechazados por el usuario experto del repositorio.<\/p>\n\n\n\n<p> En primer lugar el documento, normalmente en formato PDF o en formatos tipo WORD, etc.. , es convertido a formato simple textual (txt). Este paso del  proceso no sirve \u00fanicamente  para normalizar la entrada documental al sistema extractor sino que el fichero transformado es usado tambi\u00e9n por el indexador a texto completo del repositorio RUNA.<\/p>\n\n\n\n<p> A partir de ese fichero \u00absimple\u00bb se realiza una  primera selecci\u00f3n de t\u00e9rminos candidatos, con extracci\u00f3n de todas de las frases, palabras, t\u00e9rminos y conceptos susceptibles de ser descriptores.<\/p>\n\n\n\n<p>Sigue un proceso de puntuaci\u00f3n y selecci\u00f3n de t\u00e9rminos. Todos los t\u00e9rminos candidatos son puntuados combinando las propiedades de los t\u00e9rminos  (p.ej, su pertenencia al t\u00edtulo del documento) con  tecnicas de aprendizaje-m\u00e1quina (machine learning techniques)  para determinar la probabilidad de que un elemento sea un t\u00e9rmino clave.  El sistema est\u00e1 configurado para proponer, a la finalizaci\u00f3n de este proceso un n\u00famero determinado de t\u00e9rminos. En la implementaci\u00f3n  espec\u00edfica que se ha realizado del motor de extracci\u00f3n, los elementos extra\u00eddos deben pertenecer al  vocabulario MeSH-DeCS. <\/p>\n\n\n\n<p>Los elementos extra\u00eddos se presentan al personal catalogador que en base a su experiencia puede aceptarlos, rechazarlos o a\u00f1adir nuevos t\u00e9rminos, como en un proceso normal de flujo de ingesta al repositorio, finalizando as\u00ed el proceso de aceptaci\u00f3n del documento en RUNA.<\/p>\n\n\n\n<p>Como aspecto complementario, el sistema se inicializa mediante el suministro de un n\u00famero suficiente de documentos, a modo de corpus, y sus correspondientes metadataciones tem\u00e1ticas realizadas por un experto. El motor de extracci\u00f3n realiza un primer ajuste de las probabilidades de los t\u00e9rminos, efectuando as\u00ed su aprendizaje inicial.<\/p>\n\n\n\n<p>Igualmente, aunque no se ha implementado a\u00fan en RUNA, el flujo continuo de las selecciones, revisiones y aprobaciones efectuadas por el personal catalogador pueden ser usados para realimentar el motor de extracci\u00f3n, evolucionando las probabilidades asignadas a cada t\u00e9rmino y mejorando as\u00ed la calidad de las propuestas autom\u00e1ticas.<\/p>\n\n\n\n<p>La soluci\u00f3n descrita, adem\u00e1s del software Dspace del repositorio RUNA, se basa en Maui, un extractor de software libre (licencia GPL).  <a href=\"http:\/\/www.medelyan.com\/software\">Maui <\/a>es el acr\u00f3nimo de Multi-purpose automatic topic indexing, Indexador de t\u00f3picos autom\u00e1tico y multi-prop\u00f3sito, un software dise\u00f1ado por la doctora  <a href=\"http:\/\/www.medelyan.com\/news\">Alyona Medelyan<\/a><\/p>\n\n\n\n<p> El n\u00facleo de Maui es el sistema de aprendizaje-m\u00e1quina denominado WEKA, que a su vez incorpora el  algoritmo KEA  de extracci\u00f3n de palabras clave.<\/p>\n\n\n\n<p><strong>Resultados y Conclusiones<\/strong><br>El sistema construido automatiza la extracci\u00f3n, descripci\u00f3n e indexado de t\u00e9rminos t\u00f3picos sobre los documentos incorporados al repositorio RUNA. Adem\u00e1s de efectuar una extracci\u00f3n autom\u00e1tica, permite que el personal experto en catalogaci\u00f3n seleccione (y a\u00f1ada\/corrija si as\u00ed lo considera) los t\u00e9rminos MeSH-DeCS mas adecuados, mejorando as\u00ed la calidad y precisi\u00f3n de la catalogaci\u00f3n del documento.<\/p>\n\n\n\n<p>Los sistemas de extracci\u00f3n autom\u00e1tica de palabras clave pueden considerarse un complemento  que facilite de manera eficiente la precisi\u00f3n de la catalogaci\u00f3n tem\u00e1tica de los documentos incorporados a los repositorios tem\u00e1ticos. <\/p>\n\n\n\n<figure class=\"wp-block-embed-youtube wp-block-embed is-type-video is-provider-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio\"><div class=\"wp-block-embed__wrapper\">\n<iframe loading=\"lazy\" title=\"EXTRACCI\u00d3N AUTOM\u00c1TICA DE T\u00c9RMINOS MeSH-DeCS  EN REPOSITORIOS DE CIENCIAS DE LA SALUD\" width=\"620\" height=\"349\" src=\"https:\/\/www.youtube.com\/embed\/bADObbYiso8?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n<\/div><figcaption>Proceso de extracci\u00f3n<\/figcaption><\/figure>\n","protected":false},"excerpt":{"rendered":"<p>En las jornadas Bibliosalud 2019, (Hospital Universitario Central de Asturias, 4 y 5 de Abril de 2019) presentamos un p\u00f3ster, realizado conjuntamente con Carmen Rodr\u00edguez Otero de Bibliosa\u00fade-Biblioteca Virtual do Sistema Sanitario P\u00fablico de Galicia, sobre los sistemas de extracci\u00f3n &hellip;<\/p>\n<p class=\"read-more\"><a href=\"https:\/\/www.arvo.es\/dspace\/extraccion-automatica-de-terminos-mesh-decs-en-repositorios-de-ciencias-de-la-salud-el-caso-de-runa\/\">Leer m\u00e1s &raquo;<\/a><\/p>\n","protected":false},"author":9,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-1870","post","type-post","status-publish","format-standard","hentry","category-documentacion_no_tecnica"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/posts\/1870","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/comments?post=1870"}],"version-history":[{"count":8,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/posts\/1870\/revisions"}],"predecessor-version":[{"id":1890,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/posts\/1870\/revisions\/1890"}],"wp:attachment":[{"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/media?parent=1870"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/categories?post=1870"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/tags?post=1870"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}