{"id":2107,"date":"2022-12-01T00:00:23","date_gmt":"2022-11-30T23:00:23","guid":{"rendered":"https:\/\/www.arvo.es\/dspace\/?p=2107"},"modified":"2022-12-02T06:12:43","modified_gmt":"2022-12-02T05:12:43","slug":"indexacion-en-scholar-dudas-y-certezas","status":"publish","type":"post","link":"https:\/\/www.arvo.es\/dspace\/indexacion-en-scholar-dudas-y-certezas\/","title":{"rendered":"Indexaci\u00f3n en Scholar. Dudas y certezas"},"content":{"rendered":"\n<p>G<strong>oogle Scholar<\/strong>&nbsp; es en la actualidad una de las fuentes principales para la b\u00fasqueda de informaci\u00f3n publicada de \u00edndole cient\u00edfico-acad\u00e9mica.  Por ello,  la visibilidad de los contenidos de un repositorio en Scholar es de primordial importancia para la valorizaci\u00f3n del mismo. <\/p>\n\n\n\n<p>De forma simplificada, Scholar rastrea  e indexa los documentos que tengan una estructura de aspecto acad\u00e9mico. A continuaci\u00f3n, el rastreador analiza los enlaces a los metadatos, que a continuaci\u00f3n son evaluados por el algoritmo de Scholar para determinar si la informaci\u00f3n se agrega o no al \u00edndice de Scholar.<\/p>\n\n\n\n<p>Un conteo reducido de resultados indexados, la disminuci\u00f3n de los mismos en un per\u00edodo de tiempo  o incluso la desaparici\u00f3n de todos los contenidos del \u00edndice Scholar, es causa habitual de desconcierto en los responsables de los repositorios. <\/p>\n\n\n\n<p><strong>Lo que sabemos<\/strong><\/p>\n\n\n\n<p>Google y Google Scholar son dos motores de indexaci\u00f3n y b\u00fasqueda distintos, accediendo a ellos por dos URLs distintas.  Las habituales recomendaciones SEO no parece que sean efectivas para la mejora de la indexaci\u00f3n Scholar.<\/p>\n\n\n\n<p>La comunidad de desarrolladores de DSpace y el equipo de Google Scholar  han hecho un esfuerzo importante en adaptar DSpace 5, 6 y 7 a los requisitos de Scholar, trabajando conjuntamente. Es habitual el soporte y presencia de expertos de Scholar en  conferencias de Dspace, webinars de divulgaci\u00f3n, etc&#8230;, Una frase que podr\u00eda describir esa colaboraci\u00f3n ser\u00eda \u00abScholar likes Dspace\u00bb<\/p>\n\n\n\n<p>Scholar recomienda el uso de  las metaetiquetas conformes al esquema Highwire Press para la correcta indexaci\u00f3n. Una instalaci\u00f3n base de DSpace incorpora mapeos est\u00e1ndar entre Dublin core y los metatags Highwire. Si usa los metadatos \u00abhabituales\u00bb para describir sus \u00edtems en DSpace,  los  metatags Highwire ser\u00e1n razonablemente correctos. Como  DSpace hace un mapeo de los metadatos internos a las metatags usados por Scholar, si ese mapeo est\u00e1 mal configurado, habr\u00e1 errores (muchos) de indexaci\u00f3n.  <\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>&lt;meta content=\"A 13 kg meteoroid from comet 21P\/Giacobini-Zinner recorded as a bolide during the 2011 draconid outburst\" name=\"citation_title\"&gt;\n&lt;meta content=\"eng\" name=\"citation_language\"&gt;\n&lt;meta content=\"apellido;  nombre\" name=\"citation_author\"&gt;\n&lt;meta content=\"http:\/\/rabida.uhu.es\/dspace\/bitstream\/10272\/9004\/2\/A%2013%20KG.pdf\" name=\"citation_pdf_url\"&gt;\n&lt;meta content=\"2012\" name=\"citation_date\"&gt;\n&lt;meta content=\"http:\/\/rabida.uhu.es\/dspace\/handle\/10272\/9004\" name=\"citation_abstract_html_url\"&gt;<\/code><\/pre>\n\n\n\n<p><\/p>\n\n\n\n<p>Un repositorio no ser\u00e1 indexado si presenta (bastantes)<strong> errores en la indexaci\u00f3n. <\/strong> Los errores (relacionados con los metadatos) m\u00e1s habituales son<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>En general, metatags no alineados con la <a href=\"https:\/\/scholar.google.com\/intl\/es\/scholar\/inclusion.html#indexing\">especificaci\u00f3n Scholar<\/a><\/li><li>\u00cdtems sin fecha de publicaci\u00f3n o considerando dc.data.available (fecha de subida del repositorio) como el dc.date.issued. <\/li><li>\u00cdtems con lista de autores que difieren del art\u00edculo \u00abreal\u00bb. Orden de autor\u00edas cambiado o directores de tesis que aparecen como autores, etc<\/li><li>Uso de citation_date en lugar de citation_publication_date <\/li><li>Formato de fechas YYYY-MM-DD en vez del preferido por Scholar de YYYY\/MM\/DD<\/li><li>Disparidad entre los metadatos extra\u00eddos de nuestro repositorio y los extra\u00eddos de otras fuentes.<\/li><li>etc..<\/li><\/ul>\n\n\n\n<p>Adem\u00e1s, Scholar necesita poder acceder a los ficheros de contenido, por lo que otro conjunto de  errores deriva de las restricciones al acceso al bitstream o fichero (acceso cerrado, embargos, inexistencia del fichero de contenido).  Si Scholar no puede acceder al fichero, no indexa el \u00edtem. Si esta condici\u00f3n se da en muchos \u00edtems, quiz\u00e1 no indexe nada del repositorio. <\/p>\n\n\n\n<p>Relacionado con el p\u00e1rrafo anterior, Scholar penaliza los redireccionamientos de la descarga de bitstreams,  En versiones \u00abantiguas\u00bb de DSpace la forma de capturar las estad\u00edsticas de Analytics era mediante redireccionamientos, pero ya en versiones 5,x y posteriores esa \u00abt\u00e9cnica\u00bb no es necesaria. No obstante, deber\u00eda revisar que otros sistemas intermedios no est\u00e1n interfiriendo en este sentido (quiz\u00e1 estad\u00edsticas Matomo, etc&#8230;)  <\/p>\n\n\n\n<p>Adem\u00e1s de los metadatos de los art\u00edculos,  Scholar  extrae metadatos de indexaci\u00f3n analizando la primera p\u00e1gina del PDF de contenido, por lo que la funcionalidad de DSpace denominada \u00abPDF Citation Cover Page\u00bb , o equivalentes, puede afectar a las t\u00e9cnicas de extracci\u00f3n de metadatos de Scholar. Y recordamos de nuevo, el repositorio puede ser penalizado en todo o en parte  por Scholar.<\/p>\n\n\n\n<p>Un robots.txt, que referencie adecuadamente el sitemap es una excelente ayuda  para que Scholar nos localice todo el contenido. <\/p>\n\n\n\n<pre class=\"wp-block-preformatted\"><code># The FULL URL to the DSpace sitemaps\n# The http:\/\/rabida.uhu.es\/dspace will be auto-filled with the value in dspace.cfg\n# XML sitemap is listed first as it is preferred by most search engines\nSitemap: http:\/\/rabida.uhu.es\/dspace\/sitemap\nSitemap: http:\/\/rabida.uhu.es\/dspace\/htmlmap\n\n##########################\n# Default Access Group\n# (NOTE: blank lines are not allowable in a group record)\n######################<\/code><\/pre>\n\n\n\n<p><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-black-color\"><strong>Lo que sospechamos&#8230;<\/strong><\/mark><\/p>\n\n\n\n<p>Scholar es un \u00abproyecto\u00bb diferenciado, con su equipo propio (reducido, parece) y continuidad \u00abvariable\u00bb, como parte de los proyectos \u00abexperimentales\u00bb de  Google.  Esto hace que la interlocuci\u00f3n con el equipo de soporte sea a veces err\u00e1tica o dificultosa. <\/p>\n\n\n\n<p>La indexaci\u00f3n Scholar tiene mecanismos distintos de la indexaci\u00f3n habitual de Google, \u00e9sta que siempre nos parece m\u00e1gica y autom\u00e1tica. Mientras que Google indexa un sitio si lo descubre autom\u00e1ticamente o se le explicita con las herramientas de web manager, la indexaci\u00f3n Scholar parece que necesita ser \u00absolicitada\u00bb por los responsables de un repositorio.<\/p>\n\n\n\n<p>No hay una indexaci\u00f3n continua del espacio de repositorios, sino que el \u00edndice se actualiza con una periodicidad que no debe llegar a dos veces al a\u00f1o&#8230;<\/p>\n\n\n\n<p>Scholar no tiene  una declaraci\u00f3n expl\u00edcita de lo  que considera trabajos \u00aba indexar\u00bb (scholarly outputs &#8230;) La identificaci\u00f3n de contenido \u00abindexable\u00bb la realiza ponderando una serie de factores (presencia de metadatos, PDFs con texto extra\u00edble, etc..).  Si un repositorio tiene una mezcla significativa de trabajos de investigaci\u00f3n con otro tipo de material (educativos, fondo antiguo, etc..) es posible que la indexaci\u00f3n no sea efectiva o no se produzca. <\/p>\n\n\n\n<p>No conocemos casos en que Scholar haya reportado errores debido a la presencia de c\u00f3digo javascript empotrado en las p\u00e1ginas de item.  Como recomendaci\u00f3n general, evite javascript para la recuperaci\u00f3n de texto indexable (funcionalidad muy habitual en la visualizaci\u00f3n de dc.description.abstracts, por poner un ejemplo). Que no conozcamos casos de no-indexaci\u00f3n no significa que esta causa de mala-indexaci\u00f3n no sea importante.  Simplemente Scholar no lo notifica a los afectados. <\/p>\n\n\n\n<p><\/p>\n\n\n\n<p><strong>Para saber mas<\/strong><\/p>\n\n\n\n<p><a href=\"https:\/\/www.eifl.net\/resources\/webinars-dspace-and-google-scholar7\" title=\"\">Conferencia Monica Westin a EIFL<\/a>  <\/p>\n\n\n\n<p><a href=\"https:\/\/wiki.lyrasis.org\/display\/DSDOC7x\/Search+Engine+Optimization\" title=\"\">Recursos en la wiki de Dspace 7 <\/a><\/p>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Google Scholar&nbsp; es en la actualidad una de las fuentes principales para la b\u00fasqueda de informaci\u00f3n publicada de \u00edndole cient\u00edfico-acad\u00e9mica. Por ello, la visibilidad de los contenidos de un repositorio en Scholar es de primordial importancia para la valorizaci\u00f3n del &hellip;<\/p>\n<p class=\"read-more\"><a href=\"https:\/\/www.arvo.es\/dspace\/indexacion-en-scholar-dudas-y-certezas\/\">Leer m\u00e1s &raquo;<\/a><\/p>\n","protected":false},"author":9,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-2107","post","type-post","status-publish","format-standard","hentry","category-documentacion_no_tecnica"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/posts\/2107","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/comments?post=2107"}],"version-history":[{"count":9,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/posts\/2107\/revisions"}],"predecessor-version":[{"id":2120,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/posts\/2107\/revisions\/2120"}],"wp:attachment":[{"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/media?parent=2107"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/categories?post=2107"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/tags?post=2107"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}