{"id":747,"date":"2012-08-09T17:49:13","date_gmt":"2012-08-09T17:49:13","guid":{"rendered":"http:\/\/www.arvo.es\/dspace\/?p=747"},"modified":"2012-08-22T15:40:21","modified_gmt":"2012-08-22T15:40:21","slug":"sobre-los-formatos-de-ficheros","status":"publish","type":"post","link":"https:\/\/www.arvo.es\/dspace\/sobre-los-formatos-de-ficheros\/","title":{"rendered":"Sobre los Formatos de ficheros"},"content":{"rendered":"<p>Como indica el documento <em>ISO\/TC 46\/ SC 11 Digital records preservation: Where to start Guide<\/em>, la naturaleza de los registros digitales origina una serie de desaf\u00edos que deben ser contemplados si se busca la preservaci\u00f3n de los registros en el transcurso del tiempo. Los desafios principales son:<\/p>\n<ul>\n<li>Obsolescencia y degradaci\u00f3n de los formatos f\u00edsicos (media)<\/li>\n<li>Obsolescencia de los formatos de ficheros<\/li>\n<li>Obsolescencia del software ( sistemas operativos, bases de datos, ofim\u00e1tica&#8230;)<\/li>\n<li>Obsolescencia de Hardware<\/li>\n<\/ul>\n<blockquote><p>The current rate of technological change may mean that preservation actions, such as migrating to more accessible or durable formats may be required after as little as five years. Digital preservation should therefore be addressed from as early in the object life cycle as possible, particularly as the manner in which a resource is created has a significant impact on its durability. <em>\u201cDigital Preservation: Continued access to authentic digital assets\u00bb; Briefing paper; JISC; nov 2006.<\/em><\/p><\/blockquote>\n<p>Como consecuencia, se requiere la intervenci\u00f3n casi continua y desde el primer momento, de los archivistas para preservar los contenidos digitales.<\/p>\n<p><strong>Obsolescencia de Formatos de ficheros<\/strong><\/p>\n<p>Principalmente se requiere un enfoque de anticipaci\u00f3n, puesto que continuamente aparecen nuevos formatos, aunque estudios recientes sobre repositorios cient\u00edficos de acceso abierto muestran un dominio del formato PDF y una larga cola (long tail) de otros formatos.\u00a0 \u00abCharacterising and Preserving Digital Repositories: File Format Profiles\u00bb; Steve Hitchcock and David Tarrant; 30-January-2011; Ariadne Issue 66.<\/p>\n<p>En un momento dado, una comunidad de usuarios como la que conforma nuestros repositorios Dspace podr\u00eda estar usando decenas de aplicaciones y cientos de formatos, y lo que es m\u00e1s importante, deseando efectuar dep\u00f3sitos con las menores restricciones posibles. Al fin y al cabo, \u00bfa qui\u00e9n le gusta convertir formatos?<\/p>\n<p>Los responsables\u00a0de un repositorio, si son precavidos,\u00a0deber\u00edan tener en cuenta este escenario de cambio, evoluci\u00f3n y desorden, ya que una pol\u00edtica de preservaci\u00f3n que no considere el cambio, no es una buena pol\u00edtica.<\/p>\n<p><strong>Formatos de Archivo (Archival Data Formats)<\/strong><\/p>\n<p>Uno de los elementos principales de un enfoque de preservaci\u00f3n es el uso (sugerencia, recomendaci\u00f3n u obligaci\u00f3n) de formatos de archivo que no sean propietarios (se caen los formatos ms-office y decenas de otros) y que adem\u00e1s est\u00e9n espec\u00edficamente definidos para el acceso en el largo plazo y desde diferentes plataformas tecnol\u00f3gicas.<\/p>\n<p>Entre los candidatos a formato estable para documentos t\u00edpicos, se considera\u00a0normalmente el uso del Portable Document Format (PDF) de Adobe.\u00a0Por ello nuestros repositorios est\u00e1n repletos de este formato, gusta a los usuarios y por tanto PDF es un buen candidato para formato de archivo.<\/p>\n<p>Incidentalmente,  PDF puede corresponder a Portable Document Format (Adobe),\u00a0Printer Definition File (Netware) o a Package Definition File (Microsoft Systems Management Server) y aunque posiblemente no veremos nunca por nuestros Dspaces un PDF no-Adobe, el ejemplo ilustra los riesgos de asumir la extensi\u00f3n como\u00a0indicaci\u00f3n del formato. La extensi\u00f3n del nombre de fichero de tres caracteres no est\u00e1 ni estandarizada, ni es \u00fanica, siendo adem\u00e1s interpretada diferentemente por diferentes entornos.<\/p>\n<p>Y a efectos de preservaci\u00f3n, PDF significa al menos 17 formatos diferentes de Adobe: Acrobat pdf 1.0, 1.2, 1.3,..1.7, Acrobat PDF\/A, Acrobat PDF\/X Exchange 1a:2003, etc&#8230; con estrategias de preservaci\u00f3n (migraci\u00f3n y conversi\u00f3n) igualmente diferentes. Si a esto le a\u00f1adimos las funcionalidades de protecci\u00f3n de documentos de Adobe, la amenaza de los Digital Rights Management, u otras curiosas posibilidades de este magn\u00edfico software, pues entenderemos que la tarea de preservaci\u00f3n puede ser muy complicada.<\/p>\n<blockquote><p><strong>Recomendamos:<\/strong> Asomarse un poco a a la complejidad de los formatos, y de sus efectos en la preservaci\u00f3n,  en el <a href=\"http:\/\/www.nationalarchives.gov.uk\/PRONOM\/\">registro PRONOM <\/a>de los National Archives del Reino Unido.<\/p><\/blockquote>\n<p>&nbsp;<\/p>\n<p><strong>Los formatos en Dspace<\/strong><\/p>\n<p>Por contra de otras muchas virtudes que tiene Dspace, en el asunto de formatos considero que nos ofrece poca ayuda a nuestra tarea. Expliqu\u00e9mosnos.<\/p>\n<p>DSpace usa la extensi\u00f3n de fichero como indicaci\u00f3n de la codificaci\u00f3n (formato) del fichero. En ese sentido, Dspace considera la extensi\u00f3n como un \u00abmetadato\u00bb y a partir de ah\u00ed, mediante un macheo con el format-registry, asume el formato del fichero y el nivel de soporte que se determina sobre el formato. Sobre el soporte de formatos y el format-registry en DSpace ya escribiremos un post detallado.<\/p>\n<p>Las consecuencias de esta sobre-simplificaci\u00f3n de la identificaci\u00f3n de formato son diversas, ya que podemos tener:<\/p>\n<ul>\n<li>Un \u00fanico saco para varios formatos similares y te\u00f3ricamente compatibles, pero no lo olvidemos, a efectos de preservaci\u00f3n, distintos: el caso explicado antes de los 17 formatos de Adobe PDF.<\/li>\n<li>Asignaciones incorrectas tipo 1: considerar que tenemos un Adobe\/pdf\u00a0 y en realidad estamos \u00abcustodiando\u00bb un MS-Package Definition File, o cualquier otra cosa que el autor ha decidido renombrar con esa extensi\u00f3n.<\/li>\n<li>Asignaciones incorrectas tipo 2: considerar que un fichero no est\u00e1 soportado, porque su extensi\u00f3n no corresponde a una soportada (el caso m\u00e1s obvio, los ficheros sin extensi\u00f3n)<\/li>\n<li>etc..<\/li>\n<\/ul>\n<p>Las soluciones que podemos vislumbrar, no son complejas, y est\u00e1n desde hace tiempo en la l\u00ednea de evoluci\u00f3n y <a href=\"https:\/\/jira.duraspace.org\/browse\/DS-638\">desarrollo de Dspace<\/a>, con una mezcla de tareas autom\u00e1ticas, como procesos batch o empotradas en los workflows de envio, de data profiling basadas en el software Droid (tambi\u00e9n de los National Archives del Reino Unido, qu\u00e9 b\u00e1rbaros) o el framework Jhove2 (que usa Droid para la identificaci\u00f3n de formatos) o alguna otra alternativa. <\/p>\n","protected":false},"excerpt":{"rendered":"<p>Como indica el documento ISO\/TC 46\/ SC 11 Digital records preservation: Where to start Guide, la naturaleza de los registros digitales origina una serie de desaf\u00edos que deben ser contemplados si se busca la preservaci\u00f3n de los registros en el &hellip;<\/p>\n<p class=\"read-more\"><a href=\"https:\/\/www.arvo.es\/dspace\/sobre-los-formatos-de-ficheros\/\">Leer m\u00e1s &raquo;<\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-747","post","type-post","status-publish","format-standard","hentry","category-documentacion_no_tecnica"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/posts\/747","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/comments?post=747"}],"version-history":[{"count":14,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/posts\/747\/revisions"}],"predecessor-version":[{"id":764,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/posts\/747\/revisions\/764"}],"wp:attachment":[{"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/media?parent=747"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/categories?post=747"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.arvo.es\/dspace\/wp-json\/wp\/v2\/tags?post=747"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}