3.1 Introducció

3.1.1 Les metadades són dades estructurals que aporten valor informatiu per afavorir operacions més eficients aplicades als recursos o fonts de dades, operacions com la preservació, la transcodificació, l'anàlisi i la descoberta. Les metadades ofereixen el seu millor rendiment en entorns en xarxa, però són igualment necessàries en qualsevol entorn d'emmagatzematge i preservació digital.
Les metadades instrueixen els usuaris finals, siguin humans o programes informàtics, sobre com interpretar les dades. Són crucials per a la comprensió, coherència i funcionament de qualsevol relació amb un objecte arxivat en qualsevol estadi del seu cicle de vida, així com amb objectes associats o que se’n derivin.

3.1.2 En termes funcionals, és útil pensar en les metadades com a «declaracions esquematitzades sobre els recursos: esquematitzades perquè són interpretables per màquines (així com llegibles per humans); declaracions perquè impliquen una reclamació sobre un recurs per part d'un agent particular; recursos perquè qualsevol objecte identificable pot disposar de metadades associades» (Dempsey, 2005). Aquestes declaracions esquematitzades (o codificades), conegudes també com a "instàncies" de metadades, poden ser molt simples, com per exemple un identificador universal del recurs (IUR)1 definit entre claudàtors <> a manera de contenidor o embolcall i un espai de nom. Aquestes instàncies sovint esdevenen molt complexes i modulars, i poden comprendre molts contenidors dins de contenidors, embolcalls dins d’embolcalls, cadascun basat en un esquema d’espai de nom, que s’interrelacionen en diferents nivells d'un flux de treball i durant període prolongat de temps. Seria d'allò més inusual que una sola persona creés, en una sola sessió de treball, una instància de metadades definitiva i completa per a un objecte digital donat.

3.1.3 Independentment del nombre de versions d'un mateix fitxer d'àudio que es puguin crear al llarg del temps, totes les propietats significatives de l'objecte arxivable han de romandre inalterades. El mateix principi s'aplica a les metadades incrustades en l'objecte de dades (vegeu la secció 3.1.4). No obstant això, diferents metadades d'un objecte poden ser modificades amb el temps: es descobreix nova informació, les opinions i la terminologia canvien, els contribuents d'informació desapareixen, els drets expiren o són renegociats. Per tot això sovint és convenient mantenir separats els fitxers d'àudio i tots o part dels fitxers de metadades, establir-ne apropiadament les relacions entre ells i actualitzar les metadades a mesura que ho facin la informació i els recursos. Encara que és possible editar les metadades incrustades en un mateix fitxer de dades, és pesat i incòmode, a més de poc escalable i poc recomanable per a grans col·leccions. La decisió d'incrustar les metadades en els mateixos fitxers de dades o en sistemes de gestió independents dependrà en gran mesura de la mida de la col·lecció, del grau de sofisticació del sistema de gestió de les dades i de la capacitat del personal responsable de l'arxiu.

3.1.4 Les metadades es poden integrar en els mateixos fitxers d'àudio, i de fet això constitueix una solució acceptable per a sistemes d'emmagatzematge digital (DSS - Digital Storage Systems) a petita escala (vegeu la secció 7.4, sobre metadades bàsiques). El format Broadcast Wave File (BWF), estandarditzat per la UER, Unió Europea de Radiodifusió (European Broadcasting Union, EBU), és un exemple d'integració de metadades d'àudio en el mateix fitxer d'àudio. El format BWF permet l'emmagatzematge d'un nombre limitat de dades descriptives dins l'estàndard WAVE (fitxer .wav; vegeu la secció 2.8 sobre formats d'arxiu). Un avantatge d'aquesta opció d’incrustació resideix en la minimització del risc de pèrdua del vincle entre metadades i dades (àudio digital) d'un mateix objecte. El format BWF permet l'adquisició de metadades de processament, de manera que moltes de les eines associades amb aquest format poden adquirir dades i omplir amb metadades la part corresponent del chunk2 BEXT (Broadcast Extension). Les metadades poden incloure la història del procés de codificació, vagament definida en el mateix estàndard BWF, de manera que es poden documentar els processos que van dur a la creació de l'objecte de dades d'àudio digital. Això presenta similituds amb l’'entitat esdeveniment3 definida a PREMIS (vegeu 3.5.2, 3.7.3 i fig.1). En el procés de digitalització de fonts analògiques es pot usar el fragment o chunk BEXT de la capçalera del fitxer BWF per a emmagatzemar informació qualitativa sobre el contingut mateix de l'àudio. Quan es crea un objecte digital a partir de fonts ja digitals, com DAT o CD, el fragment BEXT es pot destinar a emmagatzemar el llistat d'errors que es puguin haver produït en el procés de recodificació.
A = <ANALÒGIC> Informació sobre el procés del so analògic
A = <PCM> Informació sobre el procés del so digital
F = <48000, 44100, etc.> Freqüència de mostreig [Hz]
W = <16, 18, 20, 22, 24, etc.> Paraula de dades [bits]
M = <mono, estèreo, bicanal> Mode
T = <cadena de text lliure en codi ASCII> Text per a comentaris
Camp per a la història de la codificació: BWF (http://www.ebu.ch/CMSimages/en/tec_text_r98-1999_tcm6-4709.pdf)
A = ANALÒGIC, m = Estèreo, T = Studer A820; SN1345, 19/05, Bobina; Ampex 406
A = PCM, F = 48.000, W = 24, m = Estèreo, T = Apogee PSX-100; SN1516; RME DIGI96 / 8 Pro
A = PCM, F = 48.000, W = 24, m = Estèreo, T = WAV
A = PCM, F = 48.000, W = 24, m = Estèreo, T = 2006.02.20 Dades de l'anàlisi sintàctica del fitxer (parser)
A = PCM, F = 48.000, W = 24, m = Estèreo, T = Dades de conversió del fitxer 2006.02.20; 08:10:02
Fig 1 Exemple d'interpretació de la història de codificació d'una bobina original convertida a format digital BWF mitjançant un sistema automatitzat de bases de dades. National Library of Australia.

3.1.5 La Library of Congress ha estat treballant en la formalització i expansió de diversos chunks de dades en el fitxer BWF. El document Embedded Metadata and Identifiers for Digital Audio Files and Objects: Recommendations for WAVE and BWF Files Today és la seva versió més recent, disponible a http://home.comcast.net/~cfle/AVdocs/Embed_Audio_081031.doc. L'estàndard AES X098C és un altre avenç en la documentació de metadades de procedència i processament de dades.

3.1.6 Es poden trobar molts avantatges en el fet de mantenir separats contingut (dades) i metadades si s'emmarquen en estàndards com METS (Metadata Encoding and Transmission Standard - Estàndard de Codificació i Transmissió de Metadades). Els processos d'actualització, manteniment i correcció són molt més simples en un repositori de metadades separat de les dades. L'expansió de camps de metadades per a la incorporació de nous requisits només és possible en sistemes extensibles i separats. La creació, en definitiva, d'una diversitat de nous mitjans per a la compartició de la informació requereix un dipòsit separat de metadades que puguin ser emprats per diferents sistemes. Per a grans col·leccions, el llast de mantenir metadades exclusivament en les capçaleres dels fitxers BWF resultaria insostenible. L'estàndard MPEG-7 requereix, per exemple, que el contingut d'àudio i les seves metadades descriptives estiguin separats, encara que certes descripcions (metadades descriptives) puguin ser multiplexades4 amb el contingut en forma de segments alternats de dades.

3.1.7 Evidentment, també es podria considerar l'encapsulació d'un fitxer BWF amb una informació de metadades molt més completa. Mentre la informació continguda en el fitxer BWF sigui fixa i limitada, aquesta alternativa presenta els avantatges d'ambdues opcions. Un altre exemple d'integració és la metadada present en fitxers de difusió, necessari per a verificar que l'objecte descarregat o transmès en temps real (streaming) és el desitjat. L'etiqueta ID3, emprada en fitxers amb format MP3 per descriure el contingut de la informació i interpretat avui dia per la majoria de reproductors MP3, permet un conjunt mínim de metadades descriptives. El mateix estàndard METS ha estat considerat un possible contenidor per l'empaquetament conjunt de dades i metadades, encara que la grandària potencial d'aquests documents planteja seriosos dubtes sobre la seva viabilitat.

3.1.8 S'està desenvolupant una solució general per a la separació de metadades del seu contingut (possiblement amb certa redundància si els continguts inclouen al seu torn metadades) a partir de la tasca duta a terme per diferents universitats, conjuntament amb proveïdors de la indústria informàtica com SUN Microsystems, Hewlett-Packard i IBM. El concepte és sempre emmagatzemar el recurs mitjançant dos fitxers vinculats: un d'ells, contenidor de dades, i l'altre, contenidor de les metadades associades al primer. Aquest segon fitxer ha d'incloure :

3.1.8.1 La llista d'identificadors d'acord amb els factors clau. Es tracta, de fet, d'una sèrie de metadades associades al nom (URN - Universal Resource Name) i la localització (URL - Universal Resource Location) del recurs identificat. 

3.1.8.2 Les metadades tècniques (bits per mostra, freqüència de mostreig, definició precisa del format, ontologia associada). 

3.1.8.3 Les metadades objectives (coordenades posicionals GPS, codi de temps universal UTC, número de sèrie de l'equip, operador, etc.) 

3.1.8.4 Les metadades semàntiques.

3.1.9 En resum, la majoria de sistemes han d'adoptar l'enfocament pràctic que permeti al mateix temps incrustar les metadades en els fitxers de dades i mantenir-les separadament, establint prioritats (com per exemple, quina ha de ser de les dues opcions la font primària d'informació) així com protocols (normes per al manteniment de les dades) que assegurin la integritat del recurs emmagatzemat.


1 De l'anglès URI, Universal Resource Identifier. (n. dels t.)

2 Fragment de metadades incrustades a la capçalera d'un fitxer de dades. (n. dels t.)

3 Traducció proposada de l'anglès event entity a partir del diccionari PREMIS. (n. dels t.)

4 Seqüencialment alternades en un fitxer digital. (n. dels t.)

 

_____________________________ 

<--anterior     SUMARI    següent-->

                    CAP.3