英语论文网

en la gran majoria generada per editors, per a gestionarcol.leccions d’`audio. Tot i ser una tasca `ardua i procliu a errors, l’anotaci´o manual ´es lapr`actica m´es habitual. Els m`etodes basats en contingut `audio, ´es a dir, aquells algorismesque extreuen autom`aticament etiquetes descriptives de fitxers d’`audio, no s´on generalmentsuficientment madurs per a permetre una interacci´o sem`antica. En la gran majoria, elsm`etodes basats en contingut treballen amb descriptors de baix nivell, mentre que els descriptorsd’alt nivell estan m´es enll`a de les possibilitats actuals.Aquesta dissertaci´o t´e dos parts. En la primera explorem els avantatges i limitacionsd’una t`ecnica que treballa amb descriptors de baix nivell: audio fingerprinting. Provem,mitjan¸cant la implementaci´o de diversos sistemes, que l’extracci´o autom`atica de descriptorsd’`audio de baix nivell ´es suficient per resoldre una s`erie de tasques com ara identificaci´od’`audio, detecci´o de duplicats o verificaci´o d’integritat. Mostrem que els diversos sistemesde fingerprinting es poden explicar amb un marc general. Suggerim llavors que el marc odiagrama de blocs proposat, el qual comparteix molts blocs funcionals amb els cercadorsbasats en contingut, es pot extendre per acomodar cerques de semblan¸ca. No obstant aix´o,els descriptors de baix nivell no poden oferir una interacci´o sem`antica amb col.leccionsd’`audio. No ´es possible generar una descripci´o suficientment detallada com ara: aquest socorrespon a “passes r`apides d’home sobre fusta”, sin´o una descripci´o m´es a nivell de senyal.En la segona part de la tesi hipotitzem que un dels problemes que complica l’estretamentde l’interval sem`antic ´es la manca de m`etodes que incorporin coneixement de sentit com´u
vii
i que la inclusi´o d’aquest coneixement ´es un pas previ per abordar l’interval sem`antic. Pel
cas espec´ıfic d’efectes de so, proposem un sistema de descripci´o d’`audio per a qualsevol
tipus de so de manera expressiva en una format de representaci´o que puguin entendre tant
els humans com els ordinadors. Conclu¨ım la segona part amb la descripci´o d’un cercador
d’efectes de so complert que aprofita tant tecnologies basades en descriptors de baix nivell
aix´ı com tecnologies sem`antiques i que permete una avan¸cada amb col.leccions d’`audio.
viii
Resumen
Esta disertaci´on trata de b´usqueda de ´audio basada en el contenido. Espec´ıficamente, trata
de desarrollar tecnolog´ıas que permitan estrechar el int´ervalo sem´antic o “semantic gap”
que a d´ıa de hoy limita el uso masivo de motores de b´usqueda basados en contenido. Los
motores de b´usqueda de ´audio utilizan metadatos, en su mayor´ıa generado por editores,
para gestionar las colecciones de ´audio. Pese a ser una tarea ´ardua y proclive a errores,
el etiquetado manual es la pr´actica com´un. Los m´etodos basados en contenido ´audio, es
decir, aquellos algoritmos que extraen autom´aticamente etiquetas descriptivas de ficheros de
´audio, son generalmente inmaduros para proveer una interacci´on sem´antica. En su mayor´ıa,