lunes, 24 de octubre de 2011

Compresión y recuperación de información

En el momento de comprimir textos que vayan a ser manejados por sistemas de recuperación de información plantea algunos requisitos que eliminan el uso de algunos métodos de compresión. Uno de los más elementales es la necesidad de acceder al texto de forma aleatoria sin tener que descomprimirlo con anterioridad. Esta limitación aparta a la mayoría de los métodos adaptativos como los basados en Ziv-Lempel  y la codificación aritmética. Sin embargo, los modelos semiadaptativos como Huffman (Huf52) proveen poca compresión. A pesar de, cuando se van a comprimir textos escritos en lenguaje natural se ha expresado que una elección excelente es considerar palabras en lugar de caracteres como los símbolos de la fuente porque las palabras reflejan
la verdadera entropía del texto (BCW90)mucho mejor que los caracteres.
modelo de palabras junto con un codificador de Huffman suministra razones de compresión cercanas al 25 % debido a la distribución inclinada a las palabras. Estas razones son cuantiosamente mejores que las obtenidas con los modelos adaptativos antiguos. Estos resultados pierden ligeramente si utilizamos una codificación de Huffman orientada a byte, en la que cada símbolo de la fuente se codificación como una continuación de bytes en lugar de bits. Aunque la razones de compresión se encuentran por encima del 30 % a cambio se obtiene una velocidad de descompresión
y una búsqueda mucho más rápida, que son características esenciales y deseables en los sistemas de recuperación de información con textos comprimidos. Por último, el hecho que coincida el alfabeto y el vocabulario de las colecciones de textos permite una búsqueda eficiente y altamente sofisticada tanto en búsqueda secuencial como en los índices invertidos comprimidos sobre los textos s (WMB99, NMN+00, MNZB00, ZMNBY00, MW01).
El texto escrito en lenguaje natural no se compone solamente de palabras sino que también está constituido por caracteres de puntuación, separadores y otros caracteres especiales. La secuencia de caracteres entre cada par de palabras consecutivas se denomina separador. En [BSTW86] se propone comprimir los textos utilizando dos alfabetos de símbolos disjuntos: uno para las palabras y el otro para los separadores. Los codificación y cadores que utilicen este modelo deberán considerar los textos como una secuencia estricta de dos fuentes de datos independientes y codificarlas por separado. Una vez que se ha determinado
que el texto empieza con una palabra o un separador se sabe que después de codificar una palabra se deberá codificar un separador y viceversa. Este modelo se conoce como modelo de alfabetos separados.
"Un hecho que el modelo de alfabetos separados no tiene en cuenta es que en la mayoría de las ocasiones a una palabra le sigue un separador formado por un único espacio en blanco. Puesto que aproximadamente un 70 % de los separadores que aparecen en el texto están formado por un sólo espacio en blanco (Mof89), en (MNZB00) se propone un nuevo modelo de datos que utiliza un único alfabeto para codificación car tanto las palabras como los
separadores y representa el separador formado por un único espacio en blanco de forma implícita. A este modelo se le conoce como modelo sin espacios y, por lo tanto, supone que después de cada palabra descodificación cada aparecerá un espacio en blanco, salvo que el siguiente símbolo que se descodificación que sea un separador"


www.infor.uva.es/~jadiego/files/tesis.pdf

Joaquín Adiego Rodríguez
La estructura de los documentos en el ámbito de recuperación de información: propuestas  para su compresión, indexación y recuperación
Tesis doctoral
   

0 comentarios:

Publicar un comentario