Técnicas avanzadas de recuperación de información: Conceptos básicos en recuperación de información

La recuperación de información

Parte de la informática que estudia la recuperación de la información (no datos) de una colección de documentos escritos. Los documentos recuperados pueden satisfacer una necesidad de información de un usuario expresada normalmente en lenguaje natural. BAEZA YATES, R.; RIBEIRO-NETO, B. 1999. Modern Information Retrieval. Addison Wesley

La localización y presentación a un usuario de información relevante a una necesidad de información expresada como una pregunta. KORFHAGE, R. 1997. Information storage and retrieval. Wiley Computer

Un sistema de recuperación de información procesa archivos de registros y peticiones de información, e identifica y recupera de los archivos ciertos registros en respuesta a las peticiones de información. SALTON, G. 1989. Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Addison-Wesley

La recuperación de información se centra en la representación, almacenamiento, organización y acceso a elementos de información. Estos procesos deberían proporcionar al usuario la capacidad de acceder a la información que necesita. Sin embargo existe un problema bastante importante en lo referente a la caracterización de las necesidades de información del usuario, que no suele ser fácil de solucionar. SÁNCHEZ JIMÉNEZ, R. 2011? [Asignatura] Técnicas avanzadas de recuperación de información.

Es el proceso por el cual las demandas informativas y documentales del usuario son resueltas en un sistema de información, compuesto por un corpus documental de volumen variable, cuyo tratamiento de indexación y almacenamiento hacen posible su estructuración, interrogación y representación, por medio del empleo de algoritmos matemáticos, estadísticos y semánticos. BLÁZQUEZ, M. 2012 [Asignatura]

La consulta

Necesidad de información

Es la declaración en lenguaje natural de la información que demanda o requiere el usuario para el desempeño de sus actividades y funciones.

Formulación del usuario

Proceso racional del usuario para confeccionar la frase o sucesión de términos con los que efectuará la consulta ó interrogación del sistema.

Consulta del usuario

Es la expresión con la que se configura la demanda informativa del usuario, por regla general, en lenguaje natural, utilizando los términos y palabras que le resultan más aproximados al objeto de recuperación ó cuya previsión e intuición le sugieren un mejor aprovechamiento del sistema en su búsqueda.

Formulación del sistema

Procesamiento y reformulación de la consulta del usuario que implica su descomposición en unidades mínimas (término a término), sustitución de caracteres extraños, procesos de reducción, eliminación de palabras vacías, eliminación de signos diacríticos, sustitución y adición de términos normalizados. Finalmente una vez depurada y adaptada la consulta, se aplican los operadores booleanos y especiales propios del algoritmo de recuperación que se fuere a emplear.

Consulta del sistema

Es el resultado de la formulación del sistema partiendo de la consulta del usuario. Por regla general una sentencia de consulta optimizada para la recuperación en el sistema de información que equivale a la expresada por el usuario en lenguaje natural. Dicho de otra forma, es la traducción de la consulta del usuario a un lenguaje documental ó técnico, propio de la recuperación de información.

Expansión de consulta

Es un proceso de reformulación automática del sistema que permite añadir nuevos términos a la consulta para mejorar el contexto de la consulta original del usuario. Esto se consigue mediante procesos de clustering, que determinan la frecuencia de aparición de un grupo de términos contiguos, relacionados con la consulta del usuario, presentes en documentos clasificados dentro de un mismo ámbito temático (en el caso de análisis del contexto local) y en torno a toda la colección (en el caso de análisis del contexto global).

Patrón

Expresión sintáctica que define una serie de caracteres textuales, alfabéticos, numéricos y especiales, que se ajustarán por coincidencia en una palabra o término de un texto determinado.

Expresión regular

También conocidas como REGEXP y POSIX, son aquellas expresiones sintácticas complejas y normalizadas, compuestas a base de patrones que permiten la definición de consultas de datos en un corpus documental dado, mediante cadenas de caracteres, repeticiones y concatenaciones, establecidas por sus reglas de construcción. (Véase LEVITHAN, S.; GOYVAERTS, J. 2009. Regular Expressions Cookbook. OReilly. Disponible en: http://www.bookf.net/p/3844)

La base de conocimiento

Colección

Es sinónimo de base de conocimiento, fondo, biblioteca de documentos ó corpus documental. El concepto colección hace referencia a un compendio de documentos seleccionados previamente u obtenidos mediante métodos de minería de datos ó webcrawling.

Colección de referencia

Aquella colección utilizada para la experimentación de los modelos de recuperación de información y sus algoritmos. Ello implica la disposición de plantillas de resultados con los documentos relevantes para cada consulta de prueba, de cara a la evaluación del SRI.

Documento

Elemento básico con el que se conforman las colecciones y unidad básica de recuperación. Se considera documento a todo tipo de información independiente, artículos, monografías, sitios y páginas web, resúmenes, textos completos, etc.

Documento sustituto

Símil de un documento de una colección, fiel a sus contenidos mediante sus elementos básicos como título, resumen, frase de contextualización y URL. Se utiliza en las páginas de resultados, en procesos de visualización y representación.

TREC

Una de las colecciones de referencia más importantes a nivel internacional que contiene más de un millón de documentos y que se ha utilizado ampliamente por especialistas en recuperación de la información, en las conferencias TREC (Text REtrieval Conference. Disponible en: http://trec.nist.gov/). La colección TREC ha sido desarrollada por el NIST (National Institute of Standards and Technology. Disponible en: http://www.nist.gov/) y se ha convertido en un estándar para la comparación de modelos y algoritmos de recuperación.

Depuración e indexación

Depuración

Procesos por los que los textos de los documentos de una colección son preparados para su posterior indexación, almacenamiento y recuperación. Tales procesos son la eliminación de signos diacríticos, sustitución de caracteres especiales, escapado de comillas, supresión de caracteres no compatibles, transliteraciones, eliminación de palabras vacías, aplicación de reducción morfológica, eliminación de términos por medio de técnica de cortes de frecuencias, entre otros.

Palabras vacías

Las palabras vacías o Stopwords, son aquellas palabras cuya frecuencia de aparición en el texto del documento resulta muy elevada y cuya significación es prácticamente nula. Se consideran palabras vacías a los artículos determinados e indeterminados, preposiciones y conjunciones. Para cada idioma existe una lista de palabras vacías, que variará con respecto a otras lenguas.

Reducción

Se denomina proceso de reducción o steamming a la técnica especializada en reducir palabras a sus raíces gramaticales, suprimiendo su género, desinencia, prefijo o sufijo.

Indexación

Proceso especializado en la elaboración de un índice ordenado de todas las palabras de un texto, una vez éste fuere depurado correctamente, generando con ello un fichero inverso que almacena la posición de los términos en cada documento de la colección indexada. Este proceso de permite a bases de datos y motores de búsqueda realizar consultas rápida y sistemáticas sobre la base de conocimiento.

Fulltex

Texto completo ó Fulltext es un método de indexación por el que todas las palabras que componen el texto del documento se utilizan como términos de indexación. Existen variantes de este proceso que implica la tarea de depuración del texto previa a la indexación fulltext.

Evaluación y resultados de la recuperación

Precisión

En recuperación de información, precisión es la medida que define cuantitativamente la relación entre los documentos recuperados y su relevancia para satisfacer la consulta del usuario.

Exhaustividad

También denominado Recall es la capacidad del sistema de información para recuperar todos los documentos relevantes con respecto a la totalidad de los existentes en la colección, de acuerdo a los condicionamientos y especificaciones de la consulta del usuario.

Pertinencia

Aquel documento que añade nueva información a la previamente almacenada en la mente del usuario, que le resulta útil en el trabajo que ha propiciado la pregunta. FOSKETT, D.J. 1972. A note on the concept of relevance. Information Storage and Retrieval, vol.8, nº2. pp 77-78

El conjunto pertinente de documentos recuperados puede definirse como el subconjunto de los documentos almacenados en el sistema que es apropiado para la necesidad de información del usuario. SALTON, G. 1983. Introduction to modern information retrieval. Mc Graw Hill.

Relevancia

Un mismo documento puede ser considerado relevante, o no relevante, por dos personas distintas en función de los motivos que producen la necesidad de información o del grado de conocimiento que sobre la materia posean ambos. Llegados a un caso extremo, un mismo documento puede parecer relevante o no a la misma persona en momentos diferentes de tiempo. LANCASTER, F.W.; WARNER, A. J. 1993. Information Retrieval Today. Information Resources.

Aunque puede usarse otra terminología, la voz relevancia parece la más apropiada para indicar la relación entre un documento y una petición de información efectuada por un usuario, aunque puede resultar erróneo asumir que ese grado de relación es fijo e invariable, siendo mejor decir, que un documento ha sido juzgado como relevante a una específica petición de información. LANCASTER, F.W.; WARNER, A. J. 1993. Information Retrieval Today. Information Resources.

Es el grado de importancia y significación que concede el usuario a los resultados obtenidos en un sistema de información. BLÁZQUEZ, M. 2012 [Asignatura]. Técnicas avanzadas de recuperación de información

Rendimiento

Es un factor para la evaluación de un sistema de recuperación de información, que se obtiene evaluando la pertinencia y exhaustividad de los resultados generados por un conjunto de consultas de prueba en la colección de referencia, con respecto a las soluciones propuestas para el mismo por los especialistas.

Ranking

También denominado alineado de los documentos es el proceso de evaluación de los resultados obtenidos, tras aplicar un modelo de recuperación de información, reflejando en un coeficiente ó indicador numérico la relevancia, precisión y exhaustividad de los mismos, para una consulta dada por el usuario.

Sistema de recuperación de información

Tarea de recuperación

Aquellas rutinas algorítmicas ejecutadas por el sistema de información en respuesta a una solicitud del usuario. BAEZA YATES, R.; RIBEIRO-NETO, B. 1999. Modern Information Retrieval. Addison Wesley

Algoritmo de recuperación

Es el conjunto de métodos documentales, rutinas de tratamiento de información y procedimientos automáticos de tipo matemático-estadísticos, ya predefinidos en el funcionamiento de un programa informático, tales como la depuración, indexación, comparación de consultas, aplicación de modelos de recuperación, representación, evaluación y análisis necesarios para que el sistema de información satisfaga las necesidades de información del usuario. El orden en que se ejecutan, la casuística de la consulta y la experiencia del usuario, son factores que influyen en la ejecución de los algoritmos de recuperación, generando un grado de variabilidad en los resultados obtenidos.

Filtrado

Proceso de refinamiento y perfección de la consulta del usuario por el que se delimita, especifica ó amplía la búsqueda original, una vez que los resultados de la búsqueda satisfacen parcialmente la demanda informativa del usuario.

Coincidencia exacta

Es el mecanismo por el cual sólo los documentos que satisfacen algunos criterios y rasgos bien especificados en la consulta son recuperados y devueltos al usuario como una respuesta unívoca, cumpliéndose al 100% en sus expectativas.

Recuperación de datos

La recuperación de elementos (tuplas, los objetos, páginas Web, documentos) cuyo contenido cumple los requisitos especificados en una consulta de usuario basada en expresión regular ó por coincidencia de patrones. BAEZA YATES, R.; RIBEIRO-NETO, B. 1999. Modern Information Retrieval. Addison Wesley

Minería de datos

La extracción de nuevos datos, documentos ó información parcial de cualquier tipo, mediante métodos de crawling. BAEZA YATES, R.; RIBEIRO-NETO, B. 1999. Modern Information Retrieval. Addison Wesley

Clustering

Es la agrupación de documentos que satisfagan un conjunto de propiedades comunes. El objetivo es aunar aquellos documentos que están relacionados entre sí. El Clustering puede ser utilizado, por ejemplo, para expandir una consulta de usuario con nuevos términos propios del contexto de los documentos recuperados. BAEZA YATES, R.; RIBEIRO-NETO, B. 1999. Modern Information Retrieval. Addison Wesley

__________________________________________

Nota: Las definiciones recogidas en el presente glosario, han sido seleccionadas en las fuentes de información indicadas para cada caso. Las definiciones sin fuente prescrita a su término, corresponden a (BLÁZQUEZ, M. 2012 [Asignatura]. Técnicas avanzadas de recuperación de información) estando basadas en la lectura de la bibliografía referida en la asignatura.

Técnicas avanzadas de recuperación de información

jueves, 11 de octubre de 2012

Conceptos básicos en recuperación de información

1 comentario:

Libros recomendados

Enlaces: mi web profesional