jueves, 15 de noviembre de 2012

Práctica4. Indexación y recuperación con Lemur

Hasta el momento se han estudiado y probado los distintos procedimientos para la generación de una colección de documentos, su preparación, depuración y reducción de cara a la indexación. En la presente práctica se pondrá a prueba el funcionamiento de "Lemur", un indexador desarrollado por el Centro para la Recuperación Inteligente de Información, del Departamento de Ciencias de la Computación de la Universidad de Massachusetts Amherst. Este sistema permite indexar miles de documentos, aplicando  depuración de palabras vacías y stemming basados en el algoritmo de Porter y Krovetz.

Instalación de Lemur
La versión disponible de Lemur permite su instalación en S.O. Windows, incluye autoinstalador y su paradigma de desarrollo está basado en lenguaje Java. Para poder llevar a cabo la práctica, se recomienda su instalación en el directorio "Mis documentos (My documents)".


Entre los contenidos instalados figurará el directorio "User\Mis documentos\Indri 5.2\lib" en el que se encuentran los siguientes archivos ejecutables "jar", necesarios para manejar el sistema:

  • IndexUI.jar - Se utiliza para efectuar el proceso de indexación de contenidos a partir de una colección de documentos de prueba.
  • RetUI.jar - Empleado para llevar a cabo pruebas de recuperación de información sobre los contenidos indexados, permitiendo determinar la eficacia y eficiancia del proceso de indexación.

Colección de prueba
Para llevar a cabo la práctica es necesario probar una colección de prueba con "Lemur" y responder a las preguntas definidas en la plantilla correspondiente. La colección que se utilizará ha sido desarrollada específicamente para probar la capacidad de reducción, eliminación de palabras vacías y recuperación en el entorno de las noticias de actualidad de los medios de comunicación españoles, de los que se han extraido cerca de 24.000 noticias, transcritas en documentos "txt".

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.