Técnicas avanzadas de recuperación de información: Programa

Objetivos

La asignatura "Técnicas Avanzadas de Recuperación de Información" ahora también denominada "Búsqueda y Recuperación de Información", tiene como objetivo introducir al alumno en los procesos de recuperación de información, generación de colecciones, evaluación en IR, modelos de recuperación y recuperación en torno al usuario.

Introducir al alumno en los procesos de recuperación de información.
Transmitir el conocimiento de la cadena documental de la recuperación de información.
Asimilar algunos de los conceptos teóricos más importantes en la materia.
Enseñar a generar colecciones de prueba.
Enseñar a procesar y tratar los textos y contenidos de una colección de prueba.
Aplicar los modelos clásicos de recuperación de información.
Conocer y aplicar mecanismos de evaluación de los resultados.

Actividades formativas y dinámica del curso

Clases teóricas, prácticas, tutorías específicas y trabajo no presencial del estudiante.
Todas las semanas tenemos clases miércoles y jueves de 8:30 a 10:30 horas. Normalmente uno de los dos días se dedica a impartir clases teóricas y el otro para realizar prácticas.
Por otra parte, podéis descargar el libro de la asignatura con algunas mejoras y nuevos contenidos con respecto al blog disponible en: http://mblazquez.es/libros-y-manuales-de-la-documentacion-no-4-tecnicas-avanzadas-de-recuperacion-de-informacion/
Las prácticas tienen un plazo de entrega que oscila entre (7 y 10 días) determinado en el apartado de "Prácticas" del campus virtual. Este plazo es inapelable excepto por causa de fuerza mayor. No se acepta el envío de prácticas por correo electrónico, debido a que es fácil su pérdida y existe un método ordenado que es el campus virtual.
En nuestra asignatura se valora una actitud pro-activa, colaboradora, participativa y positiva por parte del alumno. De esta forma las clases se vuelven más dinámicas e interesantes para todos. Por tanto colaborad también en ello.

Evaluación

Resumen: Examen 50% + Prácticas 40% + Participación en clase y resolución de problemas 10%
Prácticas del curso. Valor total: 40% de la nota final. Las prácticas del curso son obligatorias y necesarias para valorar la adquisición de vuestro conocimiento semana a semana. El tipo de práctica principal es:

Práctica Word. Se trata de una práctica que debe ser respondida en el mismo documento de Word que se habilita desde el blog de la asignatura. Incluye las instrucciones y los espacios para responder. Este tipo de práctica requiere un tiempo de evaluación que varía entre 1 y 2 semanas desde la fecha de entrega de la práctica. (No obstante, a veces la corrección se resuelve en clase).

Participación en clase, actitud y resolución de problemas. Valor total 10% de la nota final. Si aprovechas las clases para realizar aportaciones constructivas a los temas de debate y contenidos impartidos, significará que estás realizando un correcto seguimiento de la asignatura y ello tiene también su recompensa.
Examen. Valor total: 50% de la nota final. El examen es fundamental para evaluar la asignatura, por ello supone la mitad de la nota final de la asignatura. Su contenido versa al respecto de todos los contenidos teóricos, prácticos y lecturas propuestas a lo largo de la asignatura. En cuanto al tipo de preguntas, son de tipo test, en torno a unas 30 o 40. Las respuestas incorrectas tienen una leve penalización de 0,15 pt.

Contenidos teóricos

Cadena documental de la recuperación de información
Conceptos básicos en recuperación de información
Generación de la colección
Los procesos de crawling
Procesos de depuración de código y tratamiento textual
Interfaz de consulta orientado al usuario
Modelos clásicos de recuperación
Modelo Booleano
Modelo Vectorial
Modelo Probabilístico
Modelos del Lenguaje
Evaluación de la recuperación de información
Retroalimentación por relevancia y expansión de consulta
Recuperación de información cognitiva y orientada al usuario

Contenidos prácticos

Prácticas de generación de colecciones, depuración de textos, diseño de interfaz de consulta, recuperación con modelos clásicos y evaluación de información recuperada.

Dudas, preguntas y tutorías

Todas las dudas con respecto a los contenidos de clases anteriores podéis expresarlas al final de la clase, puesto que reservaremos todos los días un espacio de 15 minutos a tal efecto. Si tenéis dudas sobre la clase que se imparte, podéis preguntar en el acto cualquier aspecto.
Si alguno se ha perdido una clase y tiene dudas con respecto a dicha clase, conviene que antes de preguntar el contenido de toda la clase anterior, se informe y estudie los contenidos impartidos. El profesor no puede darte una clase particular sólo para ti, para eso dispones de las clases regulares. Lo que sí puedo hacer es ayudarte a comprender conceptos, ideas, procesos, etc. cuestiones más precisas y concretas.
Si necesitáis una tutoría, estoy a vuestra disposición los miércoles y jueves de 11:00 a 14:00 horas. Las tutorías sirven para orientarte, darte las pistas, claves y apoyarte para explicar algo particular o concreto de los contenidos que no entendiste bien. Es conveniente que aviséis (por correo electrónico manuel.blazquez@pdi.ucm.es) cuando vais a venir y que tema vais a tratar. De esta forma, logramos situar el asunto más fácilmente y puedo gestionar mejor la atención a todos vosotros. Mi despacho se encuentra en el primer piso y es el número 103.

Referencias bibliográficas

ADAM, G.; BOURAS, C.; POULOPOULOS, V. 2009. CUTER: an Efficient Useful Text Extraction Mechanism. Disponible en: http://ru6.cti.gr/ru6/publications/3267PID838806.pdf

BAEZA YATES, R.; RIBEIRO NETO, B. 2005. Modelling: Boolean model. En: Modern Information Retrieval. Disponible en: http://grupoweb.upf.es/WRG/mir2ed/pdf/slides_chap03.pdf

BAEZA YATES, R.; RIBEIRO-NETO, B. 1999. Modern Information Retrieval. Addison Wesley.

BERRY, M.W.; BROWNE, M. 2005. Understanding search engines: mathematical modeling and text retrieval. Disponible en: http://www.bookf.net/p/7539-understanding-search-engines

BOOTH, A. D. 1967. A Law of Occurrences for Words of Low Frequency. Information and control, 10(4):386-393. Disponible en: http://www.sciencedirect.com/science/article/pii/S001999586790201X

CROFT, W. B.; HARPER, D. J. 1979. Using probabilistic models of document retrieval without relevance information. Journal of Documentation. 35(4): pp.285-295

CUNNINGHAM, H.; BONTCHEVA, K.; TABLAN, V. [et.al.] 2012. Gate: General Architecture for text engineering. Disponible en: http://gate.ac.uk/

DROST. I.; INGERSOLL, G.; MARGULIES, B. [et.al.] 2010. Apache OpenNLP. Disponible en: http://incubator.apache.org/opennlp/

FIGUEROLA, C.G.; ALONSO BERROCAL, J.L.; ZAZO RODRÍGUEZ, A.F.; RODRÍGUEZ, E. Algunas Técnicas de Clasificación Automática de Documentos. En: Cuadernos de Documentación Multimedia, (15). Disponible en: http://multidoc.rediris.es/cdm/viewarticle.php?id=28&layout=html

GANJISAFFAR. Y. 2012. Crawler4j. Disponible en: http://code.google.com/p/crawler4j/

GROSSMANY, D.A.; FRIEDER, O. 2004. Information Retrieval, Algorithms and Heuristic. Springer.

JIMÉNEZ SALAZAR, H.; PINTO, D.; ROSSO, P. 2005. Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos. En: Procesamiento del Lenguaje Natural. 35: pp. 383-390. Disponible en: http://www.sepln.org/revistaSEPLN/revista/35/47.pdf

JIMÉNEZ SALAZAR, H.; PINTO, D.; ROSSO, P. 2005. Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos. En: Procesamiento del Lenguaje Natural. 35: pp. 383-390. Disponible en: http://www.sepln.org/revistaSEPLN/revista/35/47.pdf

LÓPEZ, D. 2011. Information extraction in the WWW: technology and tools for problem solving = Extracción de información en la web, tecnología y herramientas para resolver la problemática. En: SISOB Observatorium for Science in Society based in Social Models. Disponible en: http://sisobproject.wordpress.com/2011/11/18/information-extraction-in-the-www-technology-and-tools-for-problem-solving-extraccion-de-informacion-en-la-web-tecnologia-y-herramientas-para-resolver-la-problematica

LUHN, H. P. 1958. The Automatic Creation of Literature Abstracts. IBM Journal of Research Development, 2(2): pp.159-165

LUHN, H.P. 1960. Keyword-in-context index for technical literature. American Documentation, 11(4). pp. 288–295

MANNING, C.D.; RAGHAVAN, P.; SCHÜTZE, H. 2008. Introduction to Information Retrieval. Cambridge University Press. 107-114 pp.

MARTÍNEZ COMECHE, J.A. 2006. Los modelos clásicos de recuperación de información y su vigencia. En: Tercer Seminario Hispano-Mexicano de investigación en Bibliotecología y Documentación, UNAM, Centro Universitario de Investigaciones Bibliotecológicas. pp.187-206. Disponible en: http://eprints.rclis.org/bitstream/10760/9662/1/Modelos_RI_vers_def.pdf

MOONEY, R.J.; NAHM, U.Y. 2005. Text Mining with Information Extraction. En: Multilingualism and Electronic Language Management: Proceedings of the 4th International MIDP Colloquium. pp. 141-160. Disponible en: http://www.cs.utexas.edu/~ml/papers/discotex-melm-03.pdf

NIKIC, V. 2010. Web Harvest. Disponible en: http://web-harvest.sourceforge.net/

OSWALD, D. 2006. HTML Parser. Disponible en: http://htmlparser.sourceforge.net/

PASTERNACK, J.; ROTH, D. 2009. Extracting Article Text from the Web with Maximum Subsequence Segmentation. En: WWW 2009 MADRID!, Track: XML and Web Data. Disponible en: http://www2009.eprints.org/98/1/p971.pdf

POHL, S.; ZOBEL, J.; MOFFAT, A. 2010. Extended Boolean retrieval for systematic biomedical reviews. En: ACSC '10 Proceedings of the Thirty-Third Australasian Conferenc on Computer Science - Volume 102. Disponible en: http://dl.acm.org/citation.cfm?id=1862212

POPESCU, A.M. 2007. Information Extraction from Unstructured Web Text. Disponible en: http://turing.cs.washington.edu/papers/popescu.pdf

PORTER, M.F. 1980, An algorithm for suffix stripping, Program, 14(3) pp 130−137.

PORTER, M.F. 2006. The Porter Stemming Algorithm. Disponible en: http://tartarus.org/~martin/PorterStemmer/

PORTER, M.F.; BOULTON, R. 2010. Snowball. Disponible en: http://snowball.tartarus.org/

RAMOS, J. 2003. Using TF-IDF to Determine Word Relevance in Document Queries. En: The First instructional Conference on Machine Learning. Disponible en: https://www.cs.rutgers.edu/~mlittman/courses/ml03/iCML03/papers/ramos.pdf

RIJSBERGEN, C.J. 1979. Information Retrieval. Disponible en: http://www.dcs.gla.ac.uk/Keith/Preface.html

RIJSBERGEN, C.J.; [et.al.] 1979. Information Retrieval. Disponible en: http://www.dcs.gla.ac.uk/Keith/Chapter.2/Ch.2.html

RIJSBERGEN, C.J.; Robertson S.E.; PORTER, M.F. 1980. New models in probabilistic information retrieval. London: British Library. (British Library Research and Development Report, no. 5587)

ROBERTSON, S. 2004. Understanding Inverse Document Frequency: On theoretical arguments for IDF. Journal of Documentation. Vol.60: (5), 503-520 pp.

ROBERTSON, S.E. 1977. The probability ranking principle in IR. Journal of Documentation, 33(4): pp.294-304

ROGERS, J.D.; TANIMOTO, T.T. 1960. A Computer Program for Classifying Plants. Science. pp1115-1118. Disponible: http://www.sciencemag.org/content/132/3434/1115.full.pdf

SALTON, G.; McGILL, M.J. 1983. Introduction to Modern Information Retrieval. New York: Mc Graw Hill.

SALTON, G.; WONG, A.; YANG, C.S. 1975. A vector space model for automatic indexing. En: Communications of the ACM, vol. 18, nr. 11, pp. 613–620. Disponible en: http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613-salton.pdf

SCHULTZ, C.K. 1968. H.P. Luhn: Pioneer of Information Science - Selected Works. Macmillan.

SEEGER, M. 2010. Building blocks of a scalable web crawler. Department of Computer Science and Media, Stuttgart University. Disponible en: http://blog.marc-seeger.de/assets/papers/thesis_seeger-building_blocks_of_a_scalable_webcrawler.pdf

SHARP, M. 2001. Text Mining. En: Seminar in Information Studies, Prof. Tefko Saracevic. Disponible en: http://comminfo.rutgers.edu/~msharp/text_mining.htm

SHI, S.; XING, F.; ZHU, M. [et.al.] 2009. Anchor Text Extraction for Academic Search. En: Proceedings of the 2009 Workshop on Text Citation Analysis for Scholarly Digital Libraries, ACL-IJCNLP 2009, pages 10-18. Disponible en: http://dl.acm.org/citation.cfm?doid=1699750.1699753

SINGHAL, A. 2001. Modern Information Retrieval: A Brief Overview. En: Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. Disponible en: http://singhal.info/ieee2001.pdf

SPARCK JONES, K. 1979. Search term relevance weighting given little relevante information. Journal of Documentation. 35(1): pp. 30-48

SPARCK JONES, K.; WILLET, P. 1997. Readings in Information Retrieval, San Francisco: Morgan Kaufmann.

URBIZAGÁSTEGUI ALVARADO, R. 1999. Las posibilidades de la ley de zipf en la indización automática. En: B3 Bibliotecología, Bibliotecas, Bibliotecólogos. Disponible en: http://b3.bibliotecologia.cl/ruben2.htm

URBIZAGÁSTEGUI ALVARADO, R.; RESTREPO ARANGO, C. 2011. La ley de Zipf y el punto de transición de Goffman en la indización automática. En: Investigación Bibliotecológica. 25(54): pp. 71-92. Disponible en: http://www.journals.unam.mx/index.php/ibi/article/download/27482/25470

VELASCO, I.; DÍAZ, J.; LLORÉNS, A. 1999. Algoritmo de filtrado multi-término para la obtención de relaciones jerárquicas en la construcción automática de un tesauro. En: Revista Española de Documentación Científica, 22(1): pp. 34-49 Disponible en: http://redc.revistas.csic.es/index.php/redc/article/view/333/542

VILARES, J. 2008. El Modelo Probabilístico: Características y Modelos derivados. Disponible en: http://www.grupolys.org/docencia/ln/2008-09/tutorial_modelo_probabilistico_apuntes.pdf/tutorial_modelo_probabilistico_apuntes.pdf

WENINGER, T.; HSU, W.H. 2010. Text Extraction from the Web via Text-to-Tag Ratio. Disponible en: http://www.cs.illinois.edu/homes/weninge1/pubs/WH_TIR08.pdf

YANG, E.Z. 2012. HTML Purifier. Disponible en: http://htmlpurifier.org/

ZAZO, A.F.; BERROCAL, J.L.; FIGUEROLA, C.G.; RODRÍGUEZ, E. 2004. Estudio de usuarios de Datathéke: Propuestas de mejora utilizando expansión de consultas. Disponible: http://reina.usal.es/papers/zazo2004estudio.pdf

ZIPF, G. K. 1949. Human behaviour and the principle of least effort. Addison-Wesley.

1 comentario:

FranklinCastroCruz7 de junio de 2015 a las 13:26
Como puedo formar una cadena de búsqueda automática para el contexto de modelos de layout (presentación final) de un documento generado de manera automática para su personalización.
ResponderEliminar
Respuestas

Añadir comentario

Nota: solo los miembros de este blog pueden publicar comentarios.

Técnicas avanzadas de recuperación de información

miércoles, 3 de octubre de 2012

Programa

1 comentario:

Libros recomendados

Enlaces: mi web profesional