miércoles, 3 de octubre de 2012

Programa

Objetivos
La asignatura "Técnicas Avanzadas de Recuperación de Información" ahora también denominada "Búsqueda y Recuperación de Información",  tiene como objetivo introducir al alumno en los procesos de recuperación de información, generación de colecciones, evaluación en IR, modelos de recuperación y recuperación en torno al usuario.
  • Introducir al alumno en los procesos de recuperación de información.
  • Transmitir el conocimiento de la cadena documental de la recuperación de información.
  • Asimilar algunos de los conceptos teóricos más importantes en la materia.
  • Enseñar a generar colecciones de prueba.
  • Enseñar a procesar y tratar los textos y contenidos de una colección de prueba.
  • Aplicar los modelos clásicos de recuperación de información.
  • Conocer y aplicar mecanismos de evaluación de los resultados. 

Actividades formativas y dinámica del curso
  • Clases teóricas, prácticas, tutorías específicas y trabajo no presencial del estudiante.
  • Todas las semanas tenemos clases miércoles y jueves de 8:30 a 10:30 horas. Normalmente uno de los dos días se dedica a impartir clases teóricas y el otro para realizar prácticas.
  • Por otra parte, podéis descargar el libro de la asignatura con algunas mejoras y nuevos contenidos con respecto al blog disponible en: http://mblazquez.es/libros-y-manuales-de-la-documentacion-no-4-tecnicas-avanzadas-de-recuperacion-de-informacion/
  • Las prácticas tienen un plazo de entrega que oscila entre (7 y 10 días) determinado en el apartado de "Prácticas" del campus virtual. Este plazo es inapelable excepto por causa de fuerza mayor. No se acepta el envío de prácticas por correo electrónico, debido a que es fácil su pérdida y existe un método ordenado que es el campus virtual.
  • En nuestra asignatura se valora una actitud pro-activa, colaboradora, participativa y positiva por parte del alumno. De esta forma las clases se vuelven más dinámicas e interesantes para todos. Por tanto colaborad también en ello. 

Evaluación
  • Resumen: Examen 50% + Prácticas 40% + Participación en clase y resolución de problemas 10%
  • Prácticas del curso. Valor total: 40% de la nota final. Las prácticas del curso son obligatorias y necesarias para valorar la adquisición de vuestro conocimiento semana a semana. El tipo de práctica principal es:
    • Práctica Word. Se trata de una práctica que debe ser respondida en el mismo documento de Word que se habilita desde el blog de la asignatura. Incluye las instrucciones y los espacios para responder. Este tipo de práctica requiere un tiempo de evaluación que varía entre 1 y 2 semanas desde la fecha de entrega de la práctica. (No obstante, a veces la corrección se resuelve en clase).
  • Participación en clase, actitud y resolución de problemas. Valor total 10% de la nota final. Si aprovechas las clases para realizar aportaciones constructivas a los temas de debate y contenidos impartidos, significará que estás realizando un correcto seguimiento de la asignatura y ello tiene también su recompensa.
  • Examen. Valor total: 50% de la nota final. El examen es fundamental para evaluar la asignatura, por ello supone la mitad de la nota final de la asignatura. Su contenido versa al respecto de todos los contenidos teóricos, prácticos y lecturas propuestas a lo largo de la asignatura. En cuanto al tipo de preguntas, son de tipo test, en torno a unas 30 o 40. Las respuestas incorrectas tienen una leve penalización de 0,15 pt. 

Contenidos teóricos
  1. Cadena documental de la recuperación de información 
  2. Conceptos básicos en recuperación de información 
  3. Generación de la colección 
  4. Los procesos de crawling 
  5. Procesos de depuración de código y tratamiento textual 
  6. Interfaz de consulta orientado al usuario 
  7. Modelos clásicos de recuperación 
  8. Modelo Booleano 
  9. Modelo Vectorial 
  10. Modelo Probabilístico 
  11. Modelos del Lenguaje 
  12. Evaluación de la recuperación de información 
  13. Retroalimentación por relevancia y expansión de consulta 
  14. Recuperación de información cognitiva y orientada al usuario 

Contenidos prácticos
  • Prácticas de generación de colecciones, depuración de textos, diseño de interfaz de consulta, recuperación con modelos clásicos y evaluación de información recuperada.

Dudas, preguntas y tutorías
  • Todas las dudas con respecto a los contenidos de clases anteriores podéis expresarlas al final de la clase, puesto que reservaremos todos los días un espacio de 15 minutos a tal efecto. Si tenéis dudas sobre la clase que se imparte, podéis preguntar en el acto cualquier aspecto.
  • Si alguno se ha perdido una clase y tiene dudas con respecto a dicha clase, conviene que antes de preguntar el contenido de toda la clase anterior, se informe y estudie los contenidos impartidos. El profesor no puede darte una clase particular sólo para ti, para eso dispones de las clases regulares. Lo que sí puedo hacer es ayudarte a comprender conceptos, ideas, procesos, etc. cuestiones más precisas y concretas.
  • Si necesitáis una tutoría, estoy a vuestra disposición los miércoles y jueves de 11:00 a 14:00 horas. Las tutorías sirven para orientarte, darte las pistas, claves y apoyarte para explicar algo particular o concreto de los contenidos que no entendiste bien. Es conveniente que aviséis (por correo electrónico manuel.blazquez@pdi.ucm.es) cuando vais a venir y que tema vais a tratar. De esta forma, logramos situar el asunto más fácilmente y puedo gestionar mejor la atención a todos vosotros. Mi despacho se encuentra en el primer piso y es el número 103.

Referencias bibliográficas
  • ADAM, G.; BOURAS, C.; POULOPOULOS, V. 2009. CUTER: an Efficient Useful Text Extraction Mechanism. Disponible en: http://ru6.cti.gr/ru6/publications/3267PID838806.pdf
  • BAEZA YATES, R.; RIBEIRO NETO, B. 2005. Modelling: Boolean model. En: Modern Information Retrieval. Disponible en: http://grupoweb.upf.es/WRG/mir2ed/pdf/slides_chap03.pdf
  • BAEZA YATES, R.; RIBEIRO-NETO, B. 1999. Modern Information Retrieval. Addison Wesley.
  • BERRY, M.W.; BROWNE, M. 2005. Understanding search engines: mathematical modeling and text retrieval. Disponible en: http://www.bookf.net/p/7539-understanding-search-engines
  • BOOTH, A. D. 1967. A Law of Occurrences for Words of Low Frequency. Information and control, 10(4):386-393. Disponible en: http://www.sciencedirect.com/science/article/pii/S001999586790201X
  • CROFT, W. B.; HARPER, D. J. 1979. Using probabilistic models of document retrieval without relevance information. Journal of Documentation. 35(4): pp.285-295
  • CUNNINGHAM, H.; BONTCHEVA, K.; TABLAN, V. [et.al.] 2012. Gate: General Architecture for text engineering. Disponible en: http://gate.ac.uk/
  • DROST. I.; INGERSOLL, G.; MARGULIES, B. [et.al.] 2010. Apache OpenNLP. Disponible en: http://incubator.apache.org/opennlp/
  • FIGUEROLA, C.G.; ALONSO BERROCAL, J.L.; ZAZO RODRÍGUEZ, A.F.; RODRÍGUEZ, E. Algunas Técnicas de Clasificación Automática de Documentos. En: Cuadernos de Documentación Multimedia, (15). Disponible en: http://multidoc.rediris.es/cdm/viewarticle.php?id=28&layout=html
  • GANJISAFFAR. Y. 2012. Crawler4j. Disponible en: http://code.google.com/p/crawler4j/
  • GROSSMANY, D.A.; FRIEDER, O. 2004. Information Retrieval, Algorithms and Heuristic. Springer.
  • JIMÉNEZ SALAZAR, H.; PINTO, D.; ROSSO, P. 2005. Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos. En: Procesamiento del Lenguaje Natural. 35: pp. 383-390. Disponible en: http://www.sepln.org/revistaSEPLN/revista/35/47.pdf
  • JIMÉNEZ SALAZAR, H.; PINTO, D.; ROSSO, P. 2005. Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos. En: Procesamiento del Lenguaje Natural. 35: pp. 383-390. Disponible en: http://www.sepln.org/revistaSEPLN/revista/35/47.pdf
  • LÓPEZ, D. 2011. Information extraction in the WWW: technology and tools for problem solving = Extracción de información en la web, tecnología y herramientas para resolver la problemática. En: SISOB Observatorium for Science in Society based in Social Models. Disponible en: http://sisobproject.wordpress.com/2011/11/18/information-extraction-in-the-www-technology-and-tools-for-problem-solving-extraccion-de-informacion-en-la-web-tecnologia-y-herramientas-para-resolver-la-problematica
  • LUHN, H. P. 1958. The Automatic Creation of Literature Abstracts. IBM Journal of Research Development, 2(2): pp.159-165
  • LUHN, H.P. 1960. Keyword-in-context index for technical literature. American Documentation, 11(4). pp. 288–295
  • MANNING, C.D.; RAGHAVAN, P.; SCHÜTZE, H. 2008. Introduction to Information Retrieval. Cambridge University Press. 107-114 pp.
  • MARTÍNEZ COMECHE, J.A. 2006. Los modelos clásicos de recuperación de información y su vigencia. En: Tercer Seminario Hispano-Mexicano de investigación en Bibliotecología y Documentación, UNAM, Centro Universitario de Investigaciones Bibliotecológicas. pp.187-206. Disponible en: http://eprints.rclis.org/bitstream/10760/9662/1/Modelos_RI_vers_def.pdf
  • MOONEY, R.J.; NAHM, U.Y. 2005. Text Mining with Information Extraction. En: Multilingualism and Electronic Language Management: Proceedings of the 4th International MIDP Colloquium. pp. 141-160. Disponible en: http://www.cs.utexas.edu/~ml/papers/discotex-melm-03.pdf
  • NIKIC, V. 2010. Web Harvest. Disponible en: http://web-harvest.sourceforge.net/
  • OSWALD, D. 2006. HTML Parser. Disponible en: http://htmlparser.sourceforge.net/
  • PASTERNACK, J.; ROTH, D. 2009. Extracting Article Text from the Web with Maximum Subsequence Segmentation. En: WWW 2009 MADRID!, Track: XML and Web Data. Disponible en: http://www2009.eprints.org/98/1/p971.pdf
  • POHL, S.; ZOBEL, J.; MOFFAT, A. 2010. Extended Boolean retrieval for systematic biomedical reviews. En: ACSC '10 Proceedings of the Thirty-Third Australasian Conferenc on Computer Science - Volume 102. Disponible en: http://dl.acm.org/citation.cfm?id=1862212
  • POPESCU, A.M. 2007. Information Extraction from Unstructured Web Text. Disponible en: http://turing.cs.washington.edu/papers/popescu.pdf
  • PORTER, M.F. 1980, An algorithm for suffix stripping, Program, 14(3) pp 130−137.
  • PORTER, M.F. 2006. The Porter Stemming Algorithm. Disponible en: http://tartarus.org/~martin/PorterStemmer/
  • PORTER, M.F.; BOULTON, R. 2010. Snowball. Disponible en: http://snowball.tartarus.org/
  • RAMOS, J. 2003. Using TF-IDF to Determine Word Relevance in Document Queries. En: The First instructional Conference on Machine Learning. Disponible en: https://www.cs.rutgers.edu/~mlittman/courses/ml03/iCML03/papers/ramos.pdf
  • RIJSBERGEN, C.J. 1979. Information Retrieval. Disponible en: http://www.dcs.gla.ac.uk/Keith/Preface.html
  • RIJSBERGEN, C.J.; [et.al.] 1979. Information Retrieval. Disponible en: http://www.dcs.gla.ac.uk/Keith/Chapter.2/Ch.2.html
  • RIJSBERGEN, C.J.; Robertson S.E.; PORTER, M.F. 1980. New models in probabilistic information retrieval. London: British Library. (British Library Research and Development Report, no. 5587)
  • ROBERTSON, S. 2004. Understanding Inverse Document Frequency: On theoretical arguments for IDF. Journal of Documentation. Vol.60: (5), 503-520 pp.
  • ROBERTSON, S.E. 1977. The probability ranking principle in IR. Journal of Documentation, 33(4): pp.294-304
  • ROGERS, J.D.; TANIMOTO, T.T. 1960. A Computer Program for Classifying Plants. Science. pp1115-1118. Disponible: http://www.sciencemag.org/content/132/3434/1115.full.pdf
  • SALTON, G.; McGILL, M.J. 1983. Introduction to Modern Information Retrieval. New York: Mc Graw Hill.
  • SALTON, G.; WONG, A.; YANG, C.S. 1975. A vector space model for automatic indexing. En: Communications of the ACM, vol. 18, nr. 11, pp. 613–620. Disponible en: http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613-salton.pdf
  • SCHULTZ, C.K. 1968. H.P. Luhn: Pioneer of Information Science - Selected Works. Macmillan.
  • SEEGER, M. 2010. Building blocks of a scalable web crawler. Department of Computer Science and Media, Stuttgart University. Disponible en: http://blog.marc-seeger.de/assets/papers/thesis_seeger-building_blocks_of_a_scalable_webcrawler.pdf
  • SHARP, M. 2001. Text Mining. En: Seminar in Information Studies, Prof. Tefko Saracevic. Disponible en: http://comminfo.rutgers.edu/~msharp/text_mining.htm
  • SHI, S.; XING, F.; ZHU, M. [et.al.] 2009. Anchor Text Extraction for Academic Search. En: Proceedings of the 2009 Workshop on Text Citation Analysis for Scholarly Digital Libraries, ACL-IJCNLP 2009, pages 10-18. Disponible en: http://dl.acm.org/citation.cfm?doid=1699750.1699753
  • SINGHAL, A. 2001. Modern Information Retrieval: A Brief Overview. En: Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. Disponible en: http://singhal.info/ieee2001.pdf
  • SPARCK JONES, K. 1979. Search term relevance weighting given little relevante information. Journal of Documentation. 35(1): pp. 30-48
  • SPARCK JONES, K.; WILLET, P. 1997. Readings in Information Retrieval, San Francisco: Morgan Kaufmann.
  • URBIZAGÁSTEGUI ALVARADO, R. 1999. Las posibilidades de la ley de zipf en la indización automática. En: B3 Bibliotecología, Bibliotecas, Bibliotecólogos. Disponible en: http://b3.bibliotecologia.cl/ruben2.htm
  • URBIZAGÁSTEGUI ALVARADO, R.; RESTREPO ARANGO, C. 2011. La ley de Zipf y el punto de transición de Goffman en la indización automática. En: Investigación Bibliotecológica. 25(54): pp. 71-92. Disponible en: http://www.journals.unam.mx/index.php/ibi/article/download/27482/25470
  • VELASCO, I.; DÍAZ, J.; LLORÉNS, A. 1999. Algoritmo de filtrado multi-término para la obtención de relaciones jerárquicas en la construcción automática de un tesauro. En: Revista Española de Documentación Científica, 22(1): pp. 34-49 Disponible en: http://redc.revistas.csic.es/index.php/redc/article/view/333/542
  • VILARES, J. 2008. El Modelo Probabilístico: Características y Modelos derivados. Disponible en: http://www.grupolys.org/docencia/ln/2008-09/tutorial_modelo_probabilistico_apuntes.pdf/tutorial_modelo_probabilistico_apuntes.pdf
  • WENINGER, T.; HSU, W.H. 2010. Text Extraction from the Web via Text-to-Tag Ratio. Disponible en: http://www.cs.illinois.edu/homes/weninge1/pubs/WH_TIR08.pdf
  • YANG, E.Z. 2012. HTML Purifier. Disponible en: http://htmlpurifier.org/
  • ZAZO, A.F.; BERROCAL, J.L.; FIGUEROLA, C.G.; RODRÍGUEZ, E. 2004. Estudio de usuarios de Datathéke: Propuestas de mejora utilizando expansión de consultas. Disponible: http://reina.usal.es/papers/zazo2004estudio.pdf
  • ZIPF, G. K. 1949. Human behaviour and the principle of least effort. Addison-Wesley.

    1 comentario:

    1. Como puedo formar una cadena de búsqueda automática para el contexto de modelos de layout (presentación final) de un documento generado de manera automática para su personalización.

      ResponderEliminar

    Nota: solo los miembros de este blog pueden publicar comentarios.