Para recuperar los documentos de una colección, uno de los métodos más elementales es comprobar la presencia o ausencia de las palabras que forman la cadena de consulta del usuario en cada documento, lo cual implicaría que la recuperación se mide en términos absolutos. Pero este método de recuperación (propio de la recuperación de datos) no es aplicable a los modelos booleano, vectorial y probabilístico en los que se basa la recuperación de información moderna. Por otro lado, también es posible considerar una frecuencia de aparición de los términos mayor, para denotar un documento como más idóneo para resolver la consulta del usuario. Pero en todo caso, es necesario estimar cuál es el valor de cada término de cara a la recuperación, representación y discriminación de los contenidos en el corpus documental, ya que son muchos más factores los que entran en juego.
La ponderación de los términos es el proceso que tiene como finalidad conocer la importancia de los términos para representar un documento y permitir su posterior recuperación. Esto implica que se debe determinar el poder de resolución de los términos de la colección, o lo que es lo mismo, la capacidad de los términos para representar el contenido de los documentos en la colección, que permitan identificar cuáles son relevantes o no ante la consulta del usuario. Al valor e índice que es capaz de determinar este extremo se le denomina "peso del término" o "ponderación del término" y su cálculo implica determinar la "Frecuencia de aparición del término TF" y la "Frecuencia inversa del documento para un término IDF".
La ponderación de los términos es el proceso que tiene como finalidad conocer la importancia de los términos para representar un documento y permitir su posterior recuperación. Esto implica que se debe determinar el poder de resolución de los términos de la colección, o lo que es lo mismo, la capacidad de los términos para representar el contenido de los documentos en la colección, que permitan identificar cuáles son relevantes o no ante la consulta del usuario. Al valor e índice que es capaz de determinar este extremo se le denomina "peso del término" o "ponderación del término" y su cálculo implica determinar la "Frecuencia de aparición del término TF" y la "Frecuencia inversa del documento para un término IDF".
Factor TF: Term Frequency = Factor TF: Frecuencia de Aparición de un Término
El factor TF es la suma de todas las ocurrencias ó el número de veces que aparece un término en un documento. A este tipo de frecuencia de aparición también se la denomina "Frecuencia de aparición relativa" por que atañe a un documento en concreto y no a toda la colección.
Factor TF
| |
Denominación
|
Term Frequency = Frecuencia de aparición del término
|
Descripción
|
Es la frecuencia de aparición de un término a lo largo de un documento. Dicho de otra forma, el número de veces que este se repite en el documento, lo que permite determinar su capacidad de representación.
|
Finalidad
|
Representativa
|
Casos
|
Frecuencia de aparición TF baja. Representatividad elevada.
|
Frecuencia de aparición TF media.
| |
Frecuencia de aparición TF alta. Muy baja representatividad.
|
Tabla1. Características del factor TF
Su cálculo se efectúa una vez el texto del documento ha sido normalizado, según los procesos de depuración mencionados en artículos anteriores. Posteriormente se lleva a cabo el conteo de las veces que el término aparece presente en el documento. De hecho en la figura1, se deja bien claro que es necesario calcular el TF de cada término en cada documento.
Figura1. Cálcula del TF de un término
Factor IDF: Inverse Document Frequency = Frecuencia Inversa del Documento para un Término
El factor IDF de un término es inversamente proporcional al número de documentos en los que aparece dicho término. Esto significa que cuanto menor sea la cantidad de documentos, así como la frecuencia absoluta de aparación del término, mayor será su factor IDF y a la inversa, cuanto mayor sea la frecuencia absoluta relativa a una alta presencia en todos los documentos de la colección, menor será su factor discriminatorio.
Factor IDF
| |
Denominación
|
Inverse Document Frequency = Frecuencia Inversa del Documento para un término
|
Descripción
|
Es el coeficiente que determina la capacidad discriminatoria del término de un documento con respecto a la colección. Es decir, distinguir la homogeneidad o heterogeneidad del documento a través de sus términos.
|
Finalidad
|
Discriminatoria
|
Casos
|
Poder discriminatorio bajo. El término es genérico y aparece en la mayoría de los docs.
|
Poder discriminatorio medio.
| |
Poder discriminatorio alto. El término es especializado y aparece en pocos docs.
|
Tabla2. Características del Factor IDF
El factor IDF es único para cada término de la colección. Esto significa que su cálculo, véase figura2, el IDF de un término dado (n) se realiza aplicando el logaritmo en base 10 de N (Número total de documentos de la colección) dividido entre la "Frecuencia de documentos para un término (n) en la colección" (o lo que es lo mismo el número de documentos de la colección en los que aparece el término (n) dado). Al valor resultante se le suma 1 para corregir los valores para los términos con IDF muy bajos (Aunque esta variación depende del sistema de recuperación).
Figura2. Cálculo del IDF de un término
Un ejemplo de aplicación de la fórmula del factor IDF, es la que se muestra a continuación, en la tabla3 de cálculo IDF. En tal caso, se calcula el IDF correspondiente a 4 términos presentes en una colección de 806.791 documentos. DF representa la frecuencia de documentos o lo que es lo mismo, el número de documentos en los que el término aparece. Finalmente se aplica la fórmula "Inverse Document Frequency", en la que se observa la cualidad potencial inversamente proporcional de la capacidad discriminatoria. Ordénese de mayor a menor los términos según su coeficiente IDF y se observará que los que mayor poder discriminatorio son los que menos valor DF tienen.
Cálculo IDF
| |||
Término
|
N
|
DF
|
IDF
|
biblioteca
|
806.791
|
18.165
|
2,65
|
archivo
|
6.723
|
3,08
| |
documento
|
25.235
|
2,50
| |
museo
|
19.241
|
2,62
|
Tabla3. Ejemplo de cálculo IDF
Ponderación TF-IDF
El peso de un término en un documento es el producto de su frecuencia de aparición en dicho documento (TF) y su frecuencia inversa de documento (IDF) tal como refleja la figura3.
Figura3. Peso TF-IDF para un término en un documento.
Esto significa que el peso o ponderación se calcula para cada término en cada documento, tal como se muestra en la tabla4. Se puede comprobar que cada término tiene frecuencias distintas en cada documento 1, 2 y 3. Este valor se multiplica en cada caso por el factor IDF, anteriormente calculado en la tabla3. Los pesos obtenidos son denotativos de la importancia del término en cada documento y servirá a la postre para calcular otros valores indispensables para la recuperación de información en los distintos modelos booleano, vectorial y probabilístico.
Frecuencia de aparición de los términos TF
| |||
Término
|
Doc1
|
Doc2
|
Doc3
|
biblioteca
|
27
|
4
|
24
|
archivo
|
3
|
33
|
0
|
documento
|
14
|
0
|
17
|
museo
|
0
|
33
|
29
|
Cálculo de Pesos TF-IDF
| |||
biblioteca
|
TF-IDF(biblioteca,Doc1)
|
TF-IDF(biblioteca,Doc2)
|
TF-IDF(biblioteca,Doc3)
|
27 x 2,65 = 71,55
|
4 x 2,65 = 10,60
|
24 x 2,65 = 63,60
| |
archivo
|
TF-IDF(archivo,Doc1)
|
TF-IDF(archivo,Doc2)
|
TF-IDF(archivo,Doc3)
|
3 x 3,08 = 9,24
|
33 x 3,08 = 101,64
|
0 x 3,08 = 0
| |
documento
|
TF-IDF(documento,Doc1)
|
TF-IDF(documento,Doc2)
|
TF-IDF(documento,Doc3)
|
14 x 2,50 = 35
|
0 x 2,50 = 0
|
17 x 2,50 = 42,50
| |
museo
|
TF-IDF(museo,Doc1)
|
TF-IDF(museo,Doc2)
|
TF-IDF(museo,Doc3)
|
0 x 2,62 = 0
|
33 x 2,62 = 86,46
|
29 x 2,62 = 75,98
|
Bibliografía
BERRY, M.W.; BROWNE, M. 2005. Understanding Search Engines: Mathematical modeling and text retrieval. Siam. 34-41pp.
MANNING, C.D.; RAGHAVAN, P.; SCHÜTZE, H. 2008. Introduction to Information Retrieval. Cambridge University Press. 107-114 pp.
RAMOS, J. 2003. Using TF-IDF to Determine Word Relevance in Document Queries. En: The First instructional Conference on Machine Learning. Disponible en: https://www.cs.rutgers.edu/~mlittman/courses/ml03/iCML03/papers/ramos.pdf
ROBERTSON, S. 2004. Understanding Inverse Document Frequency: On theoretical arguments for IDF. Journal of Documentation. Vol.60: (5), 503-520 pp.
Muy buena explicación, gracias
ResponderEliminarSin duda, información muy útil y realmente avanzada sobre técnicas de recuperación de datos.
ResponderEliminargracias por la información.
ResponderEliminar