miércoles, 21 de noviembre de 2012

Frecuencias y pesos de los términos de un documento

Para recuperar los documentos de una colección, uno de los métodos más elementales es comprobar la presencia o ausencia de las palabras que forman la cadena de consulta del usuario en cada documento, lo cual implicaría que la recuperación se mide en términos absolutos. Pero este método de recuperación (propio de la recuperación de datos) no es aplicable a los modelos booleano, vectorial y probabilístico en los que se basa la recuperación de información moderna. Por otro lado, también es posible considerar una frecuencia de aparición de los términos mayor, para denotar un documento como más idóneo para resolver la consulta del usuario. Pero en todo caso, es necesario estimar cuál es el valor de cada término de cara a la recuperación, representación y discriminación de los contenidos en el corpus documental, ya que son muchos más factores los que entran en juego.

La ponderación de los términos es el proceso que tiene como finalidad conocer la importancia de los términos para representar un documento y permitir su posterior recuperación. Esto implica que se debe determinar el poder de resolución de los términos de la colección, o lo que es lo mismo, la capacidad de los términos para representar el contenido de los documentos en la colección, que permitan identificar cuáles son relevantes o no ante la consulta del usuario. Al valor e índice que es capaz de determinar este extremo se le denomina "peso del término" o "ponderación del término" y su cálculo implica determinar la "Frecuencia de aparición del término TF" y la "Frecuencia inversa del documento para un término IDF".

Factor TF: Term Frequency = Factor TF: Frecuencia de Aparición de un Término
El factor TF es la suma de todas las ocurrencias ó el número de veces que aparece un término en un documento. A este tipo de frecuencia de aparición también se la denomina "Frecuencia de aparición relativa" por que atañe a un documento en concreto y no a toda la colección.

Factor TF
Denominación
Term Frequency = Frecuencia de aparición del término
Descripción
Es la frecuencia de aparición de un término a lo largo de un documento. Dicho de otra forma, el número de veces que este se repite en el documento, lo que permite determinar su capacidad de representación.
Finalidad
Representativa
Casos
Frecuencia de aparición TF baja. Representatividad elevada.
Frecuencia de aparición TF media.
Frecuencia de aparición TF alta. Muy baja representatividad.
Tabla1. Características del factor TF

Su cálculo se efectúa una vez el texto del documento ha sido normalizado, según los procesos de depuración mencionados en artículos anteriores. Posteriormente se lleva a cabo el conteo de las veces que el término aparece presente en el documento. De hecho en la figura1, se deja bien claro que es necesario calcular el TF de cada término en cada documento.

Figura1. Cálcula del TF de un término


Factor IDF: Inverse Document Frequency = Frecuencia Inversa del Documento para un Término
El factor IDF de un término es inversamente proporcional al número de documentos en los que aparece dicho término. Esto significa que cuanto menor sea la cantidad de documentos, así como la frecuencia absoluta de aparación del término, mayor será su factor IDF y a la inversa, cuanto mayor sea la frecuencia absoluta relativa a una alta presencia en todos los documentos de la colección, menor será su factor discriminatorio.

Factor IDF
Denominación
Inverse Document Frequency = Frecuencia Inversa del Documento para un término
Descripción
Es el coeficiente que determina la capacidad discriminatoria del término de un documento con respecto a la colección. Es decir, distinguir la homogeneidad o heterogeneidad del documento a través de sus términos.
Finalidad
Discriminatoria
Casos
Poder discriminatorio bajo. El término es genérico y aparece en la mayoría de los docs.
Poder discriminatorio medio.
Poder discriminatorio alto. El término es especializado y aparece en pocos docs.
Tabla2. Características del Factor IDF

El factor IDF es único para cada término de la colección. Esto significa que su cálculo, véase figura2, el IDF de un término dado (n) se realiza aplicando el logaritmo en base 10 de N (Número total de documentos de la colección) dividido entre la "Frecuencia de documentos para un término (n) en la colección" (o lo que es lo mismo el número de documentos de la colección en los que aparece el término (n) dado). Al valor resultante se le suma 1 para corregir los valores para los términos con IDF muy bajos (Aunque esta variación depende del sistema de recuperación).

Figura2. Cálculo del IDF de un término

Un ejemplo de aplicación de la fórmula del factor IDF, es la que se muestra a continuación, en la tabla3 de cálculo IDF. En tal caso, se calcula el IDF correspondiente a 4 términos presentes en una colección de 806.791 documentos. DF representa la frecuencia de documentos o lo que es lo mismo, el número de documentos en los que el término aparece. Finalmente se aplica la fórmula "Inverse Document Frequency", en la que se observa la cualidad potencial inversamente proporcional de la capacidad discriminatoria. Ordénese de mayor a menor los términos según su coeficiente IDF y se observará que los que mayor poder discriminatorio son los que menos valor DF tienen.

Cálculo IDF
Término
N
DF
IDF
biblioteca
806.791
18.165
2,65
archivo
6.723
3,08
documento
25.235
2,50
museo
19.241
2,62
 Tabla3. Ejemplo de cálculo IDF


Ponderación TF-IDF
El peso de un término en un documento es el producto de su frecuencia de aparición en dicho documento (TF) y su frecuencia inversa de documento (IDF) tal como refleja la figura3.

Figura3. Peso TF-IDF para un término en un documento.

Esto significa que el peso o ponderación se calcula para cada término en cada documento, tal como se muestra en la tabla4. Se puede comprobar que cada término tiene frecuencias distintas en cada documento 1, 2 y 3. Este valor se multiplica en cada caso por el factor IDF, anteriormente calculado en la tabla3. Los pesos obtenidos son denotativos de la importancia del término en cada documento y servirá a la postre para calcular otros valores indispensables para la recuperación de información en los distintos modelos booleano, vectorial y probabilístico.

Frecuencia de aparición de los términos TF
Término
Doc1
Doc2
Doc3
biblioteca
27
4
24
archivo
3
33
0
documento
14
0
17
museo
0
33
29
Cálculo de Pesos TF-IDF
biblioteca
TF-IDF(biblioteca,Doc1)
TF-IDF(biblioteca,Doc2)
TF-IDF(biblioteca,Doc3)
27 x 2,65 = 71,55
4 x 2,65 = 10,60
24 x 2,65 = 63,60

archivo
TF-IDF(archivo,Doc1)
TF-IDF(archivo,Doc2)
TF-IDF(archivo,Doc3)
3 x 3,08 = 9,24
33 x 3,08 = 101,64
0 x 3,08 = 0

documento
TF-IDF(documento,Doc1)
TF-IDF(documento,Doc2)
TF-IDF(documento,Doc3)
14 x 2,50 = 35
0 x 2,50 = 0
17 x 2,50 = 42,50

museo
TF-IDF(museo,Doc1)
TF-IDF(museo,Doc2)
TF-IDF(museo,Doc3)
0 x 2,62 = 0
33 x 2,62 = 86,46
29 x 2,62 = 75,98


Bibliografía

BERRY, M.W.; BROWNE, M. 2005. Understanding Search Engines: Mathematical modeling and text retrieval. Siam. 34-41pp.

MANNING, C.D.; RAGHAVAN, P.; SCHÜTZE, H. 2008. Introduction to Information Retrieval. Cambridge University Press. 107-114 pp.

RAMOS, J. 2003. Using TF-IDF to Determine Word Relevance in Document Queries. En: The First instructional Conference on Machine Learning. Disponible en: https://www.cs.rutgers.edu/~mlittman/courses/ml03/iCML03/papers/ramos.pdf

ROBERTSON, S. 2004. Understanding Inverse Document Frequency: On theoretical arguments for IDF. Journal of Documentation. Vol.60: (5), 503-520 pp. 

3 comentarios:

Nota: solo los miembros de este blog pueden publicar comentarios.