- La equiparación parcial, esto es, la capacidad del sistema para ordenar los resultados de una búsqueda, basado en el grado de similaridad entre cada documento de la colección y la consulta.
- La ponderación de los términos en los documentos, no limitándose a señalar la presencia o ausencia de los mismos, sino adscribiendo a cada término en cada documento un número real que refleje su importancia en el documento.
- La ponderación de los términos en la consulta, de manera que el usuario puede asignar pesos a los términos de la consulta que reflejen la importancia de los mismos en relación a su necesidad informativa.
Si bien en el modelo booleano un documento de la colección puede ser representado por la presencia o ausencia de los términos indexados en el fichero diccionario de la siguiente forma...
Documento1 { 1,0,1,1,1,0,0,1,0,0,0,1,1,0,1,1 }
...en el modelo de espacio vectorial se emplea el peso de los términos para cada documento, que refleja la relevancia de los términos del documento de cara a su representatividad en la colección, adquiriendo una forma como la que sigue...
Documento1 { 1`452, 0, 2`122, 3`564, 4`123, 0, 0, 2`342, 0, 0, 0, 1`975, 4`543, 0, 6`134, 2`234 }
A este conjunto de números reales, que son los pesos, que representan al documento, se les denomina Vector del documento, permitiendo su representación en el espacio vectorial y en consecuencia, su tratamiento matemático. Por ello la formulación del vector se representa de la siguiente forma, véase tabla1.
Documento1
|
|||
Id
|
Término
|
Peso binario
|
Peso TF-IDF
|
T1
|
Clima
|
1
|
1,452
|
T2
|
Biblioteca
|
0
|
0
|
T3
|
Universidad
|
1
|
2,122
|
T4
|
Alcalá
|
1
|
3,564
|
T5
|
España
|
1
|
4,123
|
T6
|
Libros
|
0
|
0
|
T7
|
Geografía
|
0
|
0
|
T8
|
Población
|
1
|
2,342
|
T9
|
Electricidad
|
0
|
0
|
T10
|
Ciencia
|
0
|
0
|
T11
|
Social
|
0
|
0
|
T12
|
Luz
|
1
|
1,975
|
T13
|
Unamuno
|
1
|
4,543
|
T14
|
Física
|
0
|
0
|
T15
|
Fluidos
|
1
|
6,134
|
T16
|
Literatura
|
1
|
2,234
|
Vector del
documento1
|
|||
Documento1 { Clima(1,452),
Biblioteca(0), Universidad(2,122), Alcalá(3,564),
España(4,123), Libros(0), Geografía(0), Población(2,342),
Electricidad(0), Ciencia(0), Social(0), Luz(1,975),
Unamuno(4,543), Física(0), Fluidos(6,134), Literatura(2,234)
}
|
|||
Fórmula para la
representación del vector de un documento
|
|||
Tabla1. Representación del vector de un documento
Posteriormente, la colección sigue lo que se denomina un Proceso de Vectorización por el que todos los documentos son representados mediante pesos TF-IDF, la consulta del usuario también requiere de dicho tratamiento. Ello significa que se tiene que ponderar la importancia de los términos de la consulta para poder generar el Vector de la consulta del usuario. Este paso es imprescindible para poder efectuar el Proceso de Equiparación de la consulta con los documentos de la colección y determinar cuáles de ellos son más relevantes, véase tabla2.
Cadena de
consulta original del usuario
|
||||
Los libros y la
literatura de Unamuno en la biblioteca de la Universidad de Alcalá
|
||||
Depuración de la
consulta del usuario
|
||||
Libros Literatura
Unamuno Biblioteca Universidad Alcalá
|
||||
Fichero
diccionario
|
Documento1
|
q = pesos de la consulta
del usuario
|
||
Id
|
Término
|
Peso binario
|
Peso TF-IDF
|
|
T1
|
Clima
|
1
|
1,452
|
0
|
T2
|
Biblioteca
|
0
|
0
|
1,345
|
T3
|
Universidad
|
1
|
2,122
|
1,453
|
T4
|
Alcalá
|
1
|
3,564
|
1,987
|
T5
|
España
|
1
|
4,123
|
0
|
T6
|
Libros
|
0
|
0
|
2,133
|
T7
|
Geografía
|
0
|
0
|
0
|
T8
|
Población
|
1
|
2,342
|
0
|
T9
|
Electricidad
|
0
|
0
|
0
|
T10
|
Ciencia
|
0
|
0
|
0
|
T11
|
Social
|
0
|
0
|
0
|
T12
|
Luz
|
1
|
1,975
|
0
|
T13
|
Unamuno
|
1
|
4,543
|
3,452
|
T14
|
Física
|
0
|
0
|
0
|
T15
|
Fluidos
|
1
|
6,134
|
0
|
T16
|
Literatura
|
1
|
2,234
|
4,234
|
Tabla2. Obsérvese el documento1 y una consulta q dada por el usuario con sus pesos
Proceso de equiparación mediante el producto escalar
Los procesos de equiparación de los documentos de la colección con respecto a la consulta del usuario, en el modelo booleano, se efectúan mediante cálculos de similaridad. Existen muchas modalidades de comparación o equiparación mediante similaridad, en este caso se presenta una de las más sencillas por su simplicidad y sistematización inmediata. Se trata del producto escalar de los pesos, véase figura1.
Figura1. Similaridad de un documento d y la consulta q mediante producto escalar
De esta forma, la similaridad de un documento y una consulta, es igual a la suma de los productos de sus pesos. (Y no se debe olvidar que cada peso representa a un término). Este método puede aplicarse tanto a pesos binarios como a pesos TF-IDF.
Modalidad de pesos binarios
En el caso de la modalidad binaria, la similaridad de un documento con respecto a la consulta es equivalente a la presencia de los términos de la consulta en el documento, véase tabla3. Esto quiere decir que la ausencia de un término de la consulta o del documento implica un producto igual a 0 y por lo tanto no tienen incidencia en el cálculo. Por el contrario la presencia de un término dado tanto en la consulta como en el documento siempre tendrá valor 1. Por ello sólo basta con contabilizar el número de términos coincidentes de la consulta en el documento y ése será su valor de similaridad.
Cadena de
consulta original del usuario
|
|||
Los libros y la
literatura de Unamuno en la biblioteca de la Universidad de Alcalá
|
|||
Depuración de la
consulta del usuario
|
|||
Libros Literatura
Unamuno Biblioteca Universidad Alcalá
|
|||
Fichero
diccionario
|
Documento1
|
q = pesos binarios
de la consulta del usuario
|
|
Id
|
Término
|
Peso binario
|
|
T1
|
Clima
|
1
|
0
|
T2
|
Biblioteca
|
0
|
1
|
T3
|
Universidad
|
1
|
1
|
T4
|
Alcalá
|
1
|
1
|
T5
|
España
|
1
|
0
|
T6
|
Libros
|
0
|
1
|
T7
|
Geografía
|
0
|
0
|
T8
|
Población
|
1
|
0
|
T9
|
Electricidad
|
0
|
0
|
T10
|
Ciencia
|
0
|
0
|
T11
|
Social
|
0
|
0
|
T12
|
Luz
|
1
|
0
|
T13
|
Unamuno
|
1
|
1
|
T14
|
Física
|
0
|
0
|
T15
|
Fluidos
|
1
|
0
|
T16
|
Literatura
|
1
|
1
|
Proceso de
equiparación mediante el producto escalar de pesos binarios
|
|||
Sim(doc1,q) =
Clima(1*0) + Biblioteca(0*1) + Universidad(1*1)
+ Alcalá(1*1) + España(1*0) + Libros(0*1) + Geografía(0*0)
+ Población(1*0) + Electricidad(0*0) + Ciencia(0*0)
+ Social(0*0) + Luz(1*0)
+ Unamuno(1*1) + Física(0*0) + Fluidos(1*0) +
Literatura(1*1) = 4
|
Tabla3. Producto escalar de pesos binarios
Como se puede analizar en la tabla3, el número de términos coincidentes de la consulta con el documento1 es 4 que corresponde a los términos Universidad, Alcalá, Unamuno y Literatura. Por lo tanto, en una escala de 6 (Por ser todos los términos empleados en la consulta original depurada del usuario), el documento1, tiene un alto grado de coincidencia y por ende tiene más probabilidades de ser relevante.
Modalidad de pesos TF-IDF
En el caso de la modalidad de pesos binarios, las limitaciones en la definición de la representatividad de los términos de cada documento quedan patentes. Resulta por tanto un resultado bastante limitado y parcial. Por ello el método de la similaridad mediante el producto escalar se aplica habitualmente con pesos TF-IDF, mucho más precisos, véase tabla4.
Cadena de
consulta original del usuario
|
||||
Los libros y la
literatura de Unamuno en la biblioteca de la Universidad de Alcalá
|
||||
Depuración de la
consulta del usuario
|
||||
Libros Literatura
Unamuno Biblioteca Universidad Alcalá
|
||||
Fichero
diccionario
|
Documento1
|
Documento2
|
q = pesos de la
consulta del usuario
|
|
Id
|
Término
|
Peso TF-IDF
|
Peso TF-IDF
|
|
T1
|
Clima
|
1,452
|
0
|
0
|
T2
|
Biblioteca
|
0
|
2,093
|
1,345
|
T3
|
Universidad
|
2,122
|
0
|
1,453
|
T4
|
Alcalá
|
3,564
|
0
|
1,987
|
T5
|
España
|
4,123
|
4,245
|
0
|
T6
|
Libros
|
0
|
1,234
|
2,133
|
T7
|
Geografía
|
0
|
0
|
0
|
T8
|
Población
|
2,342
|
0
|
0
|
T9
|
Electricidad
|
0
|
0
|
0
|
T10
|
Ciencia
|
0
|
0
|
0
|
T11
|
Social
|
0
|
2,345
|
0
|
T12
|
Luz
|
1,975
|
0
|
0
|
T13
|
Unamuno
|
4,543
|
2,135
|
3,452
|
T14
|
Física
|
0
|
0
|
0
|
T15
|
Fluidos
|
6,134
|
0
|
0
|
T16
|
Literatura
|
2,234
|
3,456
|
4,234
|
Proceso de
equiparación mediante el producto escalar de pesos TF-IDF
|
||||
Sim(doc1,q) =
Clima(1,452*0) + Biblioteca(0*1,345) + Universidad(2,122*1,453)
+ Alcalá(3,564*1,987) + España(4,123*0) + Libros(0*2,133)
+ Geografía(0*0) + Población(2,342*0) + Electricidad(0*0)
+ Ciencia(0*0) + Social(0*0)
+ Luz(1,975*0) + Unamuno(4,543*3,452) + Física(0*0)
+ Fluidos(6,134*0) + Literatura(2,234*4,234) = 3,083 +
7,082 + 15,682 + 9,459 = 35,306
Sim(doc2,q) =
Clima(0*0) + Biblioteca(2,093*1,345) + Universidad(0*1,453)
+ Alcalá(0*1,987) + España(4,245*0) + Libros(1,234*2,133)
+ Geografía(0*0) + Población(0*0) + Electricidad(0*0)
+ Ciencia(0*0) + Social(2,345*0)
+ Luz(0*0) + Unamuno(2,135*3,452) + Física(0*0)
+ Fluidos(0*0) + Literatura(3,456*4,234) = 2,815 +
2,632 + 7,370 + 14,633 = 27,450
|
Tabla4. Producto escalar de pesos TF-IDF
El cálculo de la similaridad se aplica a cada uno de los documentos de la colección siguiendo el patrón expuesto en la tabla4. Para el documento1 la similaridad con respecto a la consulta del usuario q, será diferente que para el documento2. Obsérvese que al igual que ocurria con los pesos binarios, sólo tienen incidencia aquellos términos presentes tanto en la consulta como en el documento, pues sus pesos se multiplican y se suman sucesivamente al resto. En este caso, la similaridad del documento1 (35,306) es superior a la del documento2 (27,450), siendo éstas unas cifras mucho más precisas que un simple número entero.
Proceso de equiparación mediante la fórmula del coseno
Tal como se ha explicado en la fórmula del producto escalar, el proceso de equiparación es posible cuando en el vector de la consulta y en el del documento existen términos coincidentes. Pero este enfoque no supone la representación del vector de la consulta y del documento. De hecho una de las claves del modelo de espacio vectorial es precisamente la posibilidad de determinar el ángulo que forman los vectores del documento y de la consulta que se está comparando, véase figura2.
Es posible medir cuál es la desviación de un documento con respecto a una consulta, por el número de grados del ángulo que forman. Esto es posible porque crean una estructura triangular a la que se aplica el cálculo del ángulo que forma la hipotenusa (en este caso el vector del documento1) y el adyacente (el vector q de la consulta dada por el usuario) que resulta ser el coseno del triángulo. En el caso de la figura2, se comprueba visualmente cierta distancia del vector de la consulta con respecto al documento1; cuando ambos vectores se muestran tan próximos como para superponerse, implicará que el ángulo que forman será menor y que su nivel de coincidencia será superior. De hecho, un coseno de 0º implicaría una similaridad máxima.
Por lo tanto, la fórmula aplicada para calcular el coeficiente de similaridad del coseno entre un documento y una consulta es aquella que permite poner en relación los vectores de la consulta y del documento. De hecho el coseno de alfa de un triángulo cualquiera siempre es igual al cateto adyacente entre la hipotenusa. Tomando como clave esa idea, la figura3 muestra la misma relación pero esta vez con los pesos que forman los vectores del documento y la consulta. De hecho el numerador no deja de ser un producto escalar entre los pesos del documento y la consulta; y el denominador la raíz cuadrada del producto del sumatorio de los pesos del documento y la consulta al cuadrado. La formulación del denominador con raíz cuadrada y cálculo de cuadrados, se diseñó para conseguir un resultado final de la división, inferior a 1, de tal manera que el coeficiente fuera de fácil manejo y lectura. La similaridad del coseno aplicada al ejemplo que se viene utilizando, tendría la forma que sigue a continuación en la tabla5.
Como se puede observar en los resultados del coeficiente de similaridad del coseno para el documento1 y 2 en la tabla5, son diametralmente distintos a los obtenidos en la tabla4. Esto significa que los pesos de los términos del documento2, lo convierten en más representativo y probablemente más relevante que el documento1, dando por lo tanto una mayor precisión que el cálculo del producto escalar. El máximo valor del coeficiente de similaridad del coseno es 1, que equivaldría a un ángulo de 0º entre los vectores del documento y la consulta.
Proceso de equiparación mediante el coeficiente de Dice
El cálculo del coeficiente de similaridad según Lee Raymond Dice es una adaptación del cálculo del coeficiente del coseno. La diferencia en la formulación estriba en que la cardinalidad del numerador es 2 veces la información compartida y el denominador la suma de los pesos al cuadrado del documento y su consulta. Véase figura4 y tabla6.
Proceso de equiparación mediante el coeficiente de Jaccard (Tanimoto)
Figura2. El ángulo del coseno
Es posible medir cuál es la desviación de un documento con respecto a una consulta, por el número de grados del ángulo que forman. Esto es posible porque crean una estructura triangular a la que se aplica el cálculo del ángulo que forma la hipotenusa (en este caso el vector del documento1) y el adyacente (el vector q de la consulta dada por el usuario) que resulta ser el coseno del triángulo. En el caso de la figura2, se comprueba visualmente cierta distancia del vector de la consulta con respecto al documento1; cuando ambos vectores se muestran tan próximos como para superponerse, implicará que el ángulo que forman será menor y que su nivel de coincidencia será superior. De hecho, un coseno de 0º implicaría una similaridad máxima.
Figura3. Fórmula para el cálculo de la similaridad del coseno
Por lo tanto, la fórmula aplicada para calcular el coeficiente de similaridad del coseno entre un documento y una consulta es aquella que permite poner en relación los vectores de la consulta y del documento. De hecho el coseno de alfa de un triángulo cualquiera siempre es igual al cateto adyacente entre la hipotenusa. Tomando como clave esa idea, la figura3 muestra la misma relación pero esta vez con los pesos que forman los vectores del documento y la consulta. De hecho el numerador no deja de ser un producto escalar entre los pesos del documento y la consulta; y el denominador la raíz cuadrada del producto del sumatorio de los pesos del documento y la consulta al cuadrado. La formulación del denominador con raíz cuadrada y cálculo de cuadrados, se diseñó para conseguir un resultado final de la división, inferior a 1, de tal manera que el coeficiente fuera de fácil manejo y lectura. La similaridad del coseno aplicada al ejemplo que se viene utilizando, tendría la forma que sigue a continuación en la tabla5.
Cadena de
consulta original del usuario
|
||||
Los libros y la
literatura de Unamuno en la biblioteca de la Universidad de Alcalá
|
||||
Depuración de la
consulta del usuario
|
||||
Libros Literatura
Unamuno Biblioteca Universidad Alcalá
|
||||
Fichero
diccionario
|
Documento1
|
Documento2
|
q = pesos de la
consulta del usuario
|
|
Id
|
Término
|
Peso TF-IDF
|
Peso TF-IDF
|
|
T1
|
Clima
|
1,452
|
0
|
0
|
T2
|
Biblioteca
|
0
|
2,093
|
1,345
|
T3
|
Universidad
|
2,122
|
0
|
1,453
|
T4
|
Alcalá
|
3,564
|
0
|
1,987
|
T5
|
España
|
4,123
|
4,245
|
0
|
T6
|
Libros
|
0
|
1,234
|
2,133
|
T7
|
Geografía
|
0
|
0
|
0
|
T8
|
Población
|
2,342
|
0
|
0
|
T9
|
Electricidad
|
0
|
0
|
0
|
T10
|
Ciencia
|
0
|
0
|
0
|
T11
|
Social
|
0
|
2,345
|
0
|
T12
|
Luz
|
1,975
|
0
|
0
|
T13
|
Unamuno
|
4,543
|
2,135
|
3,452
|
T14
|
Física
|
0
|
0
|
0
|
T15
|
Fluidos
|
6,134
|
0
|
0
|
T16
|
Literatura
|
2,234
|
3,456
|
4,234
|
Proceso de
equiparación mediante el producto escalar de pesos TF-IDF
|
||||
Tabla5. Cálculo del coeficiente de similaridad del coseno
Como se puede observar en los resultados del coeficiente de similaridad del coseno para el documento1 y 2 en la tabla5, son diametralmente distintos a los obtenidos en la tabla4. Esto significa que los pesos de los términos del documento2, lo convierten en más representativo y probablemente más relevante que el documento1, dando por lo tanto una mayor precisión que el cálculo del producto escalar. El máximo valor del coeficiente de similaridad del coseno es 1, que equivaldría a un ángulo de 0º entre los vectores del documento y la consulta.
Proceso de equiparación mediante el coeficiente de Dice
El cálculo del coeficiente de similaridad según Lee Raymond Dice es una adaptación del cálculo del coeficiente del coseno. La diferencia en la formulación estriba en que la cardinalidad del numerador es 2 veces la información compartida y el denominador la suma de los pesos al cuadrado del documento y su consulta. Véase figura4 y tabla6.
Figura4. Fórmula para el cálculo del coeficiente de similaridad de Dice
Proceso de
equiparación mediante el coeficiente de Dice
|
Tabla6. Cálculo del coeficiente de similaridad de Dice
Proceso de equiparación mediante el coeficiente de Jaccard (Tanimoto)
El cálculo del coeficiente de similaridad de Jaccard* al
igual que el de Dice, resultan deudores del coeficiente de
similaridad del coseno. Su aplicación, centrada en usos estadísticos,
también se aplica a recuperación de información y mide la similitud
entre conjuntos. Se puede definir como el tamaño de la intersección
(numerador) dividido por el tamaño de la unión de la muestra, en este
caso la suma de los pesos al cuadrado del documento y la consulta menos la intersección, véase figura5 y tabla7.
Figura5. Fórmula para el cálculo del coeficiente de similaridad de Jaccard
Tabla7. Cálculo del coeficiente de similaridad de Jaccard
Ventajas e inconvenientes del modelo vectorial
Ventajas
- El modelo vectorial es muy versátil y eficiente a la hora de generar rankings de precisión en colecciones de gran tamaño, lo que le hace idóneo para determinar la equiparación parcial de los documentos.
- Tiene en cuenta los pesos TF-IDF para determinar la representatividad de los documentos de la colección.
- El modelo vectorial por producto escalar tiene la desventaja de que sólo tiene en cuenta la intersección de los términos del documento con respecto a la consulta, por lo que la gradación de los resultados no es tan precisa como en el caso del cálculo del coseno.
- Necesita de la intersección de los términos de la consulta con los documentos, en caso contrario no se produce la recuperación de información.
- Al ser un modelo estadístico-matemático, no tiene en cuenta la estructura sintáctico-semántica del lenguaje natural.
Anotación
* El coeficiente de similaridad de Jaccard ha sido ámpliamente confundido con el coeficiente de Tanimoto. Según (ZAZO, A.F. 2004) se viene conveniendo el empleo de la fórmula reseñada en la figura5. También existen variantes en las que se elimina el cuadrado de los pesos, pero su composición no disocia de la expresada.
Bibliografía
SINGHAL, A. 2001. Modern Information Retrieval: A Brief Overview. En: Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. Disponible en: http://singhal.info/ieee2001.pdf
FIGUEROLA, C.G.; ALONSO BERROCAL, J.L.; ZAZO RODRÍGUEZ, A.F.; RODRÍGUEZ, E. Algunas Técnicas de Clasificación Automática de Documentos. En: Cuadernos de Documentación Multimedia, (15). Disponible en: http://multidoc.rediris.es/cdm/viewarticle.php?id=28&layout=html
MARTÍNEZ COMECHE, J.A. 2006. Los modelos clásicos de recuperación de información y su vigencia. En: Tercer Seminario Hispano-Mexicano de investigación en Bibliotecología y Documentación, UNAM, Centro Universitario de Investigaciones Bibliotecológicas. pp.187-206. Disponible en: http://eprints.rclis.org/bitstream/10760/9662/1/Modelos_RI_vers_def.pdf
RIJSBERGEN, C.J.; [et.al.] 1979. Information Retrieval. Disponible en: http://www.dcs.gla.ac.uk/Keith/Chapter.2/Ch.2.html
ROGERS, J.D.; TANIMOTO, T.T. 1960. A Computer Program for Classifying Plants. Science. pp1115-1118. Disponible: http://www.sciencemag.org/content/132/3434/1115.full.pdf
SALTON, G.; WONG, A.; YANG, C.S. 1975. A vector space model for automatic indexing. En: Communications of the ACM, vol. 18, nr. 11, pp. 613–620. Disponible en: http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613-salton.pdf
SALTON, G.; McGILL, M.J. 1983. Introduction to Modern Information Retrieval. New York: Mc Graw Hill.
ZAZO, A.F.; BERROCAL, J.L.; FIGUEROLA, C.G.; RODRÍGUEZ, E. 2004. Estudio de usuarios de Datathéke: Propuestas de mejora utilizando expansión de consultas. Disponible: http://reina.usal.es/papers/zazo2004estudio.pdf
No hay comentarios:
Publicar un comentario
Nota: solo los miembros de este blog pueden publicar comentarios.