PREFACIO LISTA DE AUTORES CAPÍTULO 1. INTRODUCCIÓN A LA RECUPERACIÓN DE INFORMACIÓN Benjamin Piwowarski y Roi Blanco González (Traducido por Nahir Seijo Saavedra) 1.1 DEFINICIÓN DE RECUPERACIÓN DE INFORMACIÓN 1.1.1 Introducción 1.1.2 Las tres dimensiones de la Recuperación de Información 1.1.3 Componentes de un sistema de RI 1.2 BREVE HISTORIA DE LA RECUPERACIÓN DE INFORMACIÓN 1.2.1 Las bibliotecas se digitalizan 1.2.2 La web 1.3 CONCEPTOS IMPORTANTES 1.3.1 Relevancia 1.3.2 Representación 1.3.3 Modelo 1.3.4 Evaluación 1.3.5 Índices CAPÍTULO 2. INDEXACIÓN DE DOCUMENTOS Y PROCESADO DE CONSULTAS Roi Blanco González 2.1 INTRODUCCIÓN 2.1.1 Fuentes de datos y adquisición de documentos 2.1.2 Procesamiento de textos 2.1.3 Procesado de términos 2.2 INDEXACIÓN MEDIANTE FICHEROS INVERTIDOS 2.2.1 Diccionario 2.2.2 Fichero de ocurrencias 2.3 PROCESADO DE CONSULTAS 2.3.1 Modificación de los términos de la consulta. 2.3.2 Consultas booleanas y emparejamiento coordinado 2.3.3 Optimizaciones al procesado de consultas 2.3.4 Implementación del emparejamiento en un sistema real CAPÍTULO 3. MODELOS DE RECUPERACIÓN DE INFORMACIÓN CLÁSICOS Fidel Cacheda Seijo y Juan Antonio Martínez Comeche 3.1 INTRODUCCIÓN 3.2 MODELO BOOLEANO 3.3 MODELO VECTORIAL 3.3.1 Esquemas de ponderación 3.4 MODELO PROBABILÍSTICO CAPÍTULO 4. EVALUACIÓN DE LA EFICACIA DE LA RECUPERACIÓN Juan Antonio Martínez Comeche 4.1 INTRODUCCIÓN 4.2 CONCEPTOS BÁSICOS 4.2.1 Eficacia, eficiencia 4.2.2 Relevancia 4.2.3 Exhaustividad, precisión 4.3 MEDIDAS DE LA EFICACIA A PARTIR DE LA CURVA PRECISIÓN-EXHAUSTIVIDAD 4.3.1 Medidas basadas en puntos de la curva 4.3.2 Medidas que emplean interpolación y valores medios 4.4 MEDIDAS ORIENTADAS AL USUARIO 4.5 COLECCIONES DE PRUEBA CAPÍTULO 5. RECUPERACIÓN DE INFORMACIÓN WEB Juan Antonio Martínez Comeche y Fidel Cacheda Seijo 5.1 INTRODUCCIÓN 5.2 LA WORLD WIDE WEB 5.2.1 Componentes 5.2.2 Conceptos básicos 5.2.3 Retos 5.3 RECOPILACIÓN DE PÁGINAS WEB 5.4 PROCESAMIENTO DE PÁGINAS WEB 5.5 ORDENACIÓN DE RESULTADOS BASADA EN EL ANÁLISIS DE ENLACES 5.5.1 HITS 5.5.2 PageRank 5.6 MEDIDAS ESPECÍFICAS DE EVALUACIÓN DE LA EFICACIA CAPÍTULO 6. SISTEMAS DE BÚSQUEDA Y OBTENCIÓN DE INFORMACIÓN Lluís Codina Bonilla 6.1 INTRODUCCIÓN 6.2 LA BÚSQUEDA COMO SECTOR ECONÓMICO Y SOCIAL 6.3 CARACTERÍSTICAS GENERALES Y ESTRATEGIAS EN LA BÚSQUEDA DE INFORMACIÓN COGNITIVA 6.3.1 Qué es la información cognitiva 6.3.2 La búsqueda de información en el ciclo de vida de un proyecto 6.3.3 Componentes universales de los sistemas de búsqueda 6.4 NECESIDADES DE INFORMACIÓN Y LENGUAJES DE BÚSQUEDA 6.4.1 Tipos de búsquedas 6.5 LA BÚSQUEDA DE INFORMACIÓN EN LA WEB 6.5.1 Los motores de búsqueda 6.5.2 Búsqueda avanzada 6.5.3 Motores de búsqueda especializados: buscadores académicos 6.6 BASES DE DATOS 6.6.1 El concepto de registro 6.6.2 Bases de datos profesionales 6.6.3 Bases de datos académicas 6.6.4 Búsqueda avanzada 6.7 LA BÚSQUEDA MULTIMEDIA 6.7.1 Bancos de imágenes y vídeo 6.7.2 Repositorios Creative Commons 6.7.3 Búsqueda avanzada 6.8 CONCLUSIONES CAPÍTULO 7. MOTORES DE BÚSQUEDA DE CÓDIGO ABIERTO Sergio Cleger Tamayo, Carlos G. Figuerola y Julio César Rodríguez Cano 7.1 INTRODUCCIÓN 7.2 ¿POR QUÉ CÓDIGO ABIERTO? 7.2.1 Licencias de distribución 7.3 MOTORES DE BÚSQUEDA 7.3.1 Apache Lucene 7.3.2 Minion 7.3.3 Terrier 7.3.4 Indri 7.3.5 DataParkSearch 7.3.6 Swish-e 7.3.7 MG4J 7.3.8 mnGoSearch 7.3.9 Solr 7.4 HERRAMIENTAS COMPLEMENTARIAS 7.5 DESARROLLO DE SISTEMAS DE RECUPERACIÓN DE INFORMACIÓN 7.6 CONCLUSIONES CAPÍTULO 8. CONSTRUCCIÓN Y COMPRESIÓN DE ÍNDICES Roi Blanco González 8.1 INTRODUCCIÓN 8.1.1 Restricciones hardware 8.2 CONSTRUCCIÓN DE ÍNDICES 8.2.1 Métodos básicos de construcción de índices 8.2.2 Inversión en memoria 8.2.3 Indexación incremental 8.3 COMPRESIÓN DE ÍNDICES 8.3.1 Compresión de datos 8.3.2 Modelos y códigos 8.3.3 Compresión de diccionarios 8.3.4 Compresión del fichero de ocurrencias CAPÍTULO 9. MODELOS DE RECUPERACIÓN DE INFORMACIÓN II David E. Losada 9.1 INTRODUCCIÓN 9.2 EXTENSIONES DE LOS MODELOS CLÁSICOS 9.2.1 Modelo vectorial con normalización por longitud basada en pivote 9.2.2 El modelo BM25 9.2.3 Los modelos basados en indexación por semántica latente 9.3 LOS MODELOS DE LENGUAJE ESTADÍSTICOS CAPÍTULO 10. TÉCNICAS DE MODIFICACIÓN DE LA CONSULTA Ángel Zazo Rodríguez, Carlos García-Figuerola Paniagua y José Luis Alonso Berrocal 10.1 INTRODUCCIÓN 10.2 REALIMENTACIÓN DE CONSULTAS 10.2.1 Realimentación de consultas para el modelo vectorial 10.2.2 Inconvenientes de la realimentación de consultas 10.2.3 Evaluación de la realimentación de consultas 10.3 EXPANSIÓN DE CONSULTAS 10.3.1 Pseudo-realimentación de consultas 10.3.2 Utilización de diccionarios y tesauros manuales 10.3.3 Clustering en expansión de consultas 10.4 TESAUROS AUTOMÁTICOS 10.4.1 Expansión de la consulta original 10.4.2 Tesauros construidos utilizando medidas de coocurrencia 10.4.3 Tesauros de similitud 10.4.4 Asociación de términos y frases: Phrase-finder 10.4.5 Tesauros de términos infrecuentes CAPÍTULO 11. CLASIFICACIÓN DOCUMENTAL. Luis M. de Campos Ibáñez y Alfonso E. Romero López 11.1 INTRODUCCIÓN A LA CLASIFICACIÓN DOCUMENTAL 11.1.1 El proceso de clasificación documental 11.1.2 Representaciones de documentos 11.1.3 El problema de la clasificación documental 11.1.4 Dificultades del problema 11.1.5 Notación 11.2 EVALUACIÓN 11.2.1 Medidas desde el punto de vista de las categorías 11.2.2 Medidas desde el punto de vista de los documentos 11.3 MÉTODOS PARA LA CLASIFICACIÓN DOCUMENTAL 11.3.1 El método k-NN 11.3.2 El método Rocchio 11.3.3 El método Naive Bayes multinomial 11.3.4 Otros métodos 11.4 COLECCIONES DOCUMENTALES 11.4.1 Reuters-21578 11.4.2 Ohsumed 11.4.3 20 Newsgroups 11.4.4 RCV1 CAPÍTULO 12. AGRUPAMIENTO DOCUMENTAL M. Eduardo Ares Brea, Javier Parapar López y Álvaro Barreiro García 12.1 INTRODUCCIÓN 12.1.1 Una breve definición 12.1.2 Aplicaciones de técnicas de agrupamiento documental 12.2 REPRESENTACIÓN DE DOCUMENTOS Y MEDIDAS DE SIMILITUD 12.2.1 Representación de documentos textuales 12.2.2 Medidas de distancia 12.3 ALGORITMOS DE AGRUPAMIENTO 12.3.1 Batch k-Means 12.3.2 Algoritmos jerárquicos aglomerativos (*-link) 12.4 EVALUACIÓN DE LOS ALGORITMOS 12.4.1 Importancia de la evaluación 12.4.2 Metodología 12.4.3 Colecciones 12.4.4 Métricas 12.5 RECUPERACIÓN DE INFORMACIÓN BASADA EN CLUSTERS 12.6 OTROS ALGORITMOS DE AGRUPAMIENTO DE DOCUMENTOS CAPÍTULO 13. RECUPERACIÓN XML Juan Manuel Fernández Luna y Juan Francisco Huete Guadix 13.1 INTRODUCCIÓN 13.2 EXTENSIBLE MARKUP LANGUAGE (XML) 13.2.1 ¿Qué es XML? 13.2.2 Elementos XML 13.2.3 Declaración de tipo de documento 13.2.4 Conceptos básicos de XPath 13.3 INDEXACIÓN 13.4 CONSULTA 13.4.1 NEXI 13.5 RECUPERACIÓN 13.5.1 Propagación 13.5.2 Mezcla 13.5.3 Resolución de
Este libro surge de la necesidad de disponer de un material que, con un enfoque eminentemente didáctico, permita dar una visión general de la disciplina de la Recuperación de Información, abarcando desde los fundamentos hasta las propuestas de investigación actuales. La idea es ofrecer al lector los entresijos de un área de conocimiento cuyos avances se trasladan directamente a programas que empleamos todos los días para diversas tareas cotidianas. Para alcanzar estos objetivos se ha contado con la colaboración de un plantel de expertos reconocidos internacionalmente por su investigación en el campo de la Recuperación de Información. Cada uno de ellos se ha centrado en aquellos capítulos de cuyas temáticas son especialistas y ampliamente conocedores. Además, la gran mayoría de ellos posee una inestimable experiencia docente en asignaturas de Recuperación de Información, con lo que sus experiencias y conocimientos a la hora de diseminar esta disciplina se han exportado a sus capítulos de forma directa, e implícitamente al libro completo.