Gestión de la Documentación, Bibliotecas y Archivos

Máster. Curso 2023/2024.

Centro responsable: Facultad de Ciencias de la Documentación.
Coordinación: Ana Belén Sánchez Prieto. Pedro López López.
Acceso y admisión
Créditos y Plazas
Detalles de la titulación
Web del Máster
Enlace externo
Aplicación de Admisión
Díptico de la titulación

APLICACIONES DOCUMENTALES DE LA RECUPERACIÓN DE INFORMACIÓN DE INFORMACIÓN - 609198

Curso Académico 2023-24

Datos Generales

Plan de estudios: 066M - MÁSTER UNIVERSITARIO EN GESTIÓN DE LA DOCUMENTACIÓN, BIBLIOTECAS Y ARCHIVOS (2010-11)
Carácter: OBLIGATORIA
ECTS: 4.5

SINOPSIS

COMPETENCIAS

Generales

El desarrollo de aplicaciones y sistemas de recuperación de información.

El uso y administración de motores de búsqueda.

La minería de textos y la clasificación automática.

La administración de bases de conocimiento.

La práctica y resolución de problemas reales.

Transversales

Capacidad de análisis y síntesis, además de tener razonamiento crítico.

Conocimientos de informática relativos al ámbito de estudio.

Aprendizaje autónomo.

Demostrar creatividad, iniciativa, espíritu emprendedor y liderazgo.

Aplicar los conocimientos analíticos y sintéticos a la gestión y organización de la información.

Capacidad de resolución de problemas.

Adaptación a nuevas situaciones.

Específicas

Gestionar bases de datos MySQL usando el programa de gestión PHPMyAdmin.

Desarrollar procesos básicos de importación y exportación de tablas y datos.

Dominar el lenguaje de consulta SQL para la recuperación de información.

Poner en práctica los métodos de recuperación en bases de datos reales.

Crear un buscador básico usando las tecnologías PHP, MySQL y PHPMyAdmin.

Aprender a usar los asistentes de IA para trabajar con SQL, PHP, MySQL y PHPMyAdmin.

Adaptar sistemas de clasificación automática de contenidos.

Conocer las aplicaciones de sindicación de contenidos en el contexto de Documentación, observando las posibilidades de recuperación y redifusión de información que proporcionan.

Experimentación con canales de sindicación en formatos RSS y MARC-XML en procesos de redifusión y recuperación de información.

ACTIVIDADES DOCENTES

Clases teóricas

- Explicación de los contenidos teóricos, bloques y apartados de la asignatura.

- Ejemplos en todos los bloques.

- Experimentación y demostraciones.

- Incidente crítico.

- Conclusiones y recomendaciones bibliográficas.

* En el grupo online los contenidos se impartirán a través del campus virtual en formato de texto y vídeo, de modo que los estudiantes puedan acceder a ellos de modo asíncrono.

Clases prácticas

- Lecturas recomendadas

- Preparación del servidor web

- Importación de tablas de prueba en la base de datos

- Consultas básicas con SQL

- Recuperación de datos con SQL

- Recuperación de información con SQL

- Instala y configura un buscador

- Adapta el comportamiento del buscador

- Instala y adapta un parser RSS

- Alimenta la base de datos del buscador

- Probar un sistema de clasificación de contenidos

Otras actividades

- Participación en actividades de viernes docentes sobre la materia

Presenciales

4,5

No presenciales

4,5

Semestre

Requisitos

Se recomienda tener conocimientos previos en HTML, XML, Desarrollo web, modelos de Recuperación de Información, Documentación y Bases de datos

Objetivos

Enseñar la relación entre Documentación, Recuperación de Información y Bases de datos.
Enseñar el paradigma de la arquitectura cliente‐servidor en el contexto de un servidor web, que actúa como proveedor de servicios de información y recuperación.
Enseñar las tecnologías de gestión de bases de datos y muy especialmente el lenguaje de consulta SQL y sus capacidades de recuperación de información.
Enseñar el funcionamiento de un buscador, experimentando con su base de conocimiento, método de recuperación, interacción con el usuario e interpretación de su consulta.
Enseñar los principios de la minería de textos y datos, el funcionamiento de un agregador de contenidos a partir de un programa parser, especializado en la recolección de información procedente de canales de sindicación RSS y archivos XML.
Enseñar los principios de la clasificación automática de textos, experimentando con un sistema de machine‐learning basado en las tecnologías previamente aprendidas

Contenido

1. Introducción y contexto de la asignatura.

1.1. Objetivos de la asignatura. Se explican los objetivos de la asignatura en torno a los temas que serán abordados, estos son el conocimiento de las relaciones intrínsecas entre Documentación, Recuperación de Información y Bases de datos. También se revisa el paradigma de la arquitectura cliente‐servidor, como proveedor de servicios de Información y Recuperación. Se introduce el papel de las tecnologías de gestión de bases de datos y el lenguaje de consulta SQL orientado a Recuperación de Información, así como su relación con los buscadores. Además, se presenta la correlación con los principios de minería de textos y datos y las aplicaciones de la clasificación automática de textos.

1.2. Contexto formativo. Se define el espacio formativo que ocupa la asignatura en el plan de estudios del Máster, explicando qué relación guarda con el resto de asignaturas del máster por sus contenidos, aplicaciones y funciones. Se constata la transversalidad de la Recuperación de Información, el procesamiento y almacenamiento de la Información, así como su clasificación y representación.

1.3. Contexto profesional. Se presentan los perfiles profesionales relacionados con el contenido y competencias definidos para la asignatura, en concreto Documentalista, Bibliotecario, Archivero, Referencista, Analista de información y datos, Gestor documental, Desarrollador de servicios de información, Desarrollador de experiencia de usuario y Desarrollador de buscadores.

2. Documentación y Recuperación de Información.

2.1. Concepto de Documentación. Definición del concepto de Documentación, contextualización y objetivos, áreas de investigación, enumeración de los procesos documentales y sus implicaciones en las unidades de información y documentación.

2.2. La Cadena Documental. Definición del concepto de Cadena Documental en el contexto de los sistemas de información, procedimientos de la Cadena Documental, entrada de datos, identificación, análisis documental, clasificación y lenguajes documentales, indización, extracción de puntos de acceso, vaciado de contenidos, digitalización, indexación, almacenamiento, catálogo y recuperación. Variaciones de la Cadena Documental en bibliotecas, archivos y centros de documentación. La Cadena Documental en el Contexto Digital.

2.3. Recuperación de Información. Definición del concepto de Recuperación de Información, objetivos y contexto documental, su integración en los sistemas de información, la Cadena Documental de la Recuperación de Información, los programas webcrawler, la extracción de información de Internet, la depuración de los textos para conformar la colección, la tokenización y transliteración, la eliminación de palabras vacías, el análisis de frecuencias de los términos, la reducción morfológica, la agrupación de términos, los pesos de los términos, el almacenamiento de la información en bases de datos, el fichero inverso, los motores de almacenamiento, el set de caracteres en el almacenamiento de la información, los modelos de recuperación de información, los coeficientes de similaridad, el ranking de resultados, la representación de la información, la consulta y experiencia del usuario, los procesos de reformulación de consulta y retroalimentación, análisis de las diferencias entre Recuperación de Datos y Recuperación de Información.

2.4. Bases de datos relacionales. Concepto de base de datos relacional, características de las bases de datos, los tipos de campo, los campos clave, los campos de indexación, los índices de las tablas, el modelo relacional y el modelo entidad‐relación.

3. Lenguaje de consulta SQL orientado a Recuperación de Información.

3.1. Sintaxis, cláusulas y aspectos básicos de SQL. Definición de SQL, conceptos esenciales, aplicaciones y usos, formas de notación, cláusulas y valores, sintaxis para la construcción de sentencias, ejemplos de selección, inserción, borrado y edición de registros, cláusulas de ordenación, paginación, agrupación, recuento y operadores booleanos AND, OR, NOT, XOR.

3.2. Administración de MySQL con phpMyAdmin. Definición y aplicaciones de la base de datos MySQL y el SGBD phpMyAdmin, creación de bases de datos y tablas, ejecución de consultas SQL, estadísticas de uso, importación y exportación, configuración de phpMyAdmin, replicación y sincronización de la base de datos, administración de tablas, cuentas de usuarios y privilegios de acceso.

3.3. Sentencias relacionales con SQL. Cláusula de alias AS, las operaciones de relación en SQL, cláusulas JOIN ON, LEFT JOIN ON, RIGHT JOIN ON, FULL JOIN ON, UNION, UNION ALL, autorelaciones (relaciones circulares) SELF JOIN

3.4. Consulta básica con SQL y recuperación de datos. Consultas de selección, la recuperación básica de datos, definición de la cláusula LIKE y su aplicación, las expresiones regulares y los patrones en la recuperación avanzada de datos, definición de la cláusula REGEXP y su aplicación, ejemplos de consulta y recuperación de datos.

3.5. Consulta avanzada con SQL y recuperación FULLTEXT. Recuperación en lenguaje natural, la recuperación a texto completo, el método FULLTEXT en MySQL, preparación de una tabla para FULLTEXT, cláusulas FULLTEXT, recuperación NPL con FULLTEXT, recuperación en modo booleano con FULLTEXT, recuperación con expansión de consulta en FULLTEXT, uso del coeficiente de similaridad para la ordenación de los resultados, ejemplos de consulta avanzada SQL.

4. Aplicaciones de Recuperación de Información: Los buscadores.

4.1. Concepto de buscador. Definición de motor de búsqueda, tipos de buscadores, el rastreo de los contenidos en Internet, los metabuscadores y las búsquedas federadas.

4.2. Componentes de un SRI Web. Revisión de los componentes de un SRI (Sistema de Recuperación de Información) en la Web, explicación del interfaz de interacción con el usuario, la consulta del usuario y su representación, la adquisición de documentos y contenidos en la base de conocimiento, el almacenamiento de la colección, la representación de los documentos, el algoritmo de similaridad documental, la representación de los resultados, el uso de reglas para el filtrado de la información.

4.3. Inteligencia artificial aplicada a la consulta del usuario. La evaluación, diagnóstico y procesamiento de la consulta del usuario, la interpretación de la necesidad de información, los tipos de consulta, reglas para la inferencia de las consultas y necesidades de información, diseño de patrones de comportamiento condicional en un buscador, los árboles de decisión y principios de la inteligencia artificial en buscadores.

5. Recolección y recuperación de Información: Sindicación de contenidos

5.1. Sindicación de contenidos. Concepto Sindicación de contenidos, funcionamiento y procesos de la Sindicación de contenidos, aplicaciones y usos, los agregadores de contenidos.

5.2. Formatos de sindicación: XML y RSS. Edición de archivos XML y su sintaxis, validación de archivos XML, los prefijos de los espacios de nombres Namespaces, la creación de canales de sindicación en formato RSS, características y etiquetados, la propiedad de extensibilidad de los formatos.

5.3. Recolección automática de contenidos: parser. Los programas parser, funciones y aplicaciones, los parser en la minería de textos y datos, técnica parser aplicada a XML, RSS y HTML.

6. Sistemas de clasificación automática de documentos.

6.1. Concepto de sistemas de clasificación automática. La clasificación de documentos, métodos y algoritmos de clasificación automática, la supervisión y evaluación de los resultados, los falsos positivos y los falsos negativos.

6.2. Clasificación con redes de palabras. El modelo BoW de bolsas de palabras, definición, características e implementación.

6.3. Clasificación mediante machine‐learning. Concepto, definición y características del modelo de machine‐learning, el aprendizaje automático supervisado y no supervisado, composición de muestras de aprendizaje, el análisis de sentimiento.

Evaluación

El estudiante deberá demostrar que ha alcanzado los resultados de aprendizaje previstos mediante la realización de ejercicios prácticos y un examen teórico. Los ejercicios prácticos supondrán el 45% de la nota y el examen entre un 55%. Para aprobar la asignatura es necesario aprobar tanto la teoría como la práctica. La participación en clase y la implicación en la asignatura también se tendrán en cuenta para matizar la calificación final.

*En el grupo online la evaluación se realiza mediante un sistema de evaluación continua con entrega de trabajos y un trabajo final que recoja todos los contenidos de la asignatura. (O un examen oral o escrito vigilado por videoconferencia, o lo que consideréis conveniente).

Bibliografía

Abadal, E.; Codina, L. (2005). Recuperación de información. En: Bases de Datos Documentales: Características, funciones y método. Síntesis. pp. 29

Blázquez Ochando, M. (2012b). Aplicaciones documentales de la recuperación de información: aplicaciones prácticas para su mejor explotación documental. mblazquez.es

Baeza Yates, R.; Ribeiro Neto, B. (2011). Modern information retrieval: The Concepts and Technology behind Search. Addison Wesley.

Vallez, M.; Pedraza Jiménez, R. (2007). El Procesamiento del Lenguaje Natural en la Recuperación de Información Textual y áreas afines. Hipertext.net.

López Yepes, J. (2002). Manual de Ciencias de la Documentación. Madrid. Pirámide.

Beaulieu, A. (2010). Aprende SQL. Anaya; O'Reilly.

Dyer, R.J.T. (2015). Learning MySQL and MariaDB: Heading in the right direction with MySQL and MariaDB. O'Reilly Media.

Powers, D. (2010). Connecting to MySQL with PHP and SQL. En: PHP Solutions. Apress, pp.303

Brin, S.; Page, L. (1998). The anatomy of a large-scale hypertextual web search engine. Computer networks and ISDN systems, 30(17), pp.107

Mandl, T. (2009). Artificial intelligence for information retrieval. En: Encyclopedia of Artificial Intelligence IGI Global. pp. 151

Garcia Alvarado, C.; Ordonez, C. (2008). Information retrieval from digital libraries in SQL. En: Proceedings of the 10th ACM workshop on Web information and data management, pp. 55

Blázquez Ochando, M. (2016a). Diseño de un agregador para la gestión de los big data informativos. El Profesional de la Información, 25(4), pp.671

Zheng, J.H.; Li, M.D.; Zhang, A.N. (2007). RSS Technology in the Application of Data Mining. Computer Knowledge and Technology (Academic Exchange), 13.

Kadhim, A.I. (2019). Survey on supervised machine learning techniques for automatic text classification. Artificial Intelligence Review, 52(1), pp.273

Otra información relevante

Blázquez Ochando, M. (2014a). Nuevos retos de la tecnología webcrawler para la recuperación de información. MÉI Métodos de información, 4(7), pp.115

Blázquez Ochando, M. (2013d). Técnicas avanzadas de recuperación de información: procesos, técnicas y métodos. mblazquez.es, 4.

Cacheda Seijo, F.; Martínez Comeche, J.A. (2011). Modelos de recuperación de información clásicos. En: Recuperación de información: un enfoque práctico y multidisciplinar. RA-MA, pp.87

Thelwall, M. (2001). A web crawler design for data mining. Journal of Information Science, 27(5), 319

Schwartz, B.; Zaitsev, P.; Tkachenko, V. (2012). High performance MySQL: optimization, backups, and replication. O'Reilly.

West, A.W.; Prettyman, S. (2018). Practical PHP 7, MySQL 8, and MariaDB Website Databases. Apress.

Zamani, H.; Dumais, S.; Craswell, N.; Bennett, P.; Lueck, G. (2020). Generating clarifying questions for information retrieval. En: Proceedings of The Web Conference, pp.418

Ferrara, E.; De Meo, P.; Fiumara, G.; Baumgartner, R. (2014). Web data extraction, applications and techniques: A survey. Knowledge based systems, 70, pp.301

Baviera, T. (2017). Técnicas para el análisis del sentimiento en Twitter: Aprendizaje Automático Supervisado y SentiStrength. Dígitos, 1(3), pp.33

Yan, D.; Li, K.; Gu, S.; Yang, L. (2020). Network Based Bag of Words Model for Text Classification. IEEE Access, 8, pp.82641

Estructura

Módulos	Materias
No existen datos de módulos o materias para esta asignatura.

Grupos

Clases teóricas y/o prácticas
Grupo	Periodos	Horarios	Aula	Profesor
Grupo B	02/10/2023 - 21/12/2023	LUNES 18:30 - 20:00	A. INFORMÁTICA V	MANUEL BLAZQUEZ OCHANDO
Grupo B	02/10/2023 - 21/12/2023	MARTES 17:00 - 18:30	A. INFORMÁTICA V	MANUEL BLAZQUEZ OCHANDO
Grupo On Line	-	-	-	JUAN JOSE PRIETO GUTIERREZ