Información y Documentación Plan 2019
Grado y Doble Grado. Curso 2024/2025.
EXTRACCIÓN Y PROCESAMIENTO AVANZADO DE LA INFORMACIÓN - 805412
Curso Académico 2024-25
Datos Generales
- Plan de estudios: 080J - GRADO EN INFORMACIÓN Y DOCUMENTACIÓN (2019) (2019-20)
- Carácter: Optativa
- ECTS: 6.0
SINOPSIS
COMPETENCIAS
Generales
- Conocimientos en el tratamiento automatizado de la información
Transversales
- Capacidad para aplicar técnicas de minería de textos y datos
- Conocimientos técnicos para la recolección automatizada de información
- Conocimientos técnicos para la recolección automatizada de información
Específicas
- Desarrollar estrategias de clasificación de la información
- Aplicar técnicas de big-data para el análisis automático de la información
- Aplicar técnicas de big-data para el análisis automático de la información
ACTIVIDADES DOCENTES
Clases teóricas
El profesor expondrá y desarrollará los contenidos teóricos básicos sobre la extracción y procesamiento de información.
Clases prácticas
Desarrollo de actividades formativas prácticas con herramientas informáticas en las que el estudiante aplicará y pondrá en práctica los contenidos teóricos expuestos por el profesor.
Otras actividades
Resolución de dudas que puedan surgir al estudiante y seguimiento de los trabajos prácticos individuales y grupales.
Presenciales
6
Semestre
2
Objetivos
- Aprender los métodos de extracción de la información en Internet, para su reutilización, desarrollo de servicios de información y enriquecimiento documental automático.
- Aprender a procesar archivos XML de forma automática, para su posterior procesamiento en base de datos.
- Aprender los principios que sustentan la minería de datos y el big-data.
- Adquirir la habilidad para realizar migraciones de datos complejas, creando mapas de migración, planificando procedimientos de transformación, hasta su importación definitiva en la base de datos de destino.
Contenido
- Teoría básica de la extracción y procesamiento de datos en la Web.
- Tecnologías para la extracción de datos XML-XPath, funciones cURL, Objetos DOM, funciones file_get_contents, RESTful HTTP Get.
- Técnicas de parsing XML + Práctica.
- Técnicas de scraping orientadas a recursos Web + Práctica.
- Introducción a la minería de datos y el big-data.
Evaluación
- El estudiante deberá demostrar que ha alcanzado los resultados de aprendizaje previstos mediante la realización de ejercicios prácticos y un examen teórico. Los ejercicios prácticos supondrán el 50% de la nota y el examen el otro 50% restante.
- Para aprobar la asignatura es necesario aprobar tanto la teoría como la práctica.
- Para aprobar la asignatura es necesario aprobar tanto la teoría como la práctica.
Bibliografía
Cunningham, H. (2005). Information extraction, automatic. Encyclopedia of language and linguistics,, 665-677.
Fernández Villamor, J.I.; Blasco Garcia, J.; Iglesias Fernandez, C.A.; Garijo Ayestaran, M. (2011). A semantic scraping model for web resources-Applying linked data to web page screen scraping.
Han, H.; Tokuda, T. (2008). A method for integration of Web applications based on information extraction. In Web Engineering, 2008. ICWE'08. Eighth International Conference on (pp. 189-195). IEEE.
Han, J.; Pei, J.; Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.
Johnson, F.; Gupta, S.K. (2012). Web content mining techniques: A survey. International Journal of Computer Applications, 47(11).
Kokkoras, F.; Ntonas, K.; Bassiliades, N. (2013). DEiXTo: a web data extraction suite. In Proceedings of the 6th Balkan Conference in Informatics (pp. 9-12). ACM.
Malik, S.K.; Rizvi, S.A.M. (2011). Information extraction using web usage mining, web scrapping and semantic annotation. En Computational Intelligence and Communication Networks (CICN)
Mayfield, J.; Finin, T. (2003). Information retrieval on the Semantic Web: Integrating inference and retrieval. In Proceedings of the SIGIR Workshop on the Semantic Web.
Mitchell, R. (2015). Web Scraping with Python: Collecting Data from the Modern Web. O'Reilly Media.
Myllymaki, J. (2002). Effective web data extraction with standard XML technologies. Computer Networks, 39(5), 635-644.
Nicola, M.; John, J. (2003). XML parsing: a threat to database performance. En Proceedings of the twelfth international conference on Information and knowledge management (pp. 175-178). ACM.
Richardson, L.; Ruby, S. (2008). RESTful web services. O'Reilly Media.
Russom, P. (2006). Best practices in data migration. Renton/USA.
Vargiu, E.; Urru, M. (2012). Exploiting web scraping in a collaborative filtering-based approach to web advertising. Artificial Intelligence Research, 2(1), 44.
Fernández Villamor, J.I.; Blasco Garcia, J.; Iglesias Fernandez, C.A.; Garijo Ayestaran, M. (2011). A semantic scraping model for web resources-Applying linked data to web page screen scraping.
Han, H.; Tokuda, T. (2008). A method for integration of Web applications based on information extraction. In Web Engineering, 2008. ICWE'08. Eighth International Conference on (pp. 189-195). IEEE.
Han, J.; Pei, J.; Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.
Johnson, F.; Gupta, S.K. (2012). Web content mining techniques: A survey. International Journal of Computer Applications, 47(11).
Kokkoras, F.; Ntonas, K.; Bassiliades, N. (2013). DEiXTo: a web data extraction suite. In Proceedings of the 6th Balkan Conference in Informatics (pp. 9-12). ACM.
Malik, S.K.; Rizvi, S.A.M. (2011). Information extraction using web usage mining, web scrapping and semantic annotation. En Computational Intelligence and Communication Networks (CICN)
Mayfield, J.; Finin, T. (2003). Information retrieval on the Semantic Web: Integrating inference and retrieval. In Proceedings of the SIGIR Workshop on the Semantic Web.
Mitchell, R. (2015). Web Scraping with Python: Collecting Data from the Modern Web. O'Reilly Media.
Myllymaki, J. (2002). Effective web data extraction with standard XML technologies. Computer Networks, 39(5), 635-644.
Nicola, M.; John, J. (2003). XML parsing: a threat to database performance. En Proceedings of the twelfth international conference on Information and knowledge management (pp. 175-178). ACM.
Richardson, L.; Ruby, S. (2008). RESTful web services. O'Reilly Media.
Russom, P. (2006). Best practices in data migration. Renton/USA.
Vargiu, E.; Urru, M. (2012). Exploiting web scraping in a collaborative filtering-based approach to web advertising. Artificial Intelligence Research, 2(1), 44.
Estructura
Módulos | Materias |
---|---|
No existen datos de módulos o materias para esta asignatura. |
Grupos
Clases Teóricas y Prácticas | ||||
---|---|---|---|---|
Grupo | Periodos | Horarios | Aula | Profesor |
Grupo B | 27/01/2025 - 16/05/2025 | LUNES 15:00 - 17:00 | B-22 | MANUEL BLAZQUEZ OCHANDO |
MARTES 15:00 - 17:00 | B-22 | MANUEL BLAZQUEZ OCHANDO |