CLUSTERDOC, UN SISTEMA DE RECUPERACIÓN Y RECOMENDACIÓN DE DOCUMENTOS BASADO EN ALGORITMOS DE AGRUPAMIENTO

Marylin Giugni Ortega; Luis León Guzmán; Joaquín Fernández

Autores/as

Marylin Giugni Ortega Universidad de Carabobo
Luis León Guzmán Universidad de Carabobo
Joaquín Fernández Universidad Politécnica de Cataluña

Resumen

El fenómeno de internet ha traído consigo una extensa gama de posibilidades de comunicación, y con ello un vertiginoso crecimiento de la información digitalizada. Cada día el usuario es abrumado con la inmensa información que obtiene durante los procesos de búsqueda, donde difícilmente puede identificar aquellos que posean mayor relevancia con respecto a su necesidad informativa; además examinar este ingente volumen de documentos se puede convertir en un problema mayor. En este sentido, las tecnologías de información y comunicación, adquieren un rol importante, no sólo para almacenar la información, sino también para proveer mecanismos adecuados destinados a extraer, de un conjunto de documentos, aquellos que sean pertinentes a una necesidad informativa dada. De ello deriva el objetivo de este trabajo al describir un sistema de recuperación y recomendación automática de documentos denominado ClusterDoc, dirigido a usuarios con necesidades de búsqueda de información, que a través de algoritmos de agrupamiento divide el conjunto de datos en pequeños grupos con características comunes, lo cual permite minimizar el espacio de búsqueda y proporcionar información adaptada a los intereses del usuario. Los resultados iniciales denotan la efectividad de la categorización y personalización del contenido administrado por ClusterDoc.

Descargas

La descarga de datos todavía no está disponible.

Citas

Alonso, J., Figuerola, C. & Zazo A. (2000). Categorización automática de documentos en español: algunos resultados experimentales. I Jornadas de Bibliotecas Digitales, JBIDI 2000, Valladolid, España, 149-160.

Alsabti, K., Ranka, S. & Singh, V. (1998). An Efficient K-Means Clustering Algorithm. Proceedings of IPPS/SPDP Workshop on High Performance Data Mining.

Ayaquica, I., Martínez., J., Carrasco, J. (2007). Restricted Conceptual Clustering Algorithms based on Seeds, Computación y Sistemas, Vol.11 (2), México

Baeza-Yates. R. & Ribeiro-Neto, B. (1999). Modern Information Retrieval. Addison-Wesley. New York.

Baskerville, R. (1999). Investigating Information Systems with Action Research. Communications of the Association for Information Systems, Vol. 2, Art. 19.

Berger, A., Caruana R., Cohn D., Freitag D. & Mittal, V. (2000). Bridging the Lexical Chasm: Statistical Approaches to Answer Finding. In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval, 192-199.

Bloedorn, E. & Mani, I. (1998). Using NLP for machine learning of user profiles, Intelligent Data Analysis. Vol. 2(3), 3-18.

Brennan, M. & Macnutt, L. (2006). Learning styles and learning to program: an experiment in adapting online resources to match a student´s learning style. International Conference on Innovation, Good

Practice and Research (EE 2006). University of Liverpool. England, 177-182.

Brusilovsky, P. & Maybury, M. (2002). From adaptive hypermedia to the adaptive web. Communications of the ACM. Vol. 45(5), 30-33.

Brusilovsky, P. (1996). Adaptive Hypermedia: An attempt to analyze and generalize. Multimedia, Hypermedia, and Virtual Reality Models, Systems, and Applications. Lecture Notes in Computer Science. Vol. 1077, 288-304.

Brusilovsky, P., Schwarz, E. & Weber, G. (1996). ELM–ART: An intelligent tutoring system on World Wide Web. Intelligent Tutoring Systems. Lecture Notes in Computer Science. Vol. 1086, 261–269.

Cataldi, Z. (2005). El aporte de la tecnología informática al aprendizaje basado en problemas usando modelos de trabajo interactivos. Universidad de Sevilla. Tesis doctoral no publicada.

Durán, E., Costaguta, R., Maldonado, M. & Unzaga S. (2007). Sistemas Adaptativos Inteligentes. IX Workshop de Investigadores en Ciencias de la Computación. Argentina. Mayo, 2007. pp. 143-146.

Essalmi, F., Jemni, L., Jemni, M., Kinshuk, Graf, S. (2010). A fully personalization strategy of e-learning scenarios. Computers in Human Behavior, Vol. 26, 581–591.

Fan, Y., Zheng, C., Wang, Q.Y., Cai, Q.S., & Liu, J. (2001). Using naive bayes to coordinate the classification of web pages. Journal of Software. Vol. 12. No, 9, 1386-1392.

Garre, M., Cuadrado, J., Sicilia, M., Rodríguez, D., Rejas, R. (2007). Comparación de diferentes algoritmos de clustering en la estimación de coste en el desarrollo de software, REICIS, Revista Española de Innovación, Calidad e Ingeniería del Software, Vol. 3 (1), 1885-4486.

Henze, N., & Nejdl, W. (2001). Adaptation in open corpus hypermedia. International Journal of Artificial Intelligence in Education. Vol 12, 325–350.

Hernández J., Ramírez M. & Ferri C. (2004). Introducción a la minería de datos. Editorial Pearson.

Hsu, M. (2008). A personalized English learning recommender system for ESL students. Expert Systems with Applications, 34, 683–688.

IEEE (2008). CS2008 Review Taskforce. Computer Science Curriculum 2008: An Interim Revision of CS 2001. Association for Computing Machinery and IEEE Computer Society. Documento en línea. Disponible en: http://www.acm.org//education/curricula/ComputerScience2008.pdf. Consulta: diciembre de 2008.

López, M. & Soffer, M. (2008). Automatic Text Processing for Spanish Texts. CERMA, Electronics, Robotics and Automotive Mechanics Conference. 74-79.

Manning, C., Raghavan, P. & Schütze, H. (2009). An Introduction to Information Retrieval. Cambridge University Press, 181-183.

McQueen, J. (2007). Some methods for classification and analysis of multivariate observations, 5-th Berkeley Symposium on mathematics, Statistics and Probability, 1, 281-297.

Rizman, K. (2008). An efficient k-means clustering algorithm. Pattern Recognition Letters, Vol. 29, 1385–1391.

Rocchio, J. (1971). Relevance Feedback in Information Retrieval. In Salton, G. (Ed.), The SMART Retrieval System: Experiments in Automatic Document Processing, 313-323. Prentice Hall.

Roelleke T., Wang J. (2008). TF-IDF uncovered: a study of theories and probabilities. Retrieval Models.

Romero, C., Ventura, S., Zafra, A., De Bra, P. (2009). Applying Web usage mining for personalizing hyperlinks in Web-based adaptive educational Systems. Computers & Education. Vol. 53, 828–840.

Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing and Management. Vol. 24, No. 5, 513-523.

Salton, G. & McGill, M.J. (1983). Introduction to modern information retrieval, McGraw-Hill. New York, USA.

Salton, G. (1989). Automatic Text Processing: The Transformation Analysis and Retrieval of Information by Computer. Addison-Wesley.

Salton, G. (1991). Developments in automatic text retrieval. Science, Vol. 253, 974-979.

Schiaffino, S., García, P., Amandi., A. (2008). eTeacher: Providing personalized assistance to e-learning students. Computers & Education, 51, 1744–1754.

Steinbach, M., Karypis, G., Kumar, V. (2000). A comparison of document clustering techniques.

Stubbs, E., Mangiaterra, N. & Martínez, A. (2000). Internal quality audit of indexing: a new application of interindexer consistency, Cataloguing & Classification Quaterly. Vol. 28(4) 53-70.

Sun, J., Wang, W., & Zhong, Y.X. (2001). Automatic text categorization based on k-nearest neighbor. Journal of Beijing University of Posts & Telecomms. Vol. 24, No. 1, 42-46.

Van Rijsbergen, C. (1979). Information Retrieval. Butterworths. Londres, 2da edición.

Vélez, O. & Santos, C. (2006). Sistemas Recomendadores: Un enfoque desde los algoritmos genéticos. Revista Industrial Data, Perú, Vol. 9(1), 23-31.

Venter, J., Waal, A. & Willers, C. (2007). Specializing CRISP-DM for Evidence Mining. Advances in Digital Forensics III. Springer Boston. Vol. 242.

Wanga, F. and Shao, H. (2004). Effective personalized recommendation based on time-framed navigation clustering and association mining, Expert Systems with Applications 27, 365–377.

Yolis, E., Britos, P., Perichisky, G. & García-Martínez R. (2003). Algoritmos Genéticos aplicados a la Categorización Automática de Documentos. Proceedings del VIII Congreso Argentino de Ciencias de la Computación. 1468-1479.

Zhang, Y., Gong, L & Wang, Y. (2005). An improved TF-IDF approach for text classification. Journal of Zhejiang University - Science A. Vol. 6, No. 1, 49-55.

CLUSTERDOC, UN SISTEMA DE RECUPERACIÓN Y RECOMENDACIÓN DE DOCUMENTOS BASADO EN ALGORITMOS DE AGRUPAMIENTO

Autores/as

Resumen

Descargas

Citas

Publicado

Número

Sección