Mostrar el registro sencillo del ítem
Aplicación de técnicas de Fine Tuning en modelos NLP para la identificación y recomendación de libros según los intereses temáticos del usuario.
dc.rights.license | abierto | es_ES |
dc.contributor.advisor | Carvajal Salamanca, Roberto | |
dc.contributor.author | Pachón Mojica, Johan Sebastián | |
dc.contributor.author | Mendoza Cardona, Jaider Steeven | |
dc.contributor.other | Carrascal Avendaño, Carlos | |
dc.date.accessioned | 2025-05-05T19:47:16Z | |
dc.date.available | 2025-05-05T19:47:16Z | |
dc.identifier.citation | N/A | es_ES |
dc.identifier.uri | http://repositorio.uts.edu.co:8080/xmlui/handle/123456789/19482 | |
dc.description | Inteligencia Artificial, Procesamiento de Lenguaje Natural, Fine-tuning, Datasets, Sistemas de Recomendación. | es_ES |
dc.description.abstract | Este proyecto de grado tiene como objetivo implementar técnicas de fine-tuning en un modelo de Procesamiento de Lenguaje Natural (NLP) preentrenado, con el fin de identificar y recomendar libros según temáticas de interés del usuario. La propuesta busca mejorar la experiencia de búsqueda y selección de contenido literario a partir de recomendaciones relevantes. Como punto de partida, se realizó una exploración de modelos NLP disponibles públicamente, priorizando aquellos que fueran eficaces en la clasificación temática y viables en términos computacionales. Se optó por un modelo de tamaño moderado y código abierto, lo que permitió su adaptación sin necesidad de grandes recursos. Para ajustar el modelo al dominio, se aplicaron técnicas de fine-tuning mediante el uso de adaptadores. Esta estrategia permitió modificar el comportamiento del modelo sin alterar su arquitectura base, facilitando su entrenamiento con un conjunto de datos abierto. La generación y limpieza de estos datos se apoyó en la API del modelo generativo DeepSeek, permitiendo estructurar la información de forma compatible con los requerimientos del modelo. El rendimiento del sistema se evaluó mediante pruebas centradas en la precisión de las recomendaciones, utilizando métricas como NDCG (Normalized Discounted Cumulative Gain). Los resultados mostraron que el enfoque basado en adaptadores ofreció un mejor desempeño, generando sugerencias más acertadas y coherentes con las preferencias del usuario. Este proyecto demuestra que es posible adaptar modelos de lenguaje pre entrenados, de manera eficiente y accesible, para tareas específicas de recomendación de libros, considerando las limitaciones de recursos computacionales y el enfoque de fine-tuning más adecuado para el entrenamiento. | es_ES |
dc.description.sponsorship | N/A | es_ES |
dc.description.tableofcontents | RESUMEN EJECUTIVO 13 INTRODUCCIÓN 15 1. DESCRIPCIÓN DEL TRABAJO DE INVESTIGACIÓN 18 1.1. PLANTEAMIENTO DEL PROBLEMA 18 1.2. JUSTIFICACIÓN 20 1.3. OBJETIVOS 21 1.3.1OBJETIVO GENERAL 21 1.3.2OBJETIVOS ESPECÍFICOS 21 1.4. ESTADO DEL ARTE 22 1.4.1 REFERENCIAS INTERNACIONALES 22 1.4.2 REFERENCIAS NACIONALES 23 2. MARCO REFERENCIAL 24 2.1 MARCO TEÓRICO 24 2.1.1 INTELIGENCIA ARTIFICIAL 24 2.1.2 APRENDIZAJE AUTOMÁTICO 24 2.1.3 REDES NEURONALES ARTIFICIALES 24 2.1.4 PROCESAMIENTO DEL LENGUAJE NATURAL 25 2.1.5 MODELOS DE LENGUAJE PRE ENTRENADOS 25 2.1.6 CLASIFICACIÓN DE TEXTO 26 2.2 MARCO CONCEPTUAL 26 2.2.1 EMBEDDINGS 26 2.2.4 FINE TUNING 27 2.2.3 TRANSFORMERS 27 2.2.4 LENGUAJES DE PROGRAMACIÓN 28 2.2.5 DATASETS 28 2.2.6 LIBRERÍAS 28 2.3 MARCO LEGAL 29 2.4 MARCO TECNOLOGICO 31 2.4.1 PYTHON 31 2.4.2 KAGGLE 31 2.4.3 SBERT 32 2.4.4 PANDAS 32 2.4.5 LLAMA INDEX 32 2.4.6 SCIKIT LEARN 33 2.4.7 NUMPY 33 2.4.8 DEEPSEEK API 33 3. DISEÑO DE LA INVESTIGACIÓN 34 3.1 ENFOQUE METODOLÓGICO 34 3.2 POBLACIÓN 35 3.3 INSTRUMENTOS DE MEDICIÓN 36 3.3.1 NORMALIZED DISCOUNTED CUMULATIVE GAIN (NDCG) 36 3.3.2 MEAN RECIPROCAL RANK (MRR) 38 3.4 RECURSOS COMPUTACIONALES 40 3.5 METODOLOGÍA DE TRABAJO 42 3.6 RECOLECCIÓN DE DATOS 43 3.6.1 REVISIÓN DOCUMENTAL 44 3.6.2 AJUSTE Y PREPROCESAMIENTO DE DATOS 45 4. DESARROLLO DEL TRABAJO DE GRADO 47 4.1 DESARROLLO PRIMERA FASE 47 4.1.1 SELECCIÓN DE CONJUNTO DE DATOS 47 4.1.3 SELECCIÓN DE MODELOS DE CLASIFICACIÓN NLP 49 4.2 DESARROLLO SEGUNDA FASE 52 4.2.1 LIMPIEZA DEL CONJUNTO DE DATOS 52 4.2.2 PRE-PROCESAMIENTO DEL CONJUNTO DE DATOS 54 4.2.3 DIVISIÓN DEL DATASET: CONJUNTO DE ENTRENAMIENTO, VALIDACIÓN Y PRUEBAS 62 4.3 DESARROLLO TERCERA FASE 64 4.3.1 FINE TUNING DE UN ADAPTADOR SOBRE UN MODELO EMBEDDING 64 4.3.2 FINE TUNING DE EMBEDDINGS SOBRE CORPUS USANDO NUDGE 68 4.4 DESARROLLO CUARTA FASE 70 4.4.1 EVALUACIÓN DE LOS MODELOS MEDIANTE NDCG@K 70 4.4.2 EVALUACIÓN DE LOS MODELOS MEDIANTE MEAN RECIPROCAL RANK (MMR) 73 5. RESULTADOS 76 5.1 ANÁLISIS DE LOS RESULTADOS 76 5.2 ENTREGABLES 79 6. CONCLUSIONES 82 7. RECOMENDACIONES 85 8. REFERENCIAS BIBLIOGRÁFICAS 87 | es_ES |
dc.publisher | UNIDADES TECNOLÓGICAS DE SANTANDER | es_ES |
dc.subject | Inteligencia Artificial, Procesamiento de Lenguaje Natural, Fine-tuning, Datasets, Sistemas de Recomendación. | es_ES |
dc.title | Aplicación de técnicas de Fine Tuning en modelos NLP para la identificación y recomendación de libros según los intereses temáticos del usuario. | es_ES |
dc.type | degree work | es_ES |
dc.rights.holder | CC.BY.NC.ND 2.5 | es_ES |
dc.date.emitido | 2025-04-04 | |
dc.dependencia | fcni | es_ES |
dc.proceso.procesouts | bienestar | es_ES |
dc.type.modalidad | desarrollo_tecnológico | es_ES |
dc.format.formato | es_ES | |
dc.titulog | Tecnólogo en Desarrollo de Sistemas Informáticos | es_ES |
dc.educationlevel | tecnologo | es_ES |
dc.contibutor.evaluator | evaluador | es_ES |
dc.date.aprobacion | 2025-04-07 | |
dc.description.programaacademico | Tecnólogo en Desarrollo de Sistemas Informáticos | es_ES |
dc.dependencia.region | bucaramanga | es_ES |
Ficheros en el ítem
Este ítem aparece en la(s) siguiente(s) colección(ones)
-
Proyectos de Investigación
Trabajos de Grado en modalidad DTeI, monografía, Investigación