Maestría en Data Science
Recent Submissions
-
Propuesta de un Esquema de Base de Datos Orientado a Grafos para Apoyar la Gestión Comercial en el Canal eCommerce de Grupo Santa Elena(Universidad Peruana de Ciencias Aplicadas (UPC)PE, 2024-10-30)La presente investigación propone la aplicación de la teoría de grafos en actividades comerciales del eCommerce de la empresa Grupo Santa Elena. La propuesta de la investigación es el diseño de un esquema de base de datos orientado a grafos, componente base para la implementación en una plataforma de Gestión de Base de Datos Orientada a Grafos como Neo4j. El esquema ha sido validado contra las preguntas de negocios denominados casos de usos, preguntas como: ¿Qué productos se asocian mejor con otros cuando el cliente realiza su compra? A diferencia de los esquemas de las bases de datos relacionales, la bondad de un modelo basado en grafos es la flexibilidad de su ampliación para responder nuevas preguntas de negocio sin impactar en el funcionamiento existente. La teoría de grafos se formalizó en el campo de las Matemáticas. Un grafo es un objeto matemático que tiene dos componentes base: los nodos y las aristas. Los nodos representan a la entidad de información como cliente o producto; las aristas son las relaciones o asociaciones entre nodos. La aplicación de los grafos se ha dado en múltiples disciplinas de estudio, sectores económicos y tipos de instituciones: desde la NASA hasta museos. La presente investigación ha seleccionados casos de éxito de la implementación de la teoría de grafos como grafos de conocimiento en plataformas de bases de datos orientadas a objetos. Un grafo de conocimiento dota al grafo con semántica y ontología. La semántica permite contextualizar y la ontología definir la arquitectura del grafo.Acceso abierto
-
IDENTIFICACIÓN DE ZONAS DE RIESGO ELÉCTRICO POTENCIAL EN REDES DE MEDIA TENSIÓN EN EL PERÚ EMPLEANDO ALGORITMOS DE VISIÓN POR COMPUTADORA Y APRENDIZAJE AUTOMÁTICO EN NUBES DE PUNTOS LIDAR 3D(Universidad Peruana de Ciencias Aplicadas (UPC)PE, 2024-09-13)En el Perú existe un riesgo poco difundido en la opinión pública que constituye una amenaza grave para la seguridad pública, especialmente en zonas urbanas. Este riesgo se refiere al incumplimiento de las distancias mínimas de seguridad (DMS) cerca de las redes de media tensión de tipo aéreo, lo que representa un riesgo eléctrico potencial y permanente si no se ejecutan acciones correctivas. Estos incidentes afectan a las personas con interrupciones del servicio, accidentes causados por elementos electrificados en espacios públicos, así como incendios por cortocircuitos. Además, afectan a las empresas eléctricas con pérdidas económicas por horas no facturadas, daños a su infraestructura, compensaciones a clientes y multas. La presencia de elementos cercanos a estas redes, como edificaciones, estructuras metálicas, árboles o cables de comunicaciones, obedece a una problemática compleja en nuestro país que involucra factores económicos, sociales, fiscalización ineficiente, planificación urbana nula o negligente, informalidad, cultura limitada sobre prevención de riesgos e incluso factores políticos o judiciales irregulares. Este proyecto se enfoca en la problemática dentro del marco del proceso de supervisión de OSINERGMIN a las empresas eléctricas donde se estipulan inspecciones en campo en las que se realizan tareas manuales que podrían optimizarse empleando tecnología y ciencia de datos. Para tal fin, se propone automatizar la identificación de zonas de riesgo eléctrico potencial empleando tecnología LiDAR móvil y aplicando algoritmos de visión por computadora y aprendizaje automático, se diseñará un modelo para identificar el cableado de media tensión y los objetos más cercanos. Los resultados se pueden complementar con fotografías y geolocalización de cada escena, lo que proporcionará evidencias más precisas y confiables.Acceso abierto
-
Detección de enfermedades y plagas en cultivos de tomate mediante el análisis de imágenes con Deep Learning(Universidad Peruana de Ciencias Aplicadas (UPC)PE, 2024-04-29)La agricultura en Perú enfrenta desafíos significativos debido a plagas y enfermedades, derivados en gran medida de limitaciones en el acceso a herramientas y tecnologías esenciales para monitorear y preservar la salud de los cultivos. Esta problemática se intensifica en un contexto global, especialmente ante el riesgo del fenómeno del Niño, que aumenta la necesidad de cuidado por parte de los agricultores. El presente estudio se enfoca en explorar diversos modelos de Deep Learning aplicados a un extenso conjunto de datos compuesto por fotografías de hojas de cultivo de tomate. Estas imágenes han sido meticulosamente categorizadas según el tipo de enfermedad y plaga que presentan. Además de este análisis, se examina detalladamente el costo de inversión del proyecto y se determina el punto de equilibrio necesario para su sostenibilidad a largo plazo. Un componente crucial de la investigación incluye un análisis exhaustivo de las ratios de precisión y pérdida obtenidos a través de la aplicación de estos modelos de Deep Learning. Este análisis no solo brinda insights valiosos sobre la eficacia de los modelos, sino que también sirve como base para una recomendación informada sobre la selección del modelo más adecuado para abordar las problemáticas específicas de los cultivos de tomate en el contexto agrícola peruano. En resumen, este estudio busca no solo comprender las complejidades de las enfermedades y plagas en los cultivos de tomate, sino también ofrecer soluciones prácticas respaldadas por análisis rigurosos y datos concretos.Acceso abierto
-
Modelo de segmentación de asegurados de salud(Universidad Peruana de Ciencias Aplicadas (UPC)PE, 2024-01-31)El propósito del presente trabajo es diseñar un modelo que permita segmentar y proyectar el nivel de riesgo de los asegurados, vigentes y nuevos prospectos, del negocio de salud de la aseguradora MAPFRE Perú. Actualmente, la suscripción de nuevos clientes y renovación de asegurados vigentes se realiza principalmente en función a las edades de los asegurados de acuerdo con el análisis y revisión actuarial anual del portafolio por producto y por cada rango etario, lo cual, si bien es técnicamente viable, comercialmente no permite un mayor grado de flexibilidad y perfilamiento de las primas que permitan ser competitivos en la captación y retención de clientes con un mejor perfil y proyección de riesgo. Hay esfuerzos aislados de aplicar ajustes de primas, tanto bonificaciones como recargos, en base a la declaración de enfermedades pre-existentes en la solicitud de afiliación, así como en el historial de siniestralidad; sin embargo, están sujetas a cierto grado de subjetividad por parte de cada suscriptor y no existe un seguimiento del impacto de estas políticas sobre el desarrollo del negocio. En adición, esta suscripción manual perjudica los tiempos de respuesta, siendo un problema generalizado en el mercado asegurador local para el ramo de salud y que contrasta con la fluidez y automatización en la cotización de otras líneas de negocio. Así, los puntos antes señalados, se traducen en un impacto negativo tanto en la evolución del número de asegurados, como en los márgenes de rentabilidad, que ya de por sí son bastante ajustados para el ramo de salud. El modelo propuesto en este trabajo busca segmentar el portafolio de clientes en función a características propias de cada asegurado, así como su historial de número y tipo de atenciones, en base a algoritmos de clasificación que permitan proyectar la siniestralidad y probabilidad de fuga de cada cliente, vigente o prospecto, para así optimizar la rentabilidad y nivel de retención en el negocio de salud.Acceso abierto
-
Solución Big Data para la integración de datos de contacto de clientes para una empresa financiera(Universidad Peruana de Ciencias Aplicadas (UPC)PE, 2024-04-05)El continuo incremento de datos dentro de las organizaciones abre nuevas oportunidades para inversiones que generen beneficios tangibles en el corto plazo. En este contexto, la gestión de los datos de contacto de los clientes emerge como un aspecto crítico para el éxito del negocio, demandando soluciones robustas, seguras y escalables. El presente proyecto aborda la problemática de obtener datos confiables y de alta calidad, reconociendo la importancia de integrar fuentes de datos valiosas y aplicar buenas prácticas en el desarrollo de plataformas de datos. Para ofrecer una solución efectiva, es imprescindible comprender los procesos de negocio, aprovechar las capacidades de las herramientas disponibles, reutilizar la infraestructura existente para optimizar costos, reducir la complejidad tecnológica y garantizar la seguridad de la información. El trabajo de investigación se origina en la necesidad de implementar una solución de big data para la integración de datos de contacto de clientes en una empresa del sector financiero. Este proyecto surge como respuesta a los bajos niveles de contactabilidad observados en las campañas comerciales, los cuales afectan directamente las colocaciones de créditos. Los resultados obtenidos demuestran que la propuesta ha sido altamente rentable para la entidad bancaria.Acceso abierto
-
Identificación de fibra textil natural mediante visión computacional y técnicas avanzadas de aprendizaje profundo(Universidad Peruana de Ciencias Aplicadas (UPC)PE, 2024-01-25)La crianza de camélidos en las regiones altoandinas de Perú es una actividad agropecuaria esencial. La alpaca, en particular, representa la principal fuente de ingresos para estas comunidades mayormente empobrecidas. En la actualidad, el comercio de productos textiles artesanales sustenta a cerca de 90,000 alpaqueros y 36,000 artesanos textiles. Sin embargo, la presencia de competencia desleal, que se ve fortalecida por las dificultades para garantizar la autenticidad de los productos textiles, genera desconfianza en los consumidores afectando negativamente a estos sectores económicos. Además, la identificación de fibras textiles, un proceso lento y costoso que garantiza la autenticidad del producto, requiere profesionales altamente cualificados. Esta situación dificulta a los productores textiles honestos garantizar estándares de valor y calidad de sus productos. Esta investigación desarrolla un modelo predictivo para facilitar la identificación de fibras en productos textiles utilizando imágenes microscópicas. Este modelo es un componente de un dispositivo llamado Fibroscopio, que permitirá capturar imágenes microscópicas y realizar predicciones en tiempo real sin necesidad de personal altamente cualificado. La investigación comienza con el diseño de un protocolo de captura de imágenes, seguido de la construcción de un conjunto de imágenes basado en dicho protocolo. Las muestras textiles son proporcionadas por instituciones especializadas del sector textil. Posteriormente, se selecciona el mejor modelo predictivo entre las arquitecturas CNN existentes. Este avance permitirá a los empresarios y artesanos textiles mejorar la confianza de los consumidores, democratizar la venta de productos textiles y aumentar los ingresos de uno de los sectores productivos con menores ingresos.Acceso abierto
-
Desarrollo de un software web para la clasificación, comparación, retroalimentación y predicción de pérdida de calorías de cinco ejercicios de calistenia(Universidad Peruana de Ciencias Aplicadas (UPC)PE, 2023-07-25)La actividad física es un pilar fundamental en la promoción de la salud y en el bienestar de las personas. Según la Organización Mundial de la Salud (OMS, 2020) se podrían evitar por lo menos 4 millones de muertes al año si la población mundial fuera más activa; porque, la actividad física ayuda a prevenir y tratar las enfermedades no transmisibles como las cardiovasculares, la diabetes de tipo 2 y algunos tipos de cáncer. Además, la actividad física también es beneficiosa para la salud mental, ayuda a mantener un peso saludable y contribuye al bienestar general. El aislamiento social debido al COVID-19 alteró, disminuyó e incluso eliminó la realización de ejercicios en gimnasios o en espacios abiertos. Asimismo, las políticas laborales impulsaron el trabajo remoto y con ello, las personas, eliminaron actividades físicas diarias con las cuales se ejercitaban de alguna forma. Por ejemplo, muchos dejaron de caminar algunos minutos en los que se trasladaban a sus oficinas. Es por todo ello que nuestro trabajo de investigación tiene la como objetivo brindar una herramienta de auto entrenamiento que mida la eficiencia de realización ciertas rutinas de calistenia, respecto a videos de expertos, y proporcionar una retroalimentación, en base a datos, para mejorar la realización de estos. Asimismo, pronosticar la quema de calorías respecto al historial de ejercicios realizados. Todo esto mediante una aplicación web que use técnicas de Machine Learning.Acceso abierto
-
Modelos de segmentación para la identificación de perfiles de Científicos de Datos en áreas o empresas de reclutamiento basado en la información de la plataforma Kaggle(Universidad Peruana de Ciencias Aplicadas (UPC)PE, 2023-07-25)En la actualidad, la búsqueda de candidatos para una empresa es un proceso riguroso y minucioso debido a la gran demanda de un perfil ideal. Esto se puede evidenciar en empresas o áreas de reclutamiento, donde este tipo de búsquedas tiene un impacto un poco más significativo, ya que estas sirven como mediadores para la búsqueda del perfil ideal respecto un candidato para una empresa.Acceso abierto