Diseño de una plataforma tecnológica de alto rendimiento con procesamiento por gráfica y basada en tecnología de hiperconvergencia para la aplicación de la inteligencia generativa en el desarrollo de sistemas predictivos de información con el entrenamiento de modelos de Inteligencia Artificial (IA)
Average rating
Cast your vote
You can rate an item by clicking the amount of stars they wish to award to this item.
When enough users have cast their vote on this item, the average rating will also be shown.
Star rating
Your vote was cast
Thank you for your feedback
Thank you for your feedback
Authors
Salgado Paraguay, Julio CesarAdvisors
Gonzales Figueroa, Renatto GustavoIssue Date
2024-07-16Keywords
Inteligencia artificialModelos de lenguaje
Aprendizaje profundo
Cuantización
Embedding
Entrenamiento
Inferencia
Dataset
Fine-tuning
RAG
Inteligencia generativa
LLM
Paralelización
Token
Ventana de contexto
Sparsity
GPU
Benchmark
Artificial intelligence
Language models
Deep learning
Quantization
Training
Inference
DataFine-tuning
Generative intelligence
Parallelization
Context window
Metadata
Show full item recordOther Titles
Design of a high-performance technological platform with graph processing and based on hyperconvergence technology for the application of generative intelligence in the development of predictive information systems with the training of Artificial Intelligence (AI) modelsAbstract
Con los avances logrados actualmente en el campo del Aprendizaje Profundo (Deep Learning), se busca formular el diseño conceptual de una plataforma tecnológica basada en tecnología hiperconvergente, que incorpore infraestructura de procesamiento por gráfica o GPU (Graphics Processing Unit o Unidad de Procesamiento Gráfico), capaz de soportar el desarrollo de soluciones del tipo RAG (Retrieval Augmented Generation o Generación Mejorada por Recuperación) con la aplicación de los grandes modelos generativos de lenguaje de código abierto, que han sido entrenados previamente con miles de millones de datos, para la codificación de sistemas de información predictivos (SPI) y que cuente, además, con el entrenamiento de datos propietarios generados al interior de la misma institución, provenientes de distintas fuentes de información, para optimizar la precisión de la información, que pueda acompañar los procesos de innovación y emprendimiento a fin de incrementar la productividad de las cadenas productivas del rubro nacional generando con ella beneficios económicos que repercutan en la mejora de la calidad de vida de los peruanos. Así, con el desarrollo del proyecto se incrementará el ancho de banda de la VRAM con tasas de transferencia de la información iguales a 864GB/s y 2TB/s; también, se potenciará la cantidad de operaciones de coma flotante por segundo con índices de procesamiento de 378 TFLOPS en precisión TF32, 756 TFLOPS en formato BFLOAT16, 756 TFLOPS en precisión FP16 y 1513 TFLOPS en formato FP8; además, se elevará la velocidad de reloj de los núcleos de cómputo a 1755MHz aprovechando las capacidades del procesamiento en paralelo incorporando la tecnología NVIDIA NVLink; asimismo, se aumentará el número de tokens de la ventana de contexto para conseguir máximos de 7,993 y 9,193 tokens/s en la inferencia de salida y, finalmente, se elevará la cantidad de parámetros o variables internas con la posibilidad de procesar modelos de lenguaje de 7B, 13B, 70B, 130B, entre otros.With the advances currently made in the field of Deep Learning, we seek to formulate the conceptual design of a technological platform based on hyperconverged technology, which incorporates graphics processing infrastructure or GPU (Graphics Processing Unit), capable of supporting the development of RAG (Retrieval Augmented Generation) type solutions with the application of large open source language generative models, which have been previously trained with billions of data, for coding of predictive information systems (PIS) and that also has the training of proprietary data generated within the same institution, coming from different sources of information, to optimize the precision of the information, which can accompany the innovation processes and entrepreneurship in order to increase the productivity of the productive chains of the national sector, thereby generating economic benefits that have an impact on the improvement of the quality of life of Peruvians. Thus, with the development of the project, the VRAM bandwidth will increase with information transfer rates equal to 864GB/s and 2TB/s; also, the number of floating point operations per second will be enhanced with processing rates of 378 TFLOPS in TF32 precision, 756 TFLOPS in BFLOAT16 format, 756 TFLOPS in FP16 precision and 1513 TFLOPS in FP8 format; in addition, the clock speed of the computing cores will be raised to 1755MHz, taking advantage of the capabilities of parallel processing by incorporating NVIDIA NVLink technology; likewise, the number of tokens in the context window will be increased to achieve maximums of 7,993 and 9,193 tokens/s in the output inference and, finally, the number of parameters or internal variables will be increased with the possibility of processing language models 7B, 13B, 70B, 130B, among others.
Type
info:eu-repo/semantics/bachelorThesisRights
info:eu-repo/semantics/openAccessLanguage
spaCollections


