Predicción del desempeño comercial de películas cinematográficas de Estados Unidos antes de su producción mediante algoritmos de machine learning
Average rating
Cast your vote
You can rate an item by clicking the amount of stars they wish to award to this item.
When enough users have cast their vote on this item, the average rating will also be shown.
Star rating
Your vote was cast
Thank you for your feedback
Thank you for your feedback
Advisors
Alarcón Delgado, Carlos AdriánIssue Date
2026-01-23Keywords
Machine learningPredicción cinematográfica
CRISP-DM
Procesamiento de lenguaje natural
ROI
Desempeño
Taquilla
Film prediction
Natural language processing
Performance
Box office
Metadata
Show full item recordOther Titles
Prediction of the commercial performance of United States cinematographic films before production using machine learning algorithmsAbstract
La industria cinematográfica de los Estados Unidos se caracteriza por una alta incertidumbre al estimar el éxito comercial de sus películas, lo que representa un riesgo significativo para las productoras al decidir sobre sus inversiones. Este trabajo presenta un modelo predictivo basado en técnicas de machine learning para anticipar el desempeño de una película antes de su producción. Se construyó un conjunto con datos estructurados y no estructurados, incluyendo variables como el presupuesto, los géneros, la participación de actores con reconocimientos previos y variables derivadas del análisis de sentimiento de reseñas. Se evaluaron distintos algoritmos de aprendizaje supervisado como regresión logística, SVM y Random Forest, utilizando métricas como precision, recall, F1-score y AUC, bajo validación cruzada y un conjunto out-of-time (OOT). Los resultados mostraron que Random Forest, tras aplicar feature importance, logró el mejor equilibrio entre precisión y generalización, con un F1-score superior a 0.75 y un AUC cercano a 0.90, indicando un rendimiento robusto ante datos no observados. El análisis de feature importance permitiò identificar como variables más influyentes el presupuesto, combinación de genero de peliculas, actores con nominaciones o premios previos, fecha de estreno y reseñas del publico. Así, se confirma que combinar atributos económicos, artísticos y perceptuales permite construir un modelo confiable para apoyar decisiones estratégicas. En conclusión, esta investigación ofrece una herramienta útil para mitigar riesgos de inversión y aporta al estudio académico sobre la predicción del éxito en el cine.The United States film industry faces high uncertainty when predicting the commercial success of movies, posing significant investment risks for production companies. This study proposes a machine learning–based predictive model to estimate a film’s performance prior to production, using a dataset that integrates structured and unstructured data such as budget, genre combinations, actors’ prior awards or nominations, and sentiment-based features from audience reviews. Several supervised learning algorithms were evaluated, including logistic regression, support vector machines (SVM), and random forest, using performance metrics such as precision, recall, F1-score, and AUC, under cross-validation schemes and an out-of-time (OOT) test set. The results show that random forest, after applying feature importance-based selection, achieved the best balance between predictive accuracy and generalization, with an F1-score above 0.75 and an AUC close to 0.90, indicating robust performance on unseen data. The feature importance analysis identified production budget, movie genre combination, actors with prior nominations or awards, release date, and audience reviews as the most influential variables. These findings confirm that integrating economic, artistic, and perceptual attributes enables the construction of a reliable model to support strategic decision-making and reduce investment risk in the film industry.
Type
http://purl.org/coar/resource_type/c_bdccRights
http://purl.org/coar/access_right/c_abf2Language
spaCollections
Except where otherwise noted, this item's license is described as http://purl.org/coar/access_right/c_abf2

