En los últimos años se ha extendido el uso de técnicas y herramientas relacionadas con el manejo de datos masivos en muy distintas áreas de conocimiento, incluido el análisis económico aplicado. Sin embargo, muchos economistas formados en la estadística y econometría tradicionales se encuentran con ciertas barreras de entrada en este campo, incluyendo la escasez de referencias introductorias que ayuden a salvar el obstáculo que suponen las diferentes terminologías utilizadas o expliquen de manera comprensible qué aporta el uso de estas técnicas y cómo se relacionan y complementan con la econometría clásica.
En este contexto, Fedea publica hoy un trabajo de Matthew Smith (ESADE) y Francisco Álvarez (UCM) que pretende contribuir a mejorar el conocimiento de las técnicas usadas en el análisis de datos masivos, siguiendo para ello una aproximación rigurosa, pero a la vez muy práctica e intuitiva. El trabajo se centra en explicar qué aportan las principales técnicas de Machine Learning (ML) en el análisis ex post, que es recurrente en el ámbito económico, focalizándose en los problemas de predicción y de categorización.
En particular, en el trabajo se abordan dos de los modelos de machine learning más utilizados: los árboles de decisión y las redes neuronales. Además de explicar en detalle la terminología utilizada y la lógica subyacente a estos modelos, el trabajo desarrolla algunos ejemplos con código Python. Los autores destacan las ventajas de estos modelos, que aportan una enorme flexibilidad en contextos en los que las relaciones económicas subyacentes son no lineales, muestran elevadas interacciones entre ellas o tienen que ver con eventos de muy baja frecuencia.
El trabajo discute las diferencias y complementariedades entre los métodos de ML y la econometría más tradicional. Se distingue, por ejemplo, entre la estrategia de aprendizaje estadístico propia del ML y la inferencia estadística propia de la econometría. También se discute el concepto de hiperparámetro, la partición de la muestra en subconjuntos de entrenamiento del modelo y de evaluación de su capacidad predictiva y cómo se abordan los problemas de sobreajuste (over fitting) en el contexto de los modelos de ML.
Los autores concluyen que los dos enfoques ofrecen ventajas específicas dependiendo de la pregunta de investigación y la naturaleza de los datos, pero indican que las técnicas de Machine Learning constituyen una herramienta básica que los economistas deben incorporar a su kit de equipamiento para el análisis de datos ya que aumentan su capacidad para analizar relaciones complejas y mejoran la capacidad predictiva de sus modelos.
Documento completo
Smith, M. y Álvarez, F. (2025). “Machine Learning for Applied Economic Analysis: Gaining Practical Insights”. FEDEA, no. 2025-03, Madrid.