Actividad 01

Diseño Experimental: Análisis de regresión

Author

Edimer David Jaramillo

Published

March 13, 2025

Competencia Kaggle

En esta actividad usted construirá modelos de regresión lineal para predecir la variable total_updrs en función de las otras 19 variables predictoras. El término UPDRS se refiere a la puntuación total de la Escala Unificada de Evaluación de la Enfermedad de Parkinson (UPDRS, por sus siglas en inglés: Unified Parkinson’s Disease Rating Scale).

Para resolver esta actividad usted podrá trabajar de forma individual o máximo en parejas y utilizará la plataforma Kaggle para evaluar el desempeño de sus modelos e ir mejorando a través del tiempo en la posición de la competencia, buscando el modelo que tenga el menor error, es decir, el modelo con mayor capacidad predictiva.

⚠️⚠️Enlace de competencia - Kaggle

Entregables

En esta actividad el propósito no solo es construir modelos con alta precisión, sino también responder preguntas como las siguientes:

  • ¿Son necesarias todas las variables para tener un modelo con alta calidad predictiva?
  • ¿Cuáles variables son más importantes para la predicción?
  • ¿Será conveniente aplicar transformaciones matemáticas (logaritmos, raíz cuadrada, etc.)?
  • ¿Las variables numéricas podrían ser tratadas como categóricas?

Para ello usted deberá realizar dos entregas:

  1. Análisis exploratorio: entrega de documento HTML, Word o PDF con los resultados del análisis exploratorio. No se aceptarán gráficos o tablas sin interpretación. La idea es que la exploración de datos pueda guiarlos en la construcción de los modelos. En este entregable usted debe caracterizar la información suministrada, para ello use gráficos, métricas o tablas resumen.
  2. Ajuste y evaluación de modelos: entrega de documento HTML, Word o PDF con los resultados de la construcción, evaluación y comparación de modelos. En esta entrega usted deberá considerar las métricas con las que evaluó el modelo, la estrategia de validación cruzada que utilizó, el diagnóstico de residuales, la validación de multicolinealidad, etc. Deberá mostrar e interpretar los coeficientes de sus modelos, junto con ello deberá describir brevemente por qué y cómo eligió las variables predictoras de sus modelos candidatos.

Al final, lo que se espera es que la entrega 2 sea la continuación de su análisis exploratorio, de tal forma que al revisar ambos documentos se entienda como un solo desarrollo, siempre teniendo en cuentaque exista un hilo conductor en los entregables.

Fechas de entrega

  • Primera entrega: máximo el 30 de marzo de 2025
  • Segunda entrega: máximo el 17 de abril de 2025

Base de datos

La base de datos fue tomada del artículo científico Accurate Telemonitoring of Parkinson’s Disease Progression by Noninvasive Speech Tests

Nombre de la variable Rol Tipo Descripción
id ID Continuo Identificación de la observación (no se debe usar para modelación)
total_updrs Respuesta Continuo Puntuación total de UPDRS
age Predictora Entero Edad del sujeto
sex Predictora Categórica Sexo del sujeto ‘0’ - masculino, ‘1’ - femenino
test_time Predictora Continuo Tiempo transcurrido desde el reclutamiento en el estudio. La parte entera es el número de días desde el reclutamiento.
jitter_percent Predictora Continuo Variación en la frecuencia fundamental
jitter_abs Predictora Continuo Variación en la frecuencia fundamental
jitter_rap Predictora Continuo Variación en la frecuencia fundamental
jitter_ppq5 Predictora Continuo Variación en la frecuencia fundamental
jitter_ddp Predictora Continuo Variación en la frecuencia fundamental
shimmer Predictora Continuo Variación en la amplitud de la señal
shimmer_d_b Predictora Continuo Variación en la amplitud de la señal
shimmer_apq3 Predictora Continuo Variación en la amplitud de la señal
shimmer_apq5 Predictora Continuo Variación en la amplitud de la señal
shimmer_apq11 Predictora Continuo Variación en la amplitud de la señal
shimmer_dda Predictora Continuo Variación en la amplitud de la señal
nhr Predictora Continuo Medidas de la relación entre componentes de ruido y tonalidad en la voz
hnr Predictora Continuo Medidas de la relación entre componentes de ruido y tonalidad en la voz
rpde Predictora Continuo Medida de complejidad no lineal dinámica
dfa Predictora Continuo Exponente de escalado fractal de la señal
ppe Predictora Continuo Medida no lineal de la variación de la frecuencia fundamental