Actividad 01
Diseño Experimental: Análisis de regresión
Competencia Kaggle
En esta actividad usted construirá modelos de regresión lineal para predecir la variable total_updrs
en función de las otras 19 variables predictoras. El término UPDRS se refiere a la puntuación total de la Escala Unificada de Evaluación de la Enfermedad de Parkinson (UPDRS, por sus siglas en inglés: Unified Parkinson’s Disease Rating Scale).
Para resolver esta actividad usted podrá trabajar de forma individual o máximo en parejas y utilizará la plataforma Kaggle para evaluar el desempeño de sus modelos e ir mejorando a través del tiempo en la posición de la competencia, buscando el modelo que tenga el menor error, es decir, el modelo con mayor capacidad predictiva.
Entregables
En esta actividad el propósito no solo es construir modelos con alta precisión, sino también responder preguntas como las siguientes:
- ¿Son necesarias todas las variables para tener un modelo con alta calidad predictiva?
- ¿Cuáles variables son más importantes para la predicción?
- ¿Será conveniente aplicar transformaciones matemáticas (logaritmos, raíz cuadrada, etc.)?
- ¿Las variables numéricas podrían ser tratadas como categóricas?
Para ello usted deberá realizar dos entregas:
- Análisis exploratorio: entrega de documento HTML, Word o PDF con los resultados del análisis exploratorio. No se aceptarán gráficos o tablas sin interpretación. La idea es que la exploración de datos pueda guiarlos en la construcción de los modelos. En este entregable usted debe caracterizar la información suministrada, para ello use gráficos, métricas o tablas resumen.
- Ajuste y evaluación de modelos: entrega de documento HTML, Word o PDF con los resultados de la construcción, evaluación y comparación de modelos. En esta entrega usted deberá considerar las métricas con las que evaluó el modelo, la estrategia de validación cruzada que utilizó, el diagnóstico de residuales, la validación de multicolinealidad, etc. Deberá mostrar e interpretar los coeficientes de sus modelos, junto con ello deberá describir brevemente por qué y cómo eligió las variables predictoras de sus modelos candidatos.
Al final, lo que se espera es que la entrega 2 sea la continuación de su análisis exploratorio, de tal forma que al revisar ambos documentos se entienda como un solo desarrollo, siempre teniendo en cuentaque exista un hilo conductor en los entregables.
Fechas de entrega
- Primera entrega: máximo el 30 de marzo de 2025
- Segunda entrega: máximo el 17 de abril de 2025
Base de datos
La base de datos fue tomada del artículo científico Accurate Telemonitoring of Parkinson’s Disease Progression by Noninvasive Speech Tests
Nombre de la variable | Rol | Tipo | Descripción |
---|---|---|---|
id | ID | Continuo | Identificación de la observación (no se debe usar para modelación) |
total_updrs | Respuesta | Continuo | Puntuación total de UPDRS |
age | Predictora | Entero | Edad del sujeto |
sex | Predictora | Categórica | Sexo del sujeto ‘0’ - masculino, ‘1’ - femenino |
test_time | Predictora | Continuo | Tiempo transcurrido desde el reclutamiento en el estudio. La parte entera es el número de días desde el reclutamiento. |
jitter_percent | Predictora | Continuo | Variación en la frecuencia fundamental |
jitter_abs | Predictora | Continuo | Variación en la frecuencia fundamental |
jitter_rap | Predictora | Continuo | Variación en la frecuencia fundamental |
jitter_ppq5 | Predictora | Continuo | Variación en la frecuencia fundamental |
jitter_ddp | Predictora | Continuo | Variación en la frecuencia fundamental |
shimmer | Predictora | Continuo | Variación en la amplitud de la señal |
shimmer_d_b | Predictora | Continuo | Variación en la amplitud de la señal |
shimmer_apq3 | Predictora | Continuo | Variación en la amplitud de la señal |
shimmer_apq5 | Predictora | Continuo | Variación en la amplitud de la señal |
shimmer_apq11 | Predictora | Continuo | Variación en la amplitud de la señal |
shimmer_dda | Predictora | Continuo | Variación en la amplitud de la señal |
nhr | Predictora | Continuo | Medidas de la relación entre componentes de ruido y tonalidad en la voz |
hnr | Predictora | Continuo | Medidas de la relación entre componentes de ruido y tonalidad en la voz |
rpde | Predictora | Continuo | Medida de complejidad no lineal dinámica |
dfa | Predictora | Continuo | Exponente de escalado fractal de la señal |
ppe | Predictora | Continuo | Medida no lineal de la variación de la frecuencia fundamental |