Actividad 01
Estadística: Diagnóstico de datos ordenados
Objetivo
Desarrollar habilidades para identificar si una base de datos cumple con los principios de “tidy data” (datos ordenados) y justificar adecuadamente el diagnóstico realizado.
Descripción
En esta actividad, usted deberá buscar y seleccionar diferentes conjuntos de datos para realizar un diagnóstico que permita determinar si cumplen con los principios de datos ordenados (tidy data) establecidos por Hadley Wickham.
Selección de datos:
- Seleccione mínimo 5 conjuntos de datos diferentes que cumplan con mínimo una característica para ser considerado como desordenado. Las fuentes de información en las que puede buscar son las siguientes:
- Datos abiertos - Colombia
- Datos abiertos - EEUU
- Datos abiertos - Europa
- Datos abiertos - Argentina
- Datos abiertos - México
- No es estrictamente obligatorio que use estas fuentes de datos, si encuentra una o más bases de datos en otros repositorios también será permitido.
- Seleccione mínimo 5 conjuntos de datos diferentes que cumplan con mínimo una característica para ser considerado como desordenado. Las fuentes de información en las que puede buscar son las siguientes:
Diagnóstico: para cada conjunto de datos, realice un diagnóstico completo respondiendo:
- ¿Cumple este conjunto de datos con los principios de tidy data? Justifique su respuesta.
- Específicamente, evalúe si:
- Cada variable forma una columna
- Cada observación forma una fila
- Cada dato o valor está en una celda
- Identifica problemas específicos si los hay (datos anidados, variables en filas, múltiples variables en columnas, etc.)
Propuesta de solución:
- Para los conjuntos de datos que no cumplan con los principios, proponga los pasos específicos que seguiría para transformarlos en formato ordenado
- Mencione qué funciones o herramientas utilizarías (por ejemplo, pivot_longer, pivot_wider, separate, etc.). Nota: no es necesario ejecutar los códigos en R, basta con el diagnóstico.
Documentación:
- Prepare un informe documentando sus hallazgos. Puede ser en formato HTML, PDF o Word.
- Incluya capturas de pantalla o ejemplos visuales de los datos originales donde se puedan identificar los problemas asociados a estas bases de datos.
Fecha y de entrega
- Máximo el 23 de marzo de 2025
- Esta actividad podrá ser desarrollada de forma individual o máximo en parejas.