Recently Published
Proyecto de clasificación de vinos
Este proyecto ofrece un análisis comparativo entre Gaussian Naive Bayes y K-Nearest Neighbors (KNN) en el dataset Wine de UCI, usando R y R Markdown para plena reproducibilidad. El flujo de trabajo es riguroso e incluye: análisis exploratorio profundo (distribuciones, pruebas de normalidad Shapiro-Wilk, asimetría, correlaciones y balance de clases); preprocesamiento justificado con transformación logarítmica selectiva en variables asimétricas (Ácido Málico y Magnesio) para mejor adherencia gaussiana; modelado y evaluación exhaustiva con partición estratificada 70/30, validación cruzada repetida (10×5), optimización de hiperparámetros (KNN), métricas (Accuracy, Kappa) y test de McNemar; visualizaciones de calidad (histogramas, matriz de correlación, fronteras de decisión, distribuciones por clase y análisis de errores); y validación extra con predicciones en casos sintéticos y probabilidades de clase (Naive Bayes).
Miniproyecto: Clasificación Multiclase de Hongos con Naive Bayes Categórico | Análisis del Dataset Mushroom
Este análisis clasifica hongos como comestibles o venenosos en el dataset Mushroom de UCI (8.124 observaciones, 23 variables categóricas) usando Naive Bayes Categórico en R.
Aspectos clave:
Descarga automática y limpieza (manejo de valores faltantes "?").
Análisis exploratorio: distribución de clases y poder discriminativo de variables (destacando odor).
Modelado Naive Bayes: comparación entre modelo simple (solo odor) y completo (todas las variables).
Validación con 10-fold CV y partición train/test.
Comparación con KNN (one-hot encoding y optimización de k).
Visualizaciones y métricas clave (Accuracy, matriz de confusión, falsos negativos).
Hallazgos principales:
Naive Bayes solo con odor logra 98.89% accuracy en test y 98.52% en CV, superando al modelo completo (95.01%).
Evidencia de dilución de señal por variables redundantes.
KNN alcanza hasta 100% accuracy con k óptimo, pero exige más preprocesamiento y pierde interpretabilidad.
Confirmación del principio de parsimonia: la simplicidad prevalece.
Primer proyecto machine learning en R
Predicción de Radiación Solar en La Puntilla, Pichilemu
Este proyecto crea un modelo de machine learning para predecir la radiación solar descendente en superficie en el sector costero La Puntilla, Pichilemu (Chile), usando datos diarios de NASA POWER (2001-2025).
Se emplean regresiones regularizadas (Ridge, Lasso y Elastic Net) para tratar multicolinealidad y seleccionar variables entre 17 predictores climáticos (temperatura, humedad, viento, presión, etc.).
Resultados clave:
Modelo óptimo: Elastic Net (α=0.10, λ≈0.0009)
R² = 0.96 en test (explica 96% de la varianza)
RMSE = 0.19 (escala estandarizada)
Mejora del 79.4% en error respecto al baseline (media)
Incluye análisis exploratorio, diagnóstico de supuestos (normalidad, homocedasticidad, autocorrelación), visualizaciones climáticas, mapa interactivo y comparación de modelos.