gravatar

jboscomendoza

Juan Bosco Mendoza Vega

Recently Published

Visualizando los contagios y muertes de Coronavirus (COVID-19) con R
En este artículo revisaremos una manera de visualizar los datos disponibles de contagio y fallecimientos por Coronavirus que pueden ayudar a responder estas preguntas, usando R. Al concluir este artículo, podrás generar un gráfico que compara las tendencias de cuatro países diferentes.
XGBoost en R
XGBoost o Extreme Gradient Boosting, es uno de los algoritmos de machine learning de tipo supervisado más usados en la actualidad. En este artículo revisaremos la implementación de XGBoost en R. Veremos cómo preparar los datos para usar este algoritmo, sus hiper parámetros básicos y una manera sencilla de evaluar sus resultados.
Correlación biserial puntual - Psicometría con R
Al evaluar la calidad de un instrumento psicométrico, una de las tareas más importantes es analizar las características de los ítems (reactivos) que lo conforman. Una de ellas es el índice de discriminación, la cual es tomada en cuenta tanto en Teoría Clásica de los Tests (TCT) como en Teoría de la Respuesta al Ítem (TRI). En TCT, la práctica más común es utilizar el coeficiente de correlación biserial puntual (también llamada punto biserial) para estimar la discriminación de los ítems. De hecho, en la práctica es frecuente que la discriminación y la correlación biserial puntual sean usados de manera indistinta, aunque no son exactamente la misma cosa. Por lo tanto, es relevante conocer a qué se refiere cada uno de estos términos. En este artículo revisaremos una definición general de discriminación desde la TCT, su relación con la correlación biserial puntual y la manera de estimar este coeficiente en R.
Resultados Planea Preescolar - 2018
En este artículo se muestran los resultados del Plan Nacional para la Evaluación de los Aprendizajes (Planea) aplicada por el En este artículo mostraré los resultados del Plan Nacional para la Evaluación de los Aprendizajes (Planea) aplicada por el Instituto Nacional para la Evaluación de la Educación (INEE) de México a estudiantes de preescolar al final del ciclo escolar 2017-2018.
Variables dummy (on-hot encoding) con R
Los datos categóricos o nominales, como su nombre lo indica, son usados para nombrar o categorizar información. Este tipo de dato se caracteriza por no ser ordenado, incluso si se usan números para representarlos. En este artículo revisaremos cómo crear variables dummy en R a partir de variables categóricas, definiendo nuestra propia función y usando el paquete fastDummies.
Redes relacionales con R - Tipos de Pokémon
Las redes relacionales son una manera de visualizar información que resulta muy útil para datos cualitativos y cuantitativos. Como su nombre lo indica, este tipo de redes son utilizadas para mostrar relaciones entre datos, generalmente nominales (nombres, categorías, etiquetas). Por ejemplo, la afinidad entre los integrantes de un equipo de trabajo, los principales clientes de diferentes centros de distribución, dependencias entre procesos y muchas otras cosas más. Para esta entrada, usaremos como ejemplo datos de la serie de juegos Pokémon, así que para empezar, hablaremos de de qué trata este juego y después veremos cómo crear, paso a paso, una red relacional usando los paquetes ggraph e igraph de R.
Usando R y Data Science para analizar los precios de Magic: the Mathering
Un proyecto de Data Science usando R y datos del sitio MTG Goldfish para estimar la posibilidades de recuperar la inversión en Magic, en particular, al comprar una caja de sobres de cartas
nálisis de Componentes Principales para clasificar superhéroes
En este documento revisaremos como implementar el Análisis de Componentes Principales usando el paquete **psych** de R, y de paso aprenderemos un poco más sobre los superhéroes de DC Comics y Marvel Comics.
Mapas temáticos con R - Homicidios en México durante el 2017
Revisaremos cómo crear mapas temáticos coroplépticos es decir, coloreados de acuerdo a un criterio cuantitativo, con R. Exploraremos dónde han ocurrido los homicidios en México durante el año 2017.
Webscrapping, APIs y minería de texto con R. Análisis de sentimientos de Coheed and Cambria
Revisaremos cómo usar R para hacer *web scraping* (extracción automatizada de contenido de páginas web), interactuar con APIs (interfaces de programación de aplicaciones, en este caso, en línea) y realizar minería de textos para producir un análisis de sentimientos, usando como caso de análisis las letras de Coheed and Cambria.
Alfa de Cronbach - Psicometría con R
En esta artículo revisaremos como obtener e interpretar el coeficiente Alfa de Cronbach usando el paquete psych de R. Para ello usaremos un conjunto de datos abierto, correspondiente a un test de inteligencia aplicado en línea.
Redes semánticas con R
En este artículo revisaremos como crear redes semánticas usando R, y en el proceso veremos cómo hacer algunas de las tareas más comunes al procesar texto. Usamos como ejemplo la novela "El Amigo Manso" de Benito Peréz Galdós.
Arboles de decisión con R - Clasificación
En este artículo revisaremos lo esencial para implementar árboles de decisión en R, en particular el caso de los árboles de clasificación, usando el paquete rpart. Utilizaremos un conjunto de datos usado frecuentemente para probar métodos de aprendizaje automático en nuestro ejemplo y durante el proceso daremos también un vistazo a algunos problemas comunes al procesar información en R.
Análisis de sentimientos con R - Léxico Afinn
En este documento revisaremos cómo realizar análisis de sentimientos usando R y el léxico Afinn. Nos enfocaremos en algunas de las opciones que tenemos para analizar sentimientos usando R más que en los resultados específicos de los datos que usaremos, pero en el proceso veremos maneras para contestar ciertas preguntas: ¿Cuáles palabras han influido para determinar los sentimientos? ¿Qué sentimientos han sido predominantes? ¿Positivos, negativos? ¿Cómo han cambiado los sentimientos a través del tiempo? Como datos usaremos la actividad de Twitter de los candidatos a la presidencia de México durante el 2018, hasta el 11 de Abril.
Naïve Bayes con R para clasificacion de texto
En este artículo revisaremos como implementar Naïve Bayes (clasificador Bayesiano ingenuo) para clasificar texto usando R. Naïve Bayes es un algoritmo de aprendizaje automático basado en el teorema de Bayes que aunque es sencillo de implementar, tiende a dar buenos resultados. Nuestro objetivo será determinar si un tuit en particular fue hecho por un usuario específico o no, a partir de su contenido. Los datos que usaremos contienen tuits que pertenecen a cuatro cuentas, mezclados con tuits de multiples usuarios. Además, veremos cómo podemos sistematizar la implementación de este algoritmo en R.
La importancia de explorar nuestros datos (Ventas de videojuegos con R)
La exploración de nuestros datos es un paso esencial para cualquier tipo de análisis que deseemos realizar. Si no conocemos la estructura de nuestros datos, sus propiedades y particularidades, después podemos encontrarnos con problemas para analizar, modelar e interpretar resultados. Para este documento utilizaremos datos de ventas de videojuegos y partiremos con una pregunta: ¿Cuál ha sido la tendencia de ventas de videojuegos en los últimos 20 años?
Análisis exploratorio de datos - Encontrar y visualizar inconsistencias en los datos
El propósito de este documento es mostrar algunas herramientas para para realizar análisis exploratorios y entender la calidad de los datos con los que contamos.
Importar hojas de cálculo de Excel a R con readxl
En este documento se revisa como importar datos contenidos en hojas de cálculo de Excel usando el paquete readxl así como solucionar algunos problemas a los que nos enfrentamos regularmente al realizar esta tarea.
Introducción a la minería de textos con R
En este documento se presenta cómo realizar operaciones elementales de mineria de textos usando R, las cuales deberían proporcionar suficientes herramientas para análisis más completos y complejos. No pretende ser una guía exahustiva, sólo un documento introductorio de referencia.
R y Estadística - Sitios útiles
Lista de sitios y páginas útiles acerca de R y Estadística.