RPubs

by RStudio

yisu

Recently Published

HTML

6 months ago

The second case of lightgbm algorithm of kaggle

over 8 years ago

lightgbm algorithm case of kaggle

1.背景介绍本案例使用的数据为kaggle中“Santander Customer Satisfaction”比赛的数据。此案例为不平衡二分类问题，目标为最大化auc值（ROC曲线下方面积）。竞赛题目链接为：https://www.kaggle.com/c/santander-customer-satisfaction 。目前此比赛已经结束。 2.建模思路本文档采用微软开源的lightgbm算法进行分类，运行速度极快，超过xgboost算法与rxFastForest算法。 1) 读取数据； 2) 并行运算：由于lightgbm包可以通过设置相应参数进行并行运算，因此不再调用doParallel与foreach包进行并行运算； 3) 特征选择：使用mlr包提取了99%的信息增益； 4) 调参：逐步调试lgb.cv函数的参数，并多次调试，直到满意为止； 5) 集成预测结果：在每个参数的适宜范围内随机抽取参数值构建lightgbm模型，并将多个模型进行集成，输出预测结果；本案例所用程序输出结果的ROC值为0.832023,已绝对超过Private Leaderboard排名第一的结果(0.829072)。

over 8 years ago

The rxfastforest algorithm case of kaggle

1.背景介绍本案例使用的数据为kaggle中“Santander Customer Satisfaction”比赛的数据。此案例为不平衡二分类问题，目标为最大化auc值（ROC曲线下方面积）。竞赛题目链接为：https://www.kaggle.com/c/santander-customer-satisfaction 。目前此比赛已经结束。 2.建模思路此文档采用R中的mlr包中的smote算法来处理数据类别不平衡的问题，用Microsoft R Server(专业版R)中的RevoScaleR包中rxFastForest函数进行随机森林建模。采用mlr包调用randomforest包的randomForest函数建模，进行并行运算，效率依然低下，不能满足正常工作；因此需要调用RevoScaleR包的函数，rxDForest可以进行随机森林建模，但是效率远低于rxFastForest函数，因此本文档采用rxFastForest函数。由于随机森林函数效率较低，因此此文档所读取的数据为“ http://rpubs.com/yisu/xgboost_mlr_kaggle_case_oversample ” 文档中处理后的xgb_tr3,xgb_te3数据（提取信约95%的信息增益）；故而本文档直接进入建模部分，不再做数据探索与处理。 1) 读取数据； 2) 并行运算：由于rxFastForest函数可以通过设置相应参数进行并行运算，因此不再调用doParallel与foreach包进行并行运算； 3) 特征选择：本文档不再处理； 4) 调参：逐步调试rxFastForest函数的参数，并多次调试，直到满意为止； 5) 集成预测结果：在每个参数的适宜范围内随机抽取参数值构建rxFastForest模型，并将多个模型进行集成，输出预测结果；本案例所用程序输出结果的ROC值为0.829533,已超过Private Leaderboard排名第一的结果。

over 8 years ago

xgboost算法-kaggle案例

本案例使用的数据为kaggle中“Santander Customer Satisfaction”比赛的数据。此案例为不平衡二分类问题，目标为最大化auc值（ROC曲线下方面积）。竞赛题目链接为：https://www.kaggle.com/c/santander-customer-satisfaction 。目前此比赛已经结束。

over 8 years ago

Sign In

RPubs

yisu

yisu

Recently Published

HTML

The second case of lightgbm algorithm of kaggle

lightgbm algorithm case of kaggle

The rxfastforest algorithm case of kaggle

xgboost算法-kaggle案例