本文用于记录机器学习中的一次入门练习,即:利用决策树进行简单的二分类。同时,结合Kaggle上的经典案例Titanic,来测试实际效果。
一、数据集
采用Kaggle中的Titanic的数据集。数据包含分为:
- 训练集: training set (train.csv)
- 测试集: test set (test.csv)
- 提交标准: gender_submission.csv
由于Kaggle涉及到科学上网的操作,所以原始数据集已经下载好放在Gighub上了。
二、数据处理
首先导入训练集,查看数据的情况:
1 | from sklearn.tree import DecisionTreeClassifier # 导入模型决策树分类器 |