在上一节中的sklearn
中常用的数据预处理基本方法。
数据预处理
从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程。
可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小。
目的:让数据适应模型,匹配模型的需求。
在上一节中的sklearn
中常用的数据预处理基本方法。
从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程。
可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小。
目的:让数据适应模型,匹配模型的需求。
本文用于记录机器学习中的一次入门练习,即:利用决策树进行简单的二分类。同时,结合Kaggle上的经典案例Titanic,来测试实际效果。
采用Kaggle中的Titanic的数据集。数据包含分为:
由于Kaggle涉及到科学上网的操作,所以原始数据集已经下载好放在Gighub上了。
首先导入训练集,查看数据的情况:
1 | from sklearn.tree import DecisionTreeClassifier # 导入模型决策树分类器 |