在上一节中的泰坦尼克号入门案例的数据预处理过程中,出现了数据不完整、数据的编码(数值转化),即将非结构化文本转化为结构化文本。本文主要用来记录在sklearn中常用的数据预处理基本方法。

数据预处理

从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程。

可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小。

目的:让数据适应模型,匹配模型的需求。