`

《谁说菜鸟不会数据分析》 学习笔记二 缺失数据处理

阅读更多
可接受的情况是缺失值在10%以下
 
缺失值是指数据集中某个或某些属性的值是不完全的。
 
缺失值产生的原因多种多样,主要分成机械原因人为原因

机械原因是由于数据收集或保存失败造成的数据缺失。比如数据存储的失败、存储器损坏、机械故障导致

                    某段时间数据未能收集等。

人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露

                    相关问题的答案,或对问题的回答是无效的,抑或数据录入人员失误漏录了数据。

 
在数据表中,缺失值最常见的表现形式就是空值或者错误标示符。
 
如何快速找到所有的缺失值:
 
1:定位输入:开始--编辑--定位条件或者直接用快捷键Ctrl+G,弹出“定位”对话框,定位条件--空值--确定
 
处理缺失值的四种方法:

方法一:用一个样本统计量的值代替缺失值,最典型的做法就是使用该变量的样本平均值代替缺失值,

               这种方法是在实际操作中比较常见的实用方法。

方法二:用一个统计模型计算出来的值去代替缺失值。常使用的模型有回归模型、判别模型等,

               不过这得用专业的数据分析软件才行

方法三:将有缺失值的记录删除,不过可能会造成样本量的减少

方法四:将有缺失值的记录保留,仅在相应的分析中做必要的排除。当调查的样本量比较大,

               缺失值的数量又不是很多,而且变量之间也不存在高度相关的情况下,采用这种方式处理缺失值

               比较可行。

 
 
2:Ctrl+Enter
Ctrl+Enter,在不连续的区域中同时输入同一个数据或公式时很好用
eg:

 

 按住Ctrl,选中多个不连续的单元格,松开Ctrl,在最后一个单元格中数据内容:“小白”,同时按下

  Ctrl+Enter,刚选中的多个不连续的单元格都变成相同的内容“小白”。

Ctrl+Enter和定位查找搭配使用,当用F5或Ctrl+G定位方式定位到空白单元格之后,可以输入你想要输入的数据,再按下Ctrl+Enter,所有的空白单元格都会变成你要的样子。
 
3:查找替换
当缺失值是以错误标示符形式出现的时候,可以采用第二种方法--替换查找。
Ctrl+F  查找  Ctrl+H  替换  Ctrl+G  快速定位
  • 大小: 883 Bytes
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics