2
关注
4769
浏览

数据清洗过程的具体步骤有哪些?

您还未登录!暂时最多只可查看 1 条回答

登录! 还没有账号?去注册

DataFocus 初级会员 用户来自于: 浙江省杭州市
2020-05-29 13:34

数据清理一般针对具体应用,因而难以归纳统一的方法和步骤,但是根据数据不同可以给出相应的数据清理方法。 

1.解决不完整数据( 即值缺失)的方法 大多数情况下,缺失的值必须手工填入( 即手工清理)。当然,某些缺失值可以从本数据源或其它数据源推导出来,这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值,从而达到清理的目的。 

2.错误值的检测及解决方法 用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库( 常识性规则、业务特定规则等)检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据。

3.重复记录的检测及消除方法 数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除)。合并/清除是消重的基本方法。 

4.不一致性( 数据源内部及数据源之间)的检测及解决方法 从多数据源集成的数据可能有语义冲突,可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,从而使得数据保持一致。目前开发的数据清理工具大致可分为三类。 数据迁移工具允许指定简单的转换规则,如:将字符串“female”替换成“女”。 数据清洗工具使用领域特有的知识( 如,邮政地址)对数据作清洗。它们通常采用语法分析和模糊匹配技术完成对多数据源数据的清理。 数据审计工具可以通过扫描数据发现规律和联系。因此,这类工具可以看作是数据挖掘工具的变形。

关于作者

问题动态

发布时间
2020-04-16 14:57
更新时间
2020-05-29 13:34
关注人数
2 人关注

相关问题

巴士站数据集
DataFocus的可视化支持实时的数据展示吗?
数据看板的“编辑”页面下,自由布局和网格布局删除组件的方式有什么区别?
2018寄养儿童总人数数据集
特殊照顾儿童人数数据集
2017教育福利主任出席的儿童保护会议数量数据集
物品批发数据集
漏斗图的特点是什么,适用于分析那种类型的数据?
油气生产数据集
为什么datafocus可以胜任大数据分析场景?

推荐内容

怎么点缀我的大屏,让它更容易被理解?
如何选择标签?
DataFocus制成图表后如何显示图表的数据标签?
数据看板中单个图表怎么筛选过滤?
在图表中可以自定义配置显示名称吗?
依据绘图阶段分类数据可视化有哪些分类?
我设置了列宽为20,为什么没有显示到数值表中?
什么图形适合查看数据分布,例如异常值等等?
面积图和折线图有点类似的感觉?
1600多行数据怎么显示在一页里?

热门话题

BI

搜索式

问题修复

散点图

数据看板

热门专栏

数据分析模型探讨研究

热门用户

电商1211李诗盈

datafocus5e6b6223a59f17ef03dc11

camille

滴滴叭叭唔

Bella