2
关注
4291
浏览

数据清洗的方法?

查看全部 1 个回答

luffy01 注册会员 用户来自于: 浙江省杭州市
2020-05-06 18:43

1.解决不完整数据( 即值缺失)的方法

大多数情况下,缺失的值必须手工填入( 即手工清理)。当然,某些缺失值可以从本数据源或其它数据源推导出来,这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值,从而达到清理的目的。

2.错误值的检测及解决方法

用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库( 常识性规则、业务特定规则等)检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据。

3.重复记录的检测及消除方法

数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除)。合并/清除是消重的基本方法。

4.不一致性( 数据源内部及数据源之间)的检测及解决方法

从多数据源集成的数据可能有语义冲突,可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,从而使得数据保持一致。目前开发的数据清理工具大致可分为三类。

数据迁移工具允许指定简单的转换规则,如:将字符串“female”替换成“女”。

数据清洗工具使用领域特有的知识( 如,邮政地址)对数据作清洗。它们通常采用语法分析和模糊匹配技术完成对多数据源数据的清理。

数据审计工具可以通过扫描数据发现规律和联系。因此,这类工具可以看作是数据挖掘工具的变形。


关于作者

问题动态

发布时间
2020-05-06 18:41
更新时间
2020-05-06 18:43
关注人数
2 人关注

相关问题

抽烟人数数据集
在数据看板页面,我如何查看数据明细呢?
2015接受寄养社会工作人员的寄养儿童总人数数据集
人口失踪数据
动物骨骼数据集
我有分析主题,但是我不知道该准备什么样的基础数据,怎么办?有没有标准的方法或者流程?
在数据管理页面,点击中间表,为什么无法修改数据类型?
钢塔检验数据集
八大分析模型数据源分享
在数据看板中,如果将布局模式由自由布局改变为网格布局后,历史问答的大小不能调整吗?

推荐内容

数据表种的列信息可以包含哪些数据内容?
能不能对表格状态下的数据设置根据大小显示不同的颜色
在英文环境下,如何查看具体星期某一天的数据?
在英文环境下,如何查看过去xx月的数据情况?
在英文环境下,如何查看某个时间段之间的数据?
我可以在搜索页面直接添加数据看板吗?
在英文环境下,如何查看本季度到目前的数据情况?
怎样进行数值列的分组统计?
想只取每个单位“日期”最大的那一条数据怎么限制呢?
怎样观察按指定数值列降序排序的数据情况?升序呢?

热门话题

数据库

数据仓库

数据可视化

中间表

数据挖掘

热门专栏

数据分析模型探讨研究

热门用户

雅俗、

小玉

Bella

叮咚

datafocuse2f4b311da96137ca94a5c