2
关注
4699
浏览

数据清洗过程的具体步骤有哪些?

查看全部 1 个回答

DataFocus 初级会员 用户来自于: 浙江省杭州市
2020-05-29 13:34

数据清理一般针对具体应用,因而难以归纳统一的方法和步骤,但是根据数据不同可以给出相应的数据清理方法。 

1.解决不完整数据( 即值缺失)的方法 大多数情况下,缺失的值必须手工填入( 即手工清理)。当然,某些缺失值可以从本数据源或其它数据源推导出来,这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值,从而达到清理的目的。 

2.错误值的检测及解决方法 用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库( 常识性规则、业务特定规则等)检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据。

3.重复记录的检测及消除方法 数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除)。合并/清除是消重的基本方法。 

4.不一致性( 数据源内部及数据源之间)的检测及解决方法 从多数据源集成的数据可能有语义冲突,可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,从而使得数据保持一致。目前开发的数据清理工具大致可分为三类。 数据迁移工具允许指定简单的转换规则,如:将字符串“female”替换成“女”。 数据清洗工具使用领域特有的知识( 如,邮政地址)对数据作清洗。它们通常采用语法分析和模糊匹配技术完成对多数据源数据的清理。 数据审计工具可以通过扫描数据发现规律和联系。因此,这类工具可以看作是数据挖掘工具的变形。

关于作者

问题动态

发布时间
2020-04-16 14:57
更新时间
2020-05-29 13:34
关注人数
2 人关注

相关问题

精神病院设施数据
游戏评分数据
2018情绪虐待人数数据集
数据看板中,能增加数据列吗?
结构化数据可以分为哪几种类型?
公司股票数据
在英文环境下,如何查看数据列中包含某字符串的数据?
假币数据集
股票市场评论数据集
要对系统已经存在的数据表,进行多个维度筛选,例如业务数据发生在3个月之内的,并且要体现数据中的不连续日期的数据,需要怎么实现

推荐内容

在数据看板中能否做到多图表一同编辑?
datafocus的数据看板优势在哪里?
系统可视化的响应速度情况?
datafocus支持3D动态效果吗?
图形展示的数据量是不是有限的?
在进行堆积条形图的设计时应当注意些什么?
怎么让大屏里的组件自动对齐呢?
国内有哪些大数据公司?
怎么将做好的报表,让他人查看?
如何在可视化大屏中增加文本注释等内容?

热门话题

BI

数据地图

新人报道第一次使用

数据分享

数据看板

热门专栏

数据分析模型探讨研究

热门用户

datafocus6cbde208694dc540012c8b

叮咚

datafocus8414cae6c6eedd998c7582

胖子君

sophia