2
follow
2643
views

数据清洗过程的具体步骤有哪些?

Why is it folded? 0 个回复被折叠
DataFocus 初级会员 User from: 浙江省杭州市
2020-05-29 13:34

数据清理一般针对具体应用,因而难以归纳统一的方法和步骤,但是根据数据不同可以给出相应的数据清理方法。 

1.解决不完整数据( 即值缺失)的方法 大多数情况下,缺失的值必须手工填入( 即手工清理)。当然,某些缺失值可以从本数据源或其它数据源推导出来,这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值,从而达到清理的目的。 

2.错误值的检测及解决方法 用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库( 常识性规则、业务特定规则等)检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据。

3.重复记录的检测及消除方法 数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除)。合并/清除是消重的基本方法。 

4.不一致性( 数据源内部及数据源之间)的检测及解决方法 从多数据源集成的数据可能有语义冲突,可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,从而使得数据保持一致。目前开发的数据清理工具大致可分为三类。 数据迁移工具允许指定简单的转换规则,如:将字符串“female”替换成“女”。 数据清洗工具使用领域特有的知识( 如,邮政地址)对数据作清洗。它们通常采用语法分析和模糊匹配技术完成对多数据源数据的清理。 数据审计工具可以通过扫描数据发现规律和联系。因此,这类工具可以看作是数据挖掘工具的变形。

About the author

Problem dynamics

Release time
2020-04-16 14:57
Update time
2020-05-29 13:34
Focused
2 people pay attention to

Related issues

水域数据集
数据表建立了关联关系,打开关联关系显示为空?
拥有数据管理权限的用户可以看到哪些数据?
在英文环境下,如何查看下个季度的数据预测情况?
在数据管理和搜索页面创建中间表有何区别?
动物之森物品数据集
痴呆和非痴呆成年人的磁共振成像比较数据
想要形成一个经纬图,需要满足什么数据前提条件?
电视连续剧数据集
看板中,有个图表没有数据,是什么原因?

Recommended content

柱状图中我想要对特定数值,比如对金额小于1000的柱形突出显示要怎么做呢
想要形成一个经纬图,需要满足什么数据前提条件?
如何语言切换?
怎样将行转换为列?
折线图适用于什么样的数据结构中?
为什么我用目的省份和销售金额,无法选择地图功能?
大屏里的组件模版可以存为模版吗
钻取数据是什么,有哪几种钻取数据的方式?
数据看版中的图表能展示多少数据?

Site announcement

DataFocus V6产品升级发布会:大模型的杀手级应用,来了!
北京时间,2024年1月26日 - 在这个数据驱动的时代,高效、准确的数据分析工具对于企业决策的重要性不言而喻。作为中国领先的AI搜索式数据分析平台,DataFocus一直致力于为用户提供更智能、更敏捷的数据分析解决方案。今天,DataFocus在杭州隆重举办了V6产品升级发布会,向全球用户展示了其...

hot topic

搜索功能

数据分享

数据源

安装升级

数据可视化

Popular column

数据分析模型探讨研究