2
关注
4271
浏览

数据清洗的方法?

您还未登录!暂时最多只可查看 1 条回答

登录! 还没有账号?去注册

luffy01 注册会员 用户来自于: 浙江省杭州市
2020-05-06 18:43

1.解决不完整数据( 即值缺失)的方法

大多数情况下,缺失的值必须手工填入( 即手工清理)。当然,某些缺失值可以从本数据源或其它数据源推导出来,这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值,从而达到清理的目的。

2.错误值的检测及解决方法

用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库( 常识性规则、业务特定规则等)检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据。

3.重复记录的检测及消除方法

数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除)。合并/清除是消重的基本方法。

4.不一致性( 数据源内部及数据源之间)的检测及解决方法

从多数据源集成的数据可能有语义冲突,可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,从而使得数据保持一致。目前开发的数据清理工具大致可分为三类。

数据迁移工具允许指定简单的转换规则,如:将字符串“female”替换成“女”。

数据清洗工具使用领域特有的知识( 如,邮政地址)对数据作清洗。它们通常采用语法分析和模糊匹配技术完成对多数据源数据的清理。

数据审计工具可以通过扫描数据发现规律和联系。因此,这类工具可以看作是数据挖掘工具的变形。


关于作者

问题动态

发布时间
2020-05-06 18:41
更新时间
2020-05-06 18:43
关注人数
2 人关注

相关问题

食物食谱数据集
网球比赛数据
手机数据提取的日常活动
可以对数据看板中的标签进行编辑吗?
工资估算数据
Datafocus 中的数据告警如何设置?可以短信或邮件通知吗?
数据看板”“保存”
国际代码数据集
数据大屏能放到自己的web网站首页里吗?
对某一地区的人数进行统计时,数据表中全部存在数据,但是在搜索时只看到了某一地区的分析结果,可能是什么原因造成的?

推荐内容

为什么我的数据搜索出来会很大,但是求平均值就是对的,好奇怪啊?
在英文环境下,如何查看过去xx周的数据情况?
中间表的应用简单介绍。。。
数据清洗过程的具体步骤有哪些?
在英文环境下,如何查看去年的数据情况?
数据表种的列信息可以包含哪些数据内容?
系统的交互方式?
在英文环境下,如何查看昨天的数据情况?
对于销售金额等一类财务数据可不可以让数据标签显示不同的货币单位和数值单位
DataFocus有学习教程嘛?我以前从来没做过数据分析,好怕学不会

热门话题

安装

可视化

数据

训练营

本地数据源连接

热门专栏

数据分析模型探讨研究

热门用户

电商1211谢巧巧

jiayu

Y2020

雅俗、

Cynthia