2
关注
2726
浏览

数据清洗的方法?

为什么被折叠? 0 个回复被折叠
luffy01 注册会员 用户来自于: 浙江省杭州市
2020-05-06 18:43

1.解决不完整数据( 即值缺失)的方法

大多数情况下,缺失的值必须手工填入( 即手工清理)。当然,某些缺失值可以从本数据源或其它数据源推导出来,这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值,从而达到清理的目的。

2.错误值的检测及解决方法

用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库( 常识性规则、业务特定规则等)检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据。

3.重复记录的检测及消除方法

数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除)。合并/清除是消重的基本方法。

4.不一致性( 数据源内部及数据源之间)的检测及解决方法

从多数据源集成的数据可能有语义冲突,可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,从而使得数据保持一致。目前开发的数据清理工具大致可分为三类。

数据迁移工具允许指定简单的转换规则,如:将字符串“female”替换成“女”。

数据清洗工具使用领域特有的知识( 如,邮政地址)对数据作清洗。它们通常采用语法分析和模糊匹配技术完成对多数据源数据的清理。

数据审计工具可以通过扫描数据发现规律和联系。因此,这类工具可以看作是数据挖掘工具的变形。


关于作者

问题动态

发布时间
2020-05-06 18:41
更新时间
2020-05-06 18:43
关注人数
2 人关注

相关问题

零售食品数据
数据源比较多,怎么添加分类标签?
各种考核能力评定的数据用什么图形展示比较合适?
我想对某张数据表进行权限控制,可以做到吗?
DataFocus能不能对两列数据同时进行筛选,就是要同时满足前后两个条件,才能得出结果?
家电消耗数据集
DataFocus Cloud 的数据安全性如何保障?
Udemy课程数据
八大分析模型数据源分享
用户可以在数据看板和历史问答的哪些内容发生变化时接收到邮件通知?

推荐内容

在英文环境下,如何查看某个时间段之前的数据?
怎样新增表之间的关联关系?
能不能对表格状态下的数据设置根据大小显示不同的颜色
怎样筛选出处于某段排名之间的数列值?
我的经纬图出来的数值显示的是总和。
免费版可以行转列么?点击“操作”中的数据转换,让我“购买升级”?
使用什么公式计算的是今年当前月比去年同一月份的增长比例?
怎样观察按指定数值列降序排序的数据情况?升序呢?
可以在柱状图的柱子上显示数据吗?
什么是平衡分析?

站点公告

DataFocus V6产品升级发布会:大模型的杀手级应用,来了!
北京时间,2024年1月26日 - 在这个数据驱动的时代,高效、准确的数据分析工具对于企业决策的重要性不言而喻。作为中国领先的AI搜索式数据分析平台,DataFocus一直致力于为用户提供更智能、更敏捷的数据分析解决方案。今天,DataFocus在杭州隆重举办了V6产品升级发布会,向全球用户展示了其...

热门话题

新人报道

新人培训

可视化大屏

可视化

训练营

热门专栏

数据分析模型探讨研究