2
关注
5740
浏览

什么是数据清洗呢?

查看全部 1 个回答

luffy01 注册会员 用户来自于: 浙江省杭州市
2020-05-06 18:41

既然说到清洗,那么对应着就有需要进行清洗的“脏”,数据清洗就是对数据进行审查校验,利用有关技术转化错误、重复、不完整、冲突的“脏数据”为满足要求的高质数据。尤其是在建立数据仓库的过程中会从多个业务系统中年抽取而来的、甚至时间跨度较大的多个版本的数据,避免不了会出现大量的“脏数据”。

清洗分为两种,一种是由计算机遵循一定的规则对数据进行校验,自动对数据进行一致性检查和无效值、缺失值的处理,还有一类就是需要筛选过滤掉那些不符合要求的数据,因为这一部分可能会影响分析结果的准确性,需要人工依据数据和场景进行筛选过滤了。数据分析系统中所说的数据清洗大多是指第一种,后一种更倾向为成为ETL模块(DataFocus支持两种清洗方式)。

一般来说,数据清理是将数据精简以除去重复记录,并使剩余部分转换成标准可接收格式的过程。数据清理标准模型是在数据导入过程中,通过一系列步骤“ 清理”数据,然后以期望的格式输出清理过的数据。数据清理从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题。


关于作者

问题动态

发布时间
2020-05-06 18:40
更新时间
2020-05-06 18:41
关注人数
2 人关注

相关问题

我的数据已经显示成百分比了,如何操作让y轴显示成百分比?
为什么我电脑本地的数据表里面的双括号“()”,在导入系统后变成了“_”?
疫病数据,可以分析什么?
废弃地点注册数据集
创建的模板看板,还可以自己设置颜色什么的吗?
想要体现运输的轨迹图,但是数据在其他系统的地图上,需要怎么样才可以在datafocus中体现?
在什么情况下,图表之间可以发生联动?
知乎用户调查数据
数据权限中的public按钮可以干什么用?
巴厘岛旅游数据

推荐内容

在英文环境下,如何查看下个月的数据预测情况?
我想筛选出每个账号的最新记录的金额,但是筛选出来后,将金额汇总了,不是最新日期对应的金额,怎么办?
在英文环境下,如何查看本季度到目前的数据情况?
在英文环境下,如何计算数值列的方差?
数据清洗过程的具体步骤有哪些?
可被用于统计分析的数据有哪些类型?
什么是异常值分析?
在英文环境下,如何计算数值列的标准差?
表格中有缺失数据,如何填充呢?
数据表种的列信息可以包含哪些数据内容?

热门话题

商业智能

安装

DataFocus

中间表

排序

热门专栏

数据分析模型探讨研究

热门用户

achilles

电商1211谢巧巧

datafocus4a91a48594cf4ba55d028d

datafocus0ab0235da1f9fa1fe87330

叮咚