2
关注
5745
浏览

什么是数据清洗呢?

查看全部 1 个回答

luffy01 注册会员 用户来自于: 浙江省杭州市
2020-05-06 18:41

既然说到清洗,那么对应着就有需要进行清洗的“脏”,数据清洗就是对数据进行审查校验,利用有关技术转化错误、重复、不完整、冲突的“脏数据”为满足要求的高质数据。尤其是在建立数据仓库的过程中会从多个业务系统中年抽取而来的、甚至时间跨度较大的多个版本的数据,避免不了会出现大量的“脏数据”。

清洗分为两种,一种是由计算机遵循一定的规则对数据进行校验,自动对数据进行一致性检查和无效值、缺失值的处理,还有一类就是需要筛选过滤掉那些不符合要求的数据,因为这一部分可能会影响分析结果的准确性,需要人工依据数据和场景进行筛选过滤了。数据分析系统中所说的数据清洗大多是指第一种,后一种更倾向为成为ETL模块(DataFocus支持两种清洗方式)。

一般来说,数据清理是将数据精简以除去重复记录,并使剩余部分转换成标准可接收格式的过程。数据清理标准模型是在数据导入过程中,通过一系列步骤“ 清理”数据,然后以期望的格式输出清理过的数据。数据清理从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题。


关于作者

问题动态

发布时间
2020-05-06 18:40
更新时间
2020-05-06 18:41
关注人数
2 人关注

相关问题

桑基图是什么?可以展现什么样的数据信息?
国家代码数据
竞选经费数据
在搜索栏输入关键词vs,为什么不起作用?
可以快速找到目标数据看板吗?
非洲经济银行和系统性危机数据
datafocus的数据看板优势在哪里?
datafocus中的数据源有哪些,起什么作用?
添加关联关系的条件是什么?
2018年底工作的新子女个数数据集

推荐内容

系统的交互方式?
DataFocus对业务数据的整合能力是怎么样的?
如何对看板内的图表进行筛选、钻取、联动数据,并进行恢复?
DataFocus关联方式有哪些?
用什么关键词查看未来xx天的数据情况?
在英文环境下,如何查看本年度到目前的数据情况?
在英文环境下,如何查看某个时间段之前的数据?
如何打通企业内部的数据孤岛?
我想筛选出每个账号的最新记录的金额,但是筛选出来后,将金额汇总了,不是最新日期对应的金额,怎么办?
对于未进行权限分配的用户可以进行哪些操作?

热门话题

数据可视化

DFCloudKit小工具

全局配置

数据看板

训练营

热门专栏

数据分析模型探讨研究

热门用户

datafocus1a59d803c8d9d16ef24302

Nora

jiayu

DataFocus

clarance2020