2
关注
5820
浏览

什么是数据清洗呢?

您还未登录!暂时最多只可查看 1 条回答

登录! 还没有账号?去注册

luffy01 注册会员 用户来自于: 浙江省杭州市
2020-05-06 18:41

既然说到清洗,那么对应着就有需要进行清洗的“脏”,数据清洗就是对数据进行审查校验,利用有关技术转化错误、重复、不完整、冲突的“脏数据”为满足要求的高质数据。尤其是在建立数据仓库的过程中会从多个业务系统中年抽取而来的、甚至时间跨度较大的多个版本的数据,避免不了会出现大量的“脏数据”。

清洗分为两种,一种是由计算机遵循一定的规则对数据进行校验,自动对数据进行一致性检查和无效值、缺失值的处理,还有一类就是需要筛选过滤掉那些不符合要求的数据,因为这一部分可能会影响分析结果的准确性,需要人工依据数据和场景进行筛选过滤了。数据分析系统中所说的数据清洗大多是指第一种,后一种更倾向为成为ETL模块(DataFocus支持两种清洗方式)。

一般来说,数据清理是将数据精简以除去重复记录,并使剩余部分转换成标准可接收格式的过程。数据清理标准模型是在数据导入过程中,通过一系列步骤“ 清理”数据,然后以期望的格式输出清理过的数据。数据清理从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题。


关于作者

问题动态

发布时间
2020-05-06 18:40
更新时间
2020-05-06 18:41
关注人数
2 人关注

相关问题

怎么培养数据分析的能力?
麦当劳食物数据
公司员工离职数据
为什么有的数据表显示是灰色的?
创建数据看板的时候有模版,这个模版怎么使用?
数据运营是什么 - 知乎
预期寿命数据集
旭日图的实现前提是什么?
接受售后服务的成年人数量数据集
我的数据表中有时间列,但是数据表导入后不能使用每月,每年这一类的关键词,这是为什么?

推荐内容

对于销售金额等一类财务数据可不可以让数据标签显示不同的货币单位和数值单位
数据钻取是什么意思?如何应用?
在英文环境下,如何计算数值列的方差?
咨询下,在DataFocus里面,怎么把长整型的时间戳格式转化成系统可识别的日期格式
在英文环境下,如何查看具体某一月的数据?
怎样筛选出倒数第X位到第Y位的数值列?
数据转换这个功能到底是怎么用的呢?
在英文环境下,如何查看去年的数据情况?
在英文环境下,如何查看上周的数据情况?
怎样进行数值列的分组统计?

热门话题

问题修复

数据

数据仓库

DFCloudKit小工具

数据地图

热门专栏

数据分析模型探讨研究

热门用户

seeyou_ray

小小

小号圆

clarance2020

Bella