2
关注
5758
浏览

什么是数据清洗呢?

您还未登录!暂时最多只可查看 1 条回答

登录! 还没有账号?去注册

luffy01 注册会员 用户来自于: 浙江省杭州市
2020-05-06 18:41

既然说到清洗,那么对应着就有需要进行清洗的“脏”,数据清洗就是对数据进行审查校验,利用有关技术转化错误、重复、不完整、冲突的“脏数据”为满足要求的高质数据。尤其是在建立数据仓库的过程中会从多个业务系统中年抽取而来的、甚至时间跨度较大的多个版本的数据,避免不了会出现大量的“脏数据”。

清洗分为两种,一种是由计算机遵循一定的规则对数据进行校验,自动对数据进行一致性检查和无效值、缺失值的处理,还有一类就是需要筛选过滤掉那些不符合要求的数据,因为这一部分可能会影响分析结果的准确性,需要人工依据数据和场景进行筛选过滤了。数据分析系统中所说的数据清洗大多是指第一种,后一种更倾向为成为ETL模块(DataFocus支持两种清洗方式)。

一般来说,数据清理是将数据精简以除去重复记录,并使剩余部分转换成标准可接收格式的过程。数据清理标准模型是在数据导入过程中,通过一系列步骤“ 清理”数据,然后以期望的格式输出清理过的数据。数据清理从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题。


关于作者

问题动态

发布时间
2020-05-06 18:40
更新时间
2020-05-06 18:41
关注人数
2 人关注

相关问题

图表属性中的“悬浮文本设置”有什么作用?怎么配置?
蜂蜜产量数据集
各版本,支持存储多少数据量?
Flipkart产品数据集
我的数据表中有一个日期列,想从这个年月日的数据中将月份单独提取出来,该怎么操作?
DataFocus支持哪些数据类型?
DataFocus进行钻取有条件吗,为什么有的不能向下钻取?
要进行销售数据某一月份的销售量与某一时间段销售量在同一图例中的对比,需要怎么做?
导入数据显示乱码???
奖学金数据集

推荐内容

系统支持行列转换和列拆分吗?
怎样对数值列以一定的分组间隔进行分组统计?
什么是异常值分析?
数据类型在哪里更改呀?
中间表的应用简单介绍。。。
在英文环境下,如何反馈出数值列中的最小值?
数据钻取是什么意思?如何应用?
用什么关键词查看未来xx天的数据情况?
能对哪些数据处理呢?比如只能是导进去的现有数据吗?
为什么我的数据搜索出来会很大,但是求平均值就是对的,好奇怪啊?

热门话题

本地版在哪里下载

本地数据源连接

地图

版本更新

排序

热门专栏

数据分析模型探讨研究

热门用户

jiayu

seeyou_ray

work2020

小专家

Cynthia