2
关注
3792
浏览

什么是数据清洗呢?

为什么被折叠? 0 个回复被折叠
luffy01 注册会员 用户来自于: 浙江省杭州市
2020-05-06 18:41

既然说到清洗,那么对应着就有需要进行清洗的“脏”,数据清洗就是对数据进行审查校验,利用有关技术转化错误、重复、不完整、冲突的“脏数据”为满足要求的高质数据。尤其是在建立数据仓库的过程中会从多个业务系统中年抽取而来的、甚至时间跨度较大的多个版本的数据,避免不了会出现大量的“脏数据”。

清洗分为两种,一种是由计算机遵循一定的规则对数据进行校验,自动对数据进行一致性检查和无效值、缺失值的处理,还有一类就是需要筛选过滤掉那些不符合要求的数据,因为这一部分可能会影响分析结果的准确性,需要人工依据数据和场景进行筛选过滤了。数据分析系统中所说的数据清洗大多是指第一种,后一种更倾向为成为ETL模块(DataFocus支持两种清洗方式)。

一般来说,数据清理是将数据精简以除去重复记录,并使剩余部分转换成标准可接收格式的过程。数据清理标准模型是在数据导入过程中,通过一系列步骤“ 清理”数据,然后以期望的格式输出清理过的数据。数据清理从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题。


关于作者

问题动态

发布时间
2020-05-06 18:40
更新时间
2020-05-06 18:41
关注人数
2 人关注

相关问题

痴呆和非痴呆成年人的磁共振成像比较数据
数据看板中联动,公式列点击联动是不是没有效果?
需要照顾年轻人/成年人人数数据集
日本旅馆数据集
医院等级数据
本地的数据可以上传到系统中吗?支持什么格式的,有限制吗?
枪杀案数据
推荐的儿童人数和获得服务的人数数据集
为什么我做的看板无法进行数据联动?
搜索页面中,列名前方的小图标(数字123、大小写的T和日历)是派什么用处的?

推荐内容

我的经纬图出来的数值显示的是总和。
什么是平衡分析?
在英文环境下,如何查看过去xx季度的数据情况?
可以为字段设置别名吗?
使用什么关键词可以筛选出数据列中包含该字符串的数据?
DataFocus对业务数据的整合能力是怎么样的?
我选择了两列数值列,显示数据标签却只显示了一列。
能对哪些数据处理呢?比如只能是导进去的现有数据吗?
在英文环境下,如何查看未来xx天的数据预测情况?
什么是异常值分析?

站点公告

DataFocus V6产品升级发布会:大模型的杀手级应用,来了!
北京时间,2024年1月26日 - 在这个数据驱动的时代,高效、准确的数据分析工具对于企业决策的重要性不言而喻。作为中国领先的AI搜索式数据分析平台,DataFocus一直致力于为用户提供更智能、更敏捷的数据分析解决方案。今天,DataFocus在杭州隆重举办了V6产品升级发布会,向全球用户展示了其...

热门话题

散点图

云表数据源

DataFocus

排序

新人报道

热门专栏

数据分析模型探讨研究