大数据从主要的技能方向可以简单划分为四大类,分别是数据采集、数据存储、数据分析和数据挖掘。因为不是专业的IT编程人员,无法对这四类大数据组成的核心技术进行非常专业的介绍,在这里就借助一款非常实用的BI的工具和大家简单叙述一下日常工作中会涉及到的大数据的核心技术。
1.数据采集:大数据层面上的数据采集其实就是数据获取,通过采集装置将不同渠道来源的结构化或非结构化的海量数据进行收集并汇总成一份基础数据的过程。
一般企业都会有其独立的一套数据采集系统,通常是借助数据库,比较常见的数据库有MySQL、Oracle、ETL等等;如果是个人,一般会采用从网络上获取数据,通过指定网站的公开API或Python、八爪鱼等工具进行网络数据的爬取。
2.数据存储:数据收集完毕,一般都需要进行存储。利用借助数据库进行数据采集的公司一般都会直接将数据存进数据库中,实现数据的存储。但是这些数据分布在不同的数据库中,无法互相联立使用,就会形成“数据孤岛”的现象;而且这些数据长期存储在数据库中,不能合理利用,无法给企业带来实际的收益。
因此,我们公司借助了一款叫做DataFocus的BI工具,将这些分布在独立数据库中的基础数据提取到DataFocus中,不仅可以实现数据的存储,也解决了数据孤岛问题,为后续的分析过程打下了坚实的基础。
3.数据分析:大数据将自己的核心技术基本都给了数据分析。数据分析中包含的内容其实也是比较丰富的,最基础的可以分成数据预处理和数据可视化。数据预处理就是通过数据清洗、数据转换等操作将数据进行一系列运作,将基础数据转化为适合分析的结构化数据。
数据可视化则是将得到的结构化数据用最恰当、直观的方式进行展示。DataFocus可以利用丰富多样的图表进行数据的聚合展示,还有数据看板可以放置多个历史问答,将图表进行联动和筛选。通过数据可视化可以联合多数据库中的不同列进行联合分析,为企业决策提供科学的依据,创造实质性的收益,帮助企业决策层制定合适企业发展的未来规划。
4.数据挖掘:数据挖掘部分的内容就比较高深了,涉及到算法、机器学习等,原理的部分不太了解,因此就不多做解释。
不过在DataFocus中已经开始涉及到机器学习和智能洞察的功能点,还有一个不对外开放的预测功能点,可以感受到这款工具正在不断优化,争取做到更好。因此我相信,预测的功能点也会在不久的将来公开对外开放使用,期待ing~
这家伙很懒,还没有设置简介