散点图——制作小技巧
一、用途与意义
散点图,通常是用来表述两个变量之间的关系,常用于回归分析。是绘制在X轴和Y轴坐标系中,可以同时表述两个变量的一组数据点。这些大量的数据点组合在一起,形成了一些形状,揭示了数据背后的相关信息。
散点图可以提供三类关键信息:(1)变量之间是否存在数量关联趋势;(2)如果存在关联趋势,是线性还是非线性的;(3)观察是否有存在离群值,从而分析这些离群值对建模分析的影响。
通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。数据的相关关系主要分为:正相关(两个变量值同时增长)、负相关(一个变量值增加另一个变量值下降)、不相关、线性相关、指数相关等等。
二、显示散点图的限制条件
1. 搜索分析时,输入至少1个属性列(attribute),至少1个数值列(measure)。
2. 当只有1个数值列时,x轴默认为属性列;当有2个及以上数值列时,x轴默认为数值列,且x轴和y轴必须为不同的数值列。可通过图轴配置,调节x轴、y轴、图例或右y轴,控制画图。
三、案例
如下表中数据,记录了某公司客户的年龄和消费情况。
在DataFocus系统的搜索模块,通过属性列“年龄”、数值列“消费金额”和关键词,分析各个年龄的客户平均消费金额,制成散点图:
从图中可以看出,客户的年龄和人均消费金额有较大的相关性。
四、制图步骤
(一)导入本地数据
1. 在数据表管理模块,点击“导入表”后,选择“从本地导入表”。(或者从资源管理模块,点击“创建”按钮后,从本地导入表。)
2. 在弹出的窗口中,选择需导入的文件类型后,点击“请选择文件”按钮,进行本地文件的选择,选择完成后点击“上传”。
3. 上传csv文件时,弹出如下设置界面,配置文件编码等内容后,点击“下一步”。
4. 在此,可以重新配置表名、列名、数据类型等等。配置完成后,点击“确定”,完成上传。(因为分析时需要按年龄的大小排序,所以“年龄”字段的数据类型,我们选择默认的int)
5. 上传成功后,即可在数据表管理模块(或资源管理模块)看到该表。
(二)列类型配置
1. 在数据表管理模块(或资源管理模块),找到该表,点击“详情”按钮,进入表详情界面。
2. 可以看到,数据类型为int的年龄列,系统默认它的列类型为“数值列”,且以总和的方式聚合。
3. 因为年龄不需要进行计算,所以我们将年龄的列类型更改为属性列。
4. 配置好列类型后,系统会自动进行保存。接下来,进入搜索模块进行数据分析。
(三)搜索分析
1. 进入搜索模块
2. 先点击“选择数据表”按钮,将刚刚导入的表选择为数据源表。
3. 选择完成后,在按钮下方会展示出表名以及列名。双击列名(或在搜索框中输入列名)进行搜索分析,可在搜索框中继续输入关键词、公式,进行数据的计算或筛选。(如图,在“消费金额”后输入关键词“的平均值”,计算平均消费金额。)
4. 在图形转换中,将系统显示的图表更换为“散点图”。
5. 最后,在操作栏下保存,可将图表以 历史问答 形式固化到DataFocus系统。
五、数据源(已脱敏)
客户消费情况.csv