来源
kaggle数据网;
数据集信息
数据量:19644行;属性数量:26;领域:社交;
背景
该数据集包含了推特用户分类信息;
数据字段
_unit_id:用户的唯一ID;文本数据;
_golden:是否将用户包括在模型的黄金标准中;文本数据;
_unit_state:观察状态;文本数据;
_trusted_judgments:可信判决的数量;连续变量;
_last_judgment_at:最后判决时间;日期变量;
gender:性别;分类变量;
gender:confidence:代表对所提供性别的信心的浮点数;连续变量;
profile_yn:简介;文本数据;
profile_yn:confidence:对配置文件的信息;;文本数据;
created:创建配置文件的日期和时间;文本数据;
description:用户的个人资料描述;文本数据;
fav_number:用户收藏的推文数;文本数据;
gender_gold:如果个人资料是金色的,性别是什么;文本数据;
link_color:配置文件上的链接颜色;文本数据;
name:用户名;文本数据;
profile_yn_gold:轮廓值是否为黄金;文本数据;
profileimage:指向个人资料图像的链接;文本数据;
retweet_count:用户转发(或可能转发)的次数;连续变量;
sidebar_color:配置文件侧边栏的颜色;文本数据;
text:推文的文本;文本数据;
tweet_coord:坐标为字符串;文本数据;
tweet_count:用户已发布的推文数;文本数据;
tweet_created:创建随机tweet;文本数据;
tweet_id:推特id;文本数据;
tweet_location:位置;文本数据;
user_timezone:用户的时区;文本数据;
业务理解
分析不同种类用户信息的差异性;
引用调用
无
这家伙很懒,还没有设置简介