来源
kaggle数据网
数据集信息
数据量:3391行
背景
某组织估计全世界每年有1200万人死于心脏病。在美国和其他发达国家,一半的死亡是由于心血管疾病。心血管疾病的早期预后有助于高危患者做出改变生活方式的决策,从而减少并发症。这项研究旨在找出与心脏病最相关的风险因素,并使用逻辑回归预测总体风险
数据字段
Sex性:男性或女性(“M”或“F”)
Age年龄:患者的年龄;(连续-虽然记录的年龄已被截断为整数,但年龄的概念是连续的)
is_smoking吸烟吗:患者是否是当前的吸烟者(“是”或“否”)
Cigs Per Day每天Cigs:一个人平均每天吸烟的数量。(可以被认为是连续的,因为一个人可以有任何数量的香烟,甚至半根香烟。)
BP Meds血压药物:患者是否正在接受血压药物治疗(标称)
Prevalent Stroke流行性中风:患者以前是否有过中风(标称)
Prevalent Hyp流行的Hyp:患者是否患有高血压(标称值)
Diabetes糖尿病:患者是否患有糖尿病(名义)
Tot Chol:总胆固醇水平(连续)
Sys BP:收缩压(持续)
Dia BP:舒张压(持续)
bmi体重指数:体重指数(连续)
heart rate心率:心率(连续-在医学研究中,心率等变量虽然实际上是离散的,但由于有大量可能的值,因此被认为是连续的。)
glucose葡萄糖:葡萄糖水平(连续)
10 year risk of coronary heart disease CHD:10年冠心病风险(二进制:“1”,表示“是”,“0”,表示“否”)
业务理解
分析心血管疾病跟哪些因素有关
引用调用
无
资源
This guy is lazy,Introduction has not been set