2
关注
1998
浏览

如何自己找数据分析项目来做?

为什么被折叠? 0 个回复被折叠
Cynthia 初级会员 用户来自于: 浙江省杭州市
2020-08-21 18:29

如果要寻找免费的项目数据进行分析,只要肯花费时间和精力还是比较简单的。像很多回答里面都提到的Kaggle和天池,这就是两个非常典型的竞赛类网站,里面都是整理好的数据表字段,有些完全可以直接拿来进行数据分析,选择自己感兴趣的仔细研究即可。

除了这些整理完毕的数据项目,还可以挑选一些自己比较感兴趣的课题在网上直接搜索数据,虽然这种做法的数据搜寻难度会上升,但是自己找到的数据自己更加熟悉,能分析的维度也会更加丰富。例举一些网址,比如说国家统计网站、WHO世界卫生组织、还有一些主动公开数据的医疗网站等。

举个例子,因为大学某同学的妈妈曾患乳腺癌,激起了我对乳腺癌的研究,希望能够对乳腺癌的病理特征进行了解,同时研究乳腺癌的患者手术风险及生存情况。于是,从TCGA数据库中获取了一些关于乳腺癌患者的情况,包括患者的性别,年龄,术后患者的状态,肿瘤的组织学分型,肿瘤转移情况,肿瘤复发情况,患病天数等。

案例分析结果如下,案例中用到的数据分析工具是DataFocus

1.首先计算所有乳腺癌病例的存活率与死亡率。通过饼图,观察乳腺癌通过外科手术治疗后所能达到的生存率。乳腺癌虽然作为困扰女性的恶性肿瘤之一,但其通过手术治疗所能达到的存活率与其他癌症比较仍高出很多。从图中可以观察到,乳腺癌的术后存活率达到了86.58%,死亡率仅占13.42%,也就是在此次案例中,有910名患者通过手术成功生存。

1.png 2.对乳腺癌病例的患病天数进行研究,通过对比存活和死亡的患者的患病天数,观察患病天数对患者死亡的影响。从上图可以看出,不是患者患病天数越长,死亡的概率就越大。患者的患病天数与死亡率没有明显的相关性,但根据临床试验的结果,仍然是尽早发现,尽早治疗。

2.png 3.虽然乳腺癌对女性的影响相当大,但根据此次数据发现,男性也有一定的概率患病。从上图可以观察到,在死亡的所有患者中,女性患者高达140人,但有趣的是,死亡的患者中居然有1名男性。

3.png 4.此次研究还是主要围绕着死亡的女性患者展开,因此对死亡的女性患者的肿瘤基本情况进行研究。通过折线图观察不同类型的肿瘤转移情况的死亡人数。从图中可以观察到,在所有死亡的女性患者中,肿瘤无远处转移的患者占据最大部分。也就是说,乳腺癌本身较不容易发生远处转移,但仍有发生远处转移的概率。

4.png

5.接下来对无远处转移的死亡女性患者的肿瘤组织学类型进行研究。从图中可以看出,无远处转移的肿瘤类型种,乳腺癌的组织学类型占比较大的是中低分化而非高分化,这也为乳腺癌的高生存率提供了部分解释。

5.png

6.同样的,对中分化的肿瘤类型的局部淋巴结进行观察。从图中可以观察到,在中分化的肿瘤中,最常见的是同侧腋淋巴结转移。

6.png 7.最后,对肿瘤的大小及浸润情况进行统计。从图中可以看出,患者的死亡率与肿瘤大小及浸润情况存在较大的关系。在女性死亡患者中,存在同侧腋淋巴结转移的中分化肿瘤,其肿瘤大小仅存在两种可能,分别是肿瘤浸润范围的最大直径是0.1cm-2.0cm2.0cm-5.0cm,其中占据大部分的肿瘤浸润范围是最大直径在2.0cm5.0cm之间的。

7.png 最后将这7个结果图放入“乳腺癌手术预后情况”数据看板中,结果如下:

8.png 为了形成一份完整的、严谨的报告,最后再对此次案例分析做出一些建议:

1、建议女性定期进行身体检查,预防各类疾病。一旦发现,一定要尽快治疗;

2、如果发现自己患有乳腺癌,一定要及时治疗,尽力配合医生手术,因为乳腺癌的手术存活率还是非常高的。


关于作者

问题动态

发布时间
2020-08-21 18:27
更新时间
2020-08-21 18:29
关注人数
2 人关注

推荐内容

如何将 将DataFocus搜索框嵌入您的页面方法
App 数据分析的常用指标有哪些?
Datafocus支持批量数据筛选吗?
如何科学地分析学生成绩?
在数据看板编辑页面,如何对各个组件设置 “报表跳转”?
有哪些软件可以进行中文词频分析?
DataFocus Cloud的兼容性如何?
怎么培养数据分析的能力?
在公式中是否有类似like这样的模糊查询?
可以做相关性分析吗

站点公告

DataFocus V6产品升级发布会:大模型的杀手级应用,来了!
北京时间,2024年1月26日 - 在这个数据驱动的时代,高效、准确的数据分析工具对于企业决策的重要性不言而喻。作为中国领先的AI搜索式数据分析平台,DataFocus一直致力于为用户提供更智能、更敏捷的数据分析解决方案。今天,DataFocus在杭州隆重举办了V6产品升级发布会,向全球用户展示了其...

热门话题

数据

新人培训

搜索功能

ETL工程师

传统BI

热门专栏

数据分析模型探讨研究