数据分析的生成模型和分析模型
生成"方法和"分析"方法。另一种更非正式的方式,我喜欢思考这些方法是作为"生物"模型和"医生"模型。通过阅读有关数据分析过程的文献,我注意到许多人似乎关注前者,而不是后者,我认为这为新的有趣的作品提供了机会。
生成模型
思考数据分析的生成方法侧重于创建分析的过程。了解从第一步到第二步到第三步等决策,可以帮助我们重新创建或重建数据分析。虽然重建可能不完全是以这种方式研究数据分析的目标,但更好地了解这一进程可以打开改进这一进程的大门。
数据分析过程的一个关键特征是,它通常发生在数据分析员的脑袋内,因此无法直接观察。测量可以通过询问分析师在给定时间的想法来进行,但可能会受到各种测量错误的影响,就像任何依赖于受试者召回的数据一样。在某些情况下,可以获得部分信息,例如,如果分析员通过一系列报告写下思考过程,或者涉及一个团队,并且有关于该过程的沟通记录。从这类信息中,可以收集"事情如何发生"的合理情况,并描述生成数据分析的过程。
该模型有助于理解"生物过程",即数据分析创建的基本机制,有时称为"统计思维"。毫无疑问,这一过程对教学目的和理解应用工作都有内在的兴趣。但有一个关键因素是缺乏的,我会在下面谈论更多。
分析模型
第二种思考数据分析的方法忽略了生成数据分析的基础过程,而是查看分析的可观察结果。此类输出可能是 R 减价文档、PDF 报告,甚至是幻灯片平台(斯蒂芬妮·希克斯和我称之为分析容器)。此方法的优点是分析输出是真实的,可以直接观察到。当然,分析师在报告或幻灯片中投入的内容通常只表示完整数据分析过程中可能生成的内容的一小部分。但是,值得注意的是,报告中所列要素是通过数据分析过程做出的所有决策的累积结果。
我以前多次用音乐理论作为数据分析的类比,主要是因为。。。这是我所知道的,但也因为它真的工作!当我们听或检查一段音乐时,我们基本上不知道音乐是怎么来的。我们不能再采访莫扎特或贝多芬,了解他们是如何创作音乐的。然而,我们仍然能够做一些重要的事情:
分析和理论化。我们可以分析我们听到的音乐(如果可用的话,还有他们的书面表示),并谈论不同的音乐片段彼此有何不同或有相似之处。我们可能会培养一种对特定作曲家或许多作曲家通常做什么的感觉,并评估哪些作品更成功或更不成功。甚至有可能在被几个世纪分开的不同类型的音乐之间画出联系。这些都不需要了解基础流程。
给予反馈。当学生学习创作音乐时,培训的一个重要部分就是在别人面前演奏音乐。然后,观众可以反馈哪些有效,哪些不起作用。偶尔,有人可能会问"你在想什么?如果某些东西真的坏了,有时可以开一些矫正措施(例如,"使这个C和弦而不是D和弦")。
甚至有两个完整的播客致力于分析音乐-粘性笔记和打开流行音乐-他们通常不采访涉及的艺术家(这将是特别困难的粘性笔记)。相比之下,歌曲爆炸播客采取一种更"生成的方法",让艺术家谈论创作过程。
我称这种数据分析分析分析模型为"医生"方法,因为它从基本意义上反映了医生面临的问题。当患者到达时,有一组症状和患者自己的报告/历史记录。根据这些信息,医生必须开出一个行动方案(通常,收集更多的数据)。通常对疾病背后的生物过程缺乏详细的了解,但他们的医生可能拥有丰富的个人经验,以及临床试验文献,比较从中得出的各种治疗方法。在人类医学中,生物过程知识对于设计新的干预措施至关重要,但在开具特定治疗处方方面可能没有起到那么大的作用。
当我看到数据分析时,作为一名教师、同行评议者,或者只是一位在大厅里的同事,我的工作通常是及时提供反馈。在这种情况下,通常没有时间对分析的发展过程进行广泛的访谈,尽管这实际上可能是有用的。相反,我需要根据观察到的产出,或许还有一些简短的后续问题作出判断。只要我能提供我认为能提高分析质量的反馈,那是因为我了解分析成功的原因。
缺少的成分
对于生成模型和数据分析分析模型,缺失的成分是数据分析成功的原因的明确定义。当然,硬币的另一面是知道数据分析何时失败。分析方法是有用的,因为它使我们能够将分析与分析员分开,并根据分析观察到的特征对分析进行分类。但是,除非我们有一些成功的概念,否则分类是"无序的"。没有成功的定义,我们就无法以合乎逻辑的方式正式批评分析和解释我们的推理。
生成方法是有用的,因为它揭示了干预的潜在目标,特别是从教学的角度来看,以改善数据分析(就像理解生物过程)。然而,如果没有成功的具体定义,我们没有目标去争取,我们不知道如何进行干预,以便真正改进。换句话说,没有结果可以"训练我们的模型"进行数据分析。
我上面提到,开发数据分析的生成模型的重点很多,但开发分析模型的工作相对较少。然而,这两种模式对于提高数据分析的质量和从以前的工作中学习都至关重要。我认为,这为统计学家、数据科学家和其他人提供了一个重要机会,研究如何根据观测到的产出对数据分析进行特征分析,以及如何在分析之间建立联系。
暂无评论