当你决定加入这个项目时,你就证明了你是一个好奇的人。因此,让我们激发您的好奇心,谈谈数据分析的起源。我们不完全知道第一个人何时或为何决定记录有关人和事的数据。但我们确实知道它很有用,因为这个想法今天仍然存在!
我们还知道,数据分析植根于统计学,而统计学本身也有着相当悠久的历史。考古学家以金字塔的建造标志着古埃及统计的开始。古埃及人是组织数据的大师。他们在纸莎草纸(纸质材料)上记录了他们的计算和理论,纸莎草纸现在被视为电子表格和清单的最早例子。今天的数据分析师在很大程度上要归功于那些才华横溢的抄写员,他们帮助创建了一个更具技术性和效率的流程。
现在是进入数据分析生命周期的时候了——从数据到决策的过程。数据在创建、使用、测试、处理和重用时会经历几个阶段。借助生命周期模型,所有关键团队成员都可以通过在数据分析流程的前期和后期规划工作来推动成功。虽然数据分析生命周期在专家中是众所周知的,但这些阶段并没有一个单一的定义结构。可能没有一个单一的架构被每个数据分析专家统一遵循,但在每个数据分析过程中都有一些共享的基础知识。
- 问:业务挑战/目标/问题
- 准备:数据生成、收集、存储和数据管理
- 过程:数据清理/数据完整性
- 分析:数据探索、可视化和分析
- 分享:交流和解释结果
- 行动:将您的见解用于解决问题
理解这个过程——以及所有帮助它流行的迭代——将是指导你自己的分析和你在这个程序中的工作的重要部分。让我们回顾一下数据分析生命周期的其他一些变体。
EMC的数据分析生命周期
EMC Corporation 的数据分析生命周期是循环的,分为六个步骤:
- 发现
- 预处理数据
- 车型规划
- 建筑模型
- 传达结果
- 操作化
EMC Corporation 现在是 Dell EMC。该模型由 David Dietrich 创建,反映了现实世界项目的周期性。这些阶段不是静态的里程碑;每一步都连接并导致下一步,并最终重复。关键问题帮助分析师测试他们是否已经取得足够的成就以继续前进,并确保团队在每个阶段都花费了足够的时间,并且在数据准备好之前不要开始建模。它与本程序所基于的数据分析生命周期略有不同,但有一些共同的核心思想:第一阶段是对发现和提出问题感兴趣;在分析和使用数据之前必须准备好数据;然后应该分享调查结果并采取行动。
有关详细信息,请参阅这本电子书《数据科学与大数据分析》。
SAS的迭代生命周期
迭代生命周期由一家名为SAS的公司创建,该公司是一家领先的数据分析解决方案提供商。它可用于产生可重复、可靠和可预测的结果:
- 问
- 准备
- 探索
- 模型
- 实施
- 行为
- 评价
SAS 模型通过将其可视化为无穷大符号来强调其模型的循环性质。他们的生命周期有七个步骤,我们在其他模型中已经看到了其中的许多步骤,例如 Ask、Prepare、Model 和 Act。但是这个生命周期也有点不同;它包括行动阶段之后的一个步骤,旨在帮助分析师评估他们的解决方案并可能再次返回询问阶段。
有关详细信息,请参阅管理大规模决策的分析生命周期。
基于项目的数据分析生命周期
基于项目的数据分析生命周期有五个简单的步骤:
- 确定问题
- 设计数据需求
- 预处理数据
- 执行数据分析
- 可视化数据
此数据分析项目生命周期由 Vignesh Prajapati 开发。它不包括第六阶段,或者我们一直提到的行动阶段。然而,它仍然涵盖了很多与我们已经描述的生命周期相同的步骤。它从识别问题开始,在分析之前准备和处理数据,并以数据可视化结束。
有关详细信息,请参阅了解数据分析项目生命周期。
大数据分析生命周期
作者 Thomas Erl、Wajid Khattak 和 Paul Buhler 在他们的书《大数据基础:概念、驱动因素和技术》中提出了大数据分析生命周期。他们的生命周期建议分为九个步骤的阶段:
- 商业案例评估
- 数据识别
- 数据采集与过滤
- 数据提取
- 数据验证和清洗
- 数据聚合和表示
- 数据分析
- 数据可视化
- 分析结果的利用
这个生命周期似乎比以前的生命周期模型多了三四个步骤。但实际上,他们只是将我们所说的准备和处理分解为更小的步骤。它强调在分析阶段之前收集、准备和清理数据所需的各项任务。
有关详细信息,请参阅大数据采用和规划注意事项。
关键要点
从古埃及的金字塔和数据之旅到现在,我们分析数据的方式已经发生了变化(并将继续发生变化)。数据分析过程就像现实生活中的建筑,有不同的做事方式,但相同的核心思想仍然出现在过程的每个模型中。
如果你觉得本文对你有用,请收藏本站,以备不时之需。
浙江省杭州市 1F
看时间线,你这每天至少一篇博文,这输出强度,厉害
香港 B1
@ koobai 启用的新域名,就这个月每天有,以后就是打酱油
湖北省 2F
每天都有更新,点赞!