【愚公系列】《数据可视化分析与实践》011-数据分析(数据分析方法)

💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主
📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析
🚀前言
数据分析与可视化密不可分,读者不仅要了解数据分析的基础知识,还需要具有数据思维。本章将先从宏观上介绍数据分析的方法论,然后从微观上介绍具体的数据分析方法。通过学习这些内容,读者可以逐步掌握数据分析的核心技能,为未来的数据分析工作打下坚实的基础。
🚀一、数据分析方法
数据分析方法是实现数据分析目标的具体技术和算法工具,例如对比分析、结构分析、分组分析、回归分析、聚类分析等。这些方法聚焦于对数据的实际操作与数学处理,旨在从数据中提取信息、验证假设、发现模式或预测未来趋势。
与之相辅相成的是数据分析方法论(如上一节介绍的PEST、4P等),它为整个分析过程提供宏观的指导框架,包括前期规划、方向确定和范围界定等顶层设计。简而言之,方法论决定了分析的广度与思路,而具体方法决定了分析的深度与精度。二者相互支撑,共同构成一个完整、有效的数据分析体系。
本节将重点介绍最基础、最常用的一系列数据分析方法及其核心指标。需要强调的是,每种方法都有其特定的适用场景和前提条件,在实际应用中需根据业务需求、数据特征和分析目标,灵活选择并组合合适的方法。
🔎1.描述性分析法
描述性分析法是数据分析的起点,属于探索性数据分析的范畴。它通过计算一组少量的、概括性的统计指标,来对大量的原始数据进行“素描”,从而直观、简洁地描述数据的整体分布特征与集中/离散趋势。它不涉及样本推断总体,也不进行预测,其核心目标是“描述现状”。
通过对所收集的样本数据进行简单的统计计算,我们可以得出能反映客观现象各种定量特征的指标,进而快速了解数据的全貌,为后续的深入分析(如推断性分析、预测性分析)奠定基础。常用的描述性统计指标主要分为两大类:
- 集中趋势指标:描述数据向中心值靠拢的程度,代表数据的“一般水平”。如算术平均数、中位数、众数。
- 离散程度指标:描述数据远离中心值的程度,代表数据的“波动情况”。如极差、四分位距、方差、标准差。
🦋1.1 算术平均数
算术平均数,通常简称为均值或平均数,是衡量数据集中趋势最常用、最直观的指标。它通过将数据集中所有数值相加,再除以数据个数得到,反映了数据的“重心”或“平衡点”。
-
计算公式:假定一组数据为 {X1,X2,X3,X4,⋯,Xn},其算术平均数 ( M ) 的计算公式为:

-
应用场景:广泛应用于社会经济生活的各个方面,如计算人均可支配收入、班级平均分、产品日均销量、用户平均停留时长等。
-
优点:计算简单,意义明确,充分利用了所有数据信息。
-
局限性:对极端值(异常值)非常敏感。一个极大或极小的值会显著拉高或拉低平均数,使其无法准确代表数据的典型水平。
- 处理方法:在存在极端值的场景下,常采用截尾均值(如去掉最高分和最低分后再求平均)或使用中位数来替代,以避免被极端值误导。
🦋1.2 中位数
中位数是将一组数据按大小顺序排列后,处于最中间位置的数值。它表示在这组数据中,有一半的数据比它大,另一半的数据比它小。
-
计算方法:假定一组数据为{X1,X2,X3,X4,⋯,Xn},将其按升序排列为 X(1),X(2),X(3),X(4),···,X(n)。
-
当 ( n ) 为奇数时,中位数 ( M_c ) 是位置在
-

的数值:

-
当 ( n ) 为偶数时,中位数 ( M_c ) 是中间两个位置数值的平均数:
-

-
-
应用场景:特别适用于收入分布、房价、客户消费金额等通常呈偏态分布的数据。例如,在报告“居民人均年收入”时,中位数往往比平均数更能反映普通居民的真实收入水平,因为它不受少数极高收入者的影响。
-
优点:不受极端值影响,对偏态分布的数据有更好的代表性,稳健性强。
🦋1.3 四分位数
四分位数是将排序后的数据集四等分的三个临界点数值。它们是描述数据分布、尤其是离散程度和形状的更强有力的工具。
-
三个四分位数:
- 第一四分位数:( Q_1 ),又称下四分位数,是所有数值由小到大排列后第25%位置的数。即,有25%的数据小于等于 ( Q_1 )。
- 第二四分位数:( Q_2 ),即中位数,是所有数值由小到大排列后第50%位置的数。
- 第三四分位数:( Q_3 ),又称上四分位数,是所有数值由小到大排列后第75%位置的数。即,有75%的数据小于等于 ( Q_3 )。
-
四分位距:( IQR = Q_3 - Q_1 )。它代表了中间50%数据的波动范围,对异常值不敏感,是衡量数据离散程度的稳健指标。
-
核心应用:
- 构建箱线图:箱线图以四分位数和IQR为基础,能直观展示数据的分布中心、展布范围和异常值。
- 识别异常值:通常将小于

或大于

的数据点视为潜在的异常值。
🦋1.4 众数
众数是一组数据中出现频率最高的数值(或类别)。
- 特点:
- 不唯一性:一组数据可能有一个众数、多个众数(多峰分布)或没有众数(所有值出现次数相同)。
- 适用范围广:不仅适用于数值型数据,更适用于分类数据(名义数据)。例如,调查中最受欢迎的手机品牌、最常见的客户投诉类型。
- 应用场景:在了解“最普遍”、“最常见”的情况时非常有用。例如,服装店确定哪种尺码需要备货最多(尺码的众数),或快餐店确定哪种套餐最受欢迎。
🦋1.5 极差
极差,也称为全距,是数据集内最大值与最小值之差。
-
计算公式:

-
意义:反映了数据整体的波动范围。
-
优点:计算极其简单、直观。
-
缺点:只利用了数据中的两个极端值,完全忽略了中间数据的分布情况,且对异常值极度敏感。一个异常点就会导致极差大幅变动,因此它通常只作为对数据离散程度的粗略、初步的观察。
🦋1.6 平均差
平均差是所有数据点与算术平均数离差的绝对值的平均数。它衡量的是每个数据点平均偏离中心(均值)多远。
-
计算公式:假定一组数据的算术平均数为 ( M ),则平均差 ( MD ) 为:

-
意义:平均差越大,表明数据分布越分散,平均数的代表性越弱;反之则越集中。
-
优点:比极差更可靠,因为它考虑了每一个数据点。
-
缺点:数学性质上,绝对值在后续运算中不如平方方便,因此在理论发展和高级统计中应用较少,常被方差和标准差取代。
-
应用:在需要直观理解平均偏离程度的场景,如质量控制中衡量产品尺寸与标准尺寸的平均偏差。
🦋1.7 方差和标准差
方差和标准差是衡量数据离散程度最重要、最常用的指标。它们基于数据点与均值离差的平方进行计算,在数学上具有优良的性质。
-
方差:是各个数据与算术平均数之差的平方的平均数。

-
标准差:是方差的算术平方根。

-
为什么使用平方?
- 避免正负离差相互抵消。
- 放大较大离差的影响,使指标对波动更敏感。
- 具有优良的数学性质,与许多统计理论(如正态分布)紧密相连。
-
单位:方差的单位是原数据单位的平方,不易解释。标准差的单位与原数据一致,因此在实际解读中更为常用。
-
意义:方差或标准差越大,表明数据围绕均值的波动越大,数据越不稳定、越分散;反之则越稳定、越集中。
-
广泛应用:
- 金融:衡量投资组合或股票价格的波动性(风险)。
- 质量控制:衡量生产过程的稳定性和一致性。
- 科研实验:衡量测量数据的精度和可重复性。
🦋1.7 综合应用示例:描述性分析法分析学生语文成绩
例4-1:文件L4-1学生语文成绩.xlsx记录了某班级同学的语文成绩。我们运用描述性分析法的各项指标对该数据进行分析,结果汇总如图4-4所示。
图4-4 学生语文成绩描述性分析结果与箱线图
结论:该班级语文成绩整体处于中等偏上水平(中位数74),但学生间差距较大(标准差10分,极差44分)。教学上可能需要关注成绩低于68分(下四分位数)的学生群体,并分析高低分异常点的具体原因。同时,最集中的分数段在72分左右,可以作为衡量教学效果的基准参考。
🔎2.对比分析法
对比分析法是数据分析中最基础、最核心的方法之一,它通过将两个或两个以上的数据(或数据集)放在一起进行对照比较,来揭示它们之间的差异、变化、趋势或规律。这种方法将抽象的数据转化为具体的、可量化的差距,使事物的状态、性能或成果变得一目了然。
🦋2.1 对比分析法的定义
对比分析法,又称比较分析法,是指通过将两个或两个以上的数据(指标)进行对比,分析其差异,从而揭示这些数据所代表的事物的发展变化情况和内在规律。其核心价值在于:
- 直观性:能直接看出事物在特定方面的优劣、增减或差距。
- 量化性:能精确地计算出变化或差距的具体数值和比例。
- 普遍性:适用于几乎所有涉及衡量和评估的场景。
典型应用场景:
- 目标达成评估:已完成商品数量 vs. 计划目标数量。
- 时间序列分析:本月销售额 vs. 上月销售额;本季度用户增长率 vs. 去年同期增长率。
- 横向标杆对比:A部门利润率 vs. B部门利润率;本公司市占率 vs. 主要竞争对手市占率。
- 实验效果评估:A/B测试中,实验组转化率 vs. 对照组转化率。
🦋2.2 对比分析法的分类
根据比较的维度,对比分析主要分为两大类:
-
静态比较(横向比较)
- 定义:在同一时间点或时间段内,对不同总体、不同组别或不同项目的指标进行比较。
- 目的:评估各比较对象在同一时期的相对位置、水平或结构。
- 示例:
- 2023年全球各智能手机品牌的市场份额对比。
- 公司内部各区域销售团队在Q3的业绩排名。
- 不同商品品类在促销期间的销售额贡献度对比。
-
动态比较(纵向比较)
- 定义:在同一总体或对象内,对其在不同时间点或时期的指标数值进行比较。
- 目的:观察事物自身随时间的发展变化趋势、速度或规律。
- 示例:
- 公司近五年年度营收的环比/同比增长分析。
- 某APP月度活跃用户数(MAU)的连续变化趋势。
- 个人体重在健身计划实施前后的对比。
综合运用:在实际分析中,静态比较和动态比较常结合使用,以形成更全面的洞察。例如,先通过动态比较发现公司年利润增长20%,再通过静态比较发现该增速低于行业平均增速(30%),从而得出更深刻的结论。
🦋2.3 用于对比分析的可视化图表
选择合适的图表能极大增强对比分析的表现力和说服力。选择时需考虑比较的维度(时间 vs. 类别)、比较的项目数量以及需要强调的重点。
- 柱状图:是对比分类数据的黄金标准。通过柱子的高度差异,清晰对比不同类别的数值大小。适用于比较离散项目间的数据(如不同产品的销量、不同国家的GDP)。当分类过多(如超过10个)时,可考虑使用条形图或进行数据聚合。
- 条形图:本质上是旋转90度的柱状图。当类别名称较长或类别数量较多时,条形图能提供更好的标签可读性和空间布局。
- 折线图:虽然主要用于展示趋势,但也能很好地用于对比多个数据系列在同一时间维度上的变化。例如,用多条折线对比公司旗下多个品牌在过去一年的月度销售额走势。
- 面积图:在折线图的基础上,用填充色强调“量”的累积感。堆叠面积图特别适合在展示多个系列趋势的同时,对比各系列对总体的贡献比例。
- 雷达图:适用于对比多个维度(特性)的表现。将不同对象在各维度上的得分连接成多边形,便于直观比较其综合能力或属性结构的异同。常用于产品竞品分析、员工能力评估等。
🦋2.4 使用对比分析法的注意事项
为确保对比分析的科学性和有效性,必须遵循以下三个基本原则:
-
可比性原则:比较对象的规模、范围和时间跨度必须一致且具有可比性。
- 错误示例:将“月销售额”与“日销售额”直接对比;将“华东区全年销量”与“北京市第三季度销量”直接对比。
- 正确做法:统一比较基准,如都转换为“日均销售额”,或将范围统一为“第三季度各大区销量”。
-
单位一致性原则:进行比较的指标,其计量单位必须统一。
- 错误示例:直接比较“2000美元”和“2000日元”的购买力。
- 正确做法:按照汇率统一换算为同一种货币(如美元)后再进行比较。
-
指标同质性原则:进行对比的指标必须是同类型、同性质的。
- 错误示例:将“销售额”(财务指标)与“网站访问量”(运营指标)的数值直接对比大小,这没有业务意义。
- 正确做法:对比“销售额”与“成本”,或对比“访问量”与“下载量”。不同类型的指标应通过构建比率(如“转化率=订单量/访问量”)或放在不同分析框架中综合考量。
🦋2.5 对比分析法的应用举例
图4-5 2017年全国部分省区降水量对比(柱状图)

图4-6 上海2017年各月降水量对比(折线图或柱状图)

分析:图4-5是典型的静态对比,通过柱状图横向比较不同地理单元在同一时期的指标(降水量)。图4-6是典型的动态对比,通过折线图或柱状图纵向比较同一地区在不同时间点的指标变化。
图4-7 某学生多学科期中和期末成绩对比(雷达图)

分析:图4-7运用雷达图,在静态上对比了同一学生在不同科目上的成绩表现,同时在动态上对比了同一科目在不同时期(期中 vs. 期末)的成绩变化,实现了多维度、多时期的综合对比。
🔎3.结构分析法
结构分析法旨在剖析一个整体的内部构成,通过研究各部分与整体的比例关系,来理解各部分的重要性、资源的分配状况以及结构的健康度。
🦋3.1 结构分析法的定义
结构分析法,又称占比分析法,是指将被分析对象的总体视为“1”或“100%”,然后计算总体内部各组成部分所占的比例。其核心公式为:

核心思想:从“总体”的视角出发,衡量“部分”的相对地位和贡献。
应用场景举例:
- 商业分析:分析公司营收的产品线构成,确定核心利润来源(如:智能手机业务占总营收的60%)。
- 市场研究:分析目标客户群的年龄、性别、地域分布,以精准定位市场。
- 人力资源管理:分析公司员工的学历结构、司龄结构,评估人才梯队和稳定性。
- 财务管理:分析企业资产中流动资产与固定资产的占比,评估资产流动性风险。
🦋3.2 用于结构分析的可视化图表
展示占比关系时,选择恰当的图表能让人瞬间把握整体与部分的关系。
- 饼图:是表达“部分-整体”关系最经典的图表。它用整个圆代表总体,用扇形面积代表各部分的占比。适用于展示不超过5-7个类别的简单构成。
- 环形图:可视作中心挖空的饼图。其中心空白区域常被用来放置总体的关键数字或标题,视觉效果更现代。也可用于显示多个环来展示多层级的占比(如旭日图的简化版)。
- 堆叠柱状图:在比较多个总体各自内部结构的同时,还能对比这些总体之间的大小。例如,比较A、B、C三个分公司各自的收入构成(产品线占比)。
- 堆叠面积图:在展示占比结构的基础上,特别擅长揭示结构随时间变化的趋势。例如,展示过去五年公司收入中,传统业务与新兴业务占比的消长过程。
- 旭日图:一种多层次的环形图,用于展示具有层级关系的数据结构。内环代表一级分类,外环代表其下的二级子分类。适合展示如公司组织架构、电商商品类目、文件目录大小等层级化数据的占比。
🦋3.3 使用结构分析法的注意事项
-
统计口径一致性:这是结构分析的生命线。计算占比时,分子和分母的统计范围、时间、标准必须完全一致。
- 错误示例:用“上半年某产品销售额”除以“全年公司总销售额”来计算该产品占比,口径不一致。
- 正确做法:分子分母均使用同一时间段的数据。
-
避免片面解读:占比只是一个相对指标,必须结合绝对数值和其他相关指标进行综合判断。
- 示例:某销售员的销售额占团队总额的50%。这并不必然意味着他最优秀,可能是因为他负责的区域市场容量最大,或者客单价高的产品恰好分配给了他。还需结合其客户增长率、利润率、客户满意度等指标全面评估。
-
结合趋势与原因分析:结构分析法擅长描述“是什么”,但无法直接解释“为什么”。当发现占比异常或发生显著变化时,需要结合对比分析法(与历史比、与标杆比)、因果分析等方法,深入探究背后的驱动因素。
🦋3.4 结构分析法的应用举例
图4-8 用户每日观看短视频时长分布环形图

分析:该环形图清晰揭示了用户行为的核心结构。占比最大的群体(每天1-2小时,34%)是平台的“中坚用户”,而“30分钟-1小时”群体(27%)是重要的增长或稳定基本盘。此结构分析可帮助平台制定内容推送策略和用户留存计划。
图4-9 短视频用户与整体网民年龄结构对比(堆叠条形图)

分析:该堆叠条形图同时完成了两项结构分析任务:一是分别展示了两个群体的内部年龄结构;二是通过对比两个条形,实现了跨群体的静态对比。结论“年龄分布几乎一致,主力均为30-49岁”表明,短视频产品的用户渗透已非常广泛,其用户画像与整体网民高度重合,这预示着市场已从增量竞争转向存量竞争。
对比分析法与结构分析法是数据分析的“左右手”。对比着眼于“内外高低”的差异,回答“谁更好/更多?变化了多少?”;结构着眼于“内部组成”的均衡,回答“由什么构成?各部分地位如何?”。在实际业务分析中,二者常交织使用:先通过对比发现异常或趋势,再通过结构分析剖析其内部成因;或先通过结构分析了解现状,再通过对比评估其合理性。掌握这两种基础方法,是迈向深度数据分析的关键一步。
🔎4.漏斗分析法
漏斗分析法是一种用于分析和优化多步骤业务流程转化效率的核心方法。它得名于其类似漏斗的直观形状——从顶部(起点)到底部(终点),用户或物料数量逐层递减。
🦋4.1 漏斗分析法的定义
从业务流程的起点到最终目标的达成,用户或项目在每一个环节都不可避免地会发生流失。漏斗分析法通过追踪主体(通常是用户)在流程中的行为路径,将其拆解为一系列连续的关键步骤,并量化每个步骤的转化与流失情况。通过分析各环节的转化率,可以发现流程中的瓶颈和问题环节,从而有针对性地进行优化,提升整体转化效率。
一个完整的漏斗分析通常包含以下4个核心要素:
- 时间:分析所覆盖的时间范围,包括流程的起始与结束时间,以及分析用户在各个环节之间的时间间隔和停留时长,这有助于识别流程是否流畅或存在卡点。
- 节点:构成漏斗的各个步骤,包括起点、终点和中间的过程性节点。节点的数量决定了漏斗的层级数。
- 研究对象:参与该事件或流程的主体,可以是一个用户群组、某一类特定用户,甚至是单个用户(用于微观分析)。
- 指标:用于量化分析的核心度量,主要包括转化率(本环节用户数/上一环节用户数)、流失率(1 - 转化率)、以及整体转化率(本环节用户数/初始用户数)。
应用领域:广泛应用于互联网产品的用户行为分析(如注册漏斗、购买漏斗)、电商行业的交易转化监控、市场营销活动的效果评估、以及任何具有线性流程的业务场景(如招聘流程、贷款审批流程)。
🦋4.2 常见的漏斗分析模型
根据不同的业务目标和用户旅程阶段,衍生出多种经典的漏斗分析模型:
- AARRR模型(海盗模型):互联网行业最经典的漏斗模型,描述了用户生命周期的五个阶段:
- 获取:用户如何发现并来到你的产品。
- 激活:用户的首次核心体验是否良好(如完成注册、发布第一条内容)。
- 留存:用户是否会回来重复使用。
- 收入:用户是否为你带来商业价值(如付费、点击广告)。
- 推荐:用户是否愿意将产品推荐给他人。
- 消费漏斗模型:适用于内容型平台(如新闻、视频网站)。关注用户从“曝光”到“深度消费”的路径,宏观上分析内容消费结构,微观上分析影响消费时长的因素。
- 电商漏斗模型:专注于在线购物流程,典型步骤为:首页/搜索页访问 → 商品详情页浏览 → 加入购物车 → 提交订单 → 支付成功。通过此模型可以系统性优化购物体验。
- AIDMA模型:传统营销领域的消费者行为模型,描述了从营销触达到最终购买的心理过程:注意 → 兴趣 → 欲望 → 记忆 → 行动。在数字营销中,仍可用于分析广告效果和用户心智转化路径。
🦋4.3 如何使用漏斗分析
实施漏斗分析通常遵循以下三个步骤:
- 梳理关键节点,绘制路径:基于业务流程和用户真实行为数据,定义从起点到终点的核心步骤。路径应逻辑连贯,且每个节点可被数据监测。
- 收集与填充数据:在确定的时间范围内,收集每个节点对应的独立用户数(或事件数)。
- 分析与优化:计算各环节转化率,识别流失严重的“瓶颈”环节。结合用户调研、产品日志等定性定量信息,诊断问题根源,提出并实施优化方案,然后持续监测效果。
🦋4.4 使用漏斗分析法的注意事项
为确保漏斗分析的有效性,需注意:
- 模型适配性:选择或自定义与自身业务逻辑最匹配的漏斗模型,不可生搬硬套。
- 路径清晰性:转化路径必须清晰、连续且符合实际用户行为逻辑。路径定义错误将导致分析完全失真。
- 数据准确性:确保数据采集的完整性与准确性,避免因数据埋点错误、上报丢失等问题导致错误结论。
- 聚焦关键瓶颈:分析应聚焦于转化率异常(通常指过低)的环节,集中资源解决主要矛盾,避免平均用力。
🦋4.5 漏斗分析法的应用举例:电商商品购买转化分析
以分析某电商平台一款商品的用户购买转化为例。
- 梳理关键节点:
浏览商品→搜索比价→添加购物车→下单→付款→交易成功。 - 收集数据,填充各环节用户数(见图4-10):
- 浏览商品:580人
- 搜索比价:576人
- 添加购物车:295人
- 下单:288人
- 付款:265人
- 交易成功:260人
图4-10 业务各节点用户数据图

- 进行分析与计算:
- 整体转化率 = 本环节用户数 / 初始(浏览商品)用户数。它衡量从第一步到当前步骤的总体验转化效率。
- 例如,“添加购物车”环节的整体转化率 = 295 / 580 ≈ 50.86%。
- 环节转化率 = 本环节用户数 / 上一环节用户数。它衡量相邻两个步骤间的转化效率。
- 例如,“添加购物车”环节的环节转化率 = 295 / 576 ≈ 51.22%。
- 整体转化率 = 本环节用户数 / 初始(浏览商品)用户数。它衡量从第一步到当前步骤的总体验转化效率。
图4-11 转化率漏斗图

图4-12 整体转化率条形图

洞察与建议:
由图4-11和计算可知,用户流失主要发生在 “添加购物车” (环节转化率仅51.22%)和 “付款” (环节转化率 = 265/288 ≈ 92%)两个环节。
- 针对“添加购物车”环节:流失近一半用户,可能原因包括:商品价格缺乏竞争力、购物车入口不清晰、用户仅是浏览比价而无强烈购买意图。应结合价格策略、页面设计和促销活动进行优化。
- 针对“付款”环节:虽然转化率高达92%,但仍有8%的下单用户流失,需关注付款流程是否过于复杂、支付方式是否齐全、或是否因库存不足、风控拦截等原因导致支付失败。
🔎5.相关性分析法
相关性分析法用于探索和量化两个或多个变量之间是否存在关联,以及关联的方向和强度。它是发现数据内在联系、形成分析假设的关键步骤。
🦋5.1 相关性分析法的定义
相关性分析法是一种统计学方法,用于研究两个或多个随机变量之间相互关系的密切程度和方向。其核心思想是:如果一个变量发生变化时,另一个变量也倾向于随之发生规律性变化,则认为这两个变量之间存在相关性。
核心要点:
- 相关性 ≠ 因果关系:这是理解相关性分析最重要的一条原则。即使两个变量高度相关(如冰淇淋销量和溺水人数在夏季都高),也不能直接推断其中一个导致了另一个。它们可能同时受第三个共同因素(如季节温度)影响,或者纯属巧合。
- 方向:相关性可以是正相关(一个变量增加,另一个也增加)或负相关(一个变量增加,另一个减少)。
- 类型:除了线性相关,变量间还可能存在非线性相关关系。
🦋5.2 相关性分析法的作用
- 揭示变量关系,发现规律:通过计算相关系数,将模糊的“感觉有联系”转化为可量化的关系强度,帮助发现数据中隐藏的模式。例如,发现广告投放金额与网站流量正相关。
- 指导预测与决策:在建立预测模型(如回归模型)前,进行相关性分析可以筛选出与目标变量高度相关的特征变量,提高模型效率。例如,企业分析发现产品销量与某个社交媒体关键词搜索量高度相关,便可将其作为市场热度预警指标。
- 启发分析思路:相关性分析能打破思维定式,发现意想不到的联系,从而开辟新的分析方向。例如,谷歌经济学家发现特定搜索词(如“快速卖房流程”)与区域性房价下跌存在相关性,这为利用非传统数据预测经济趋势提供了思路。
🦋5.3 进行相关性分析常用的可视化图表
可视化是探索相关性的有力工具:
- 散点图:最基础、最直接的工具。将两个变量的成对数据绘制在二维平面上。点的分布形态能直观显示相关性的方向(向上倾斜为正相关,向下为负相关)、强度(点越接近一条直线,相关性越强)和形式(线性或非线性)。
- 气泡图:在散点图的基础上,用点的大小表示第三个变量的数值,可用于初步探索三个变量间的复合关系。
- 折线图:当变量都与时间相关时,将多条趋势线绘制在同一时间轴上,可以观察它们的变化是否同步,从而推断是否存在相关性。
- 相关系数矩阵热力图:当需要同时考察多个变量两两之间的相关性时,将所有变量的相关系数计算出来,形成一个矩阵,并用热力图(颜色越深表示绝对值越大)可视化。这是一种非常高效的全局相关性探索工具。
- 组合图表(散点图+拟合线+统计量):在散点图上添加线性回归拟合线,并标注出相关系数(r)和显著性检验的p值。这种图表在一个视图中同时提供了直观趋势和严谨的统计证据。
🦋5.4 相关系数
相关系数(r)是量化线性相关程度的统计指标,最常用的是皮尔逊相关系数。
- 取值范围:[-1, 1]
- r > 0:正相关。
- r < 0:负相关。
- r = 0:无线性相关(但可能存在非线性关系)。
- 绝对值大小解释关联强度:
- |r| = 1:完全线性相关。
- 0.8 ≤ |r| < 1:高度相关。
- 0.5 ≤ |r| < 0.8:显著相关(中度相关)。
- 0.3 ≤ |r| < 0.5:低度相关。
- 0 < |r| < 0.3:微弱相关,可视为基本不相关。
- |r| = 0:无线性相关。
不同相关系数r的绝对值表示的相关程度
| 相关程度 | 完全相关 | 高度相关 | 显著相关 | 低度相关 | 微相关 | 不相关 |
|---|---|---|---|---|---|---|
| |r|的取值范围 | 1 | (0.8, 1) | (0.5, 0.8] | (0.3, 0.5] | (0, 0.3] | 0 |
🦋5.5 相关性分析法的应用举例:入职体检数据分析
文件 L4-5入职体检数据.xlsx 记录了某公司新员工的体检数据(见图4-13)。现分析身高、体重、视力之间的相关性。
图4-13 入职体检数据示例

在Excel中,可使用【数据】选项卡下的【数据分析】工具(需加载宏)进行批量计算:
- 点击【数据】→【数据分析】。
- 在弹出的对话框中选择【相关系数】(见图4-14)。
- 选择输入区域(包含身高、体重、视力等数值列),设置输出选项,点击确定。
图4-14 在Excel中选择“相关系数”分析工具

分析结果(见表4-2)显示:
- 身高与体重:相关系数 r ≈ 0.64,属于显著相关。这符合常识,身高较高的人通常体重也较大。
- 身高与视力:相关系数 r ≈ 0.07,接近0,属于微相关。说明身高和视力之间几乎没有线性关系。
- 体重与视力:同理,相关系数也应很低,属于微相关或无相关。
- 身高与心率:相关系数绝对值小于0.3,属于微相关。
表4-2 体检指标相关系数矩阵示例

结论:该分析结果符合常规认知。相关性分析帮助我们用量化数据验证或否定了关于变量关系的假设。但必须重申,即使身高和体重显著相关,也不能说“身高导致了体重的增加”,它们都受到遗传、营养等多方面因素的共同影响。
漏斗分析法与相关性分析法是数据分析师工具箱中两种用途迥异但同等重要的工具。
- 漏斗分析法是流程导向的,专注于优化从起点到终点的线性路径,解决“在哪里流失?如何提升转化?”的问题,是业务流程优化的核心。
- 相关性分析法是关系导向的,专注于探索变量间错综复杂的网状联系,回答“这些因素之间有关联吗?关联有多强?”的问题,是发现规律、构建预测模型的基础。
在实际工作中,二者常结合使用:先用相关性分析发现可能影响核心结果(如转化率)的关键因素,再用漏斗分析定位该因素具体在哪个用户旅程环节起作用,从而制定出精准的优化策略。
🔎6.预测分析法
预测分析法是数据分析中旨在展望未来的高级方法。它通过从历史与当前数据中挖掘潜在的模式、规律和因果关系,构建数学模型,从而对未来可能发生的事件、趋势或数值进行估算和推断。
🦋6.1 预测分析法的定义
预测分析法通过系统性地分析历史数据和当前数据,识别和提取其中蕴含的模式、趋势与关联关系,并据此构建预测模型,用以估算未来的结果、行为或状态。其核心是从已知推断未知,从过去和现在预见未来。
应用领域:
- 市场营销:预测客户生命周期价值、下次购买时间、营销活动响应率。
- 金融风控:预测股票价格走势、信用违约概率、市场波动性。
- 供应链与物流:预测产品需求、库存水平、运输时长。
- 医疗健康:预测疾病发病风险、患者住院时长、流行病传播趋势。
- 人力资源:预测员工离职率、招聘需求、培训效果。
🦋6.2 预测分析法的分类
根据预测所依据的信息和方法论,预测分析法主要分为两大类:
1. 定性预测分析法
这种方法主要依赖于人的主观判断、专业知识和经验,而非严格的数学模型。它适用于缺乏充足历史数据、影响因素难以量化或需要进行长期战略性预测的场景。
常用方法:
- 德尔菲法:组织专家背对背多轮匿名发表意见并反馈,逐步收敛共识。
- 头脑风暴法:通过自由讨论激发创造性想法。
- 情景预测法:构建多种可能的未来情景(如乐观、中性、悲观),分析各种情景下的发展路径。
- 历史类推法:基于相似历史事件的发展规律来推断当前事物的未来。
- 市场调查法:通过问卷、访谈等方式直接收集消费者或专家对未来市场的看法。
优点:能纳入复杂的、非量化的因素(如政策变化、社会情绪、技术突破),灵活性高。
局限性:易受主观偏见、个人经验和群体思维的影响,预测结果可能不一致且难以验证。
最佳实践:常与定量方法结合使用,以相互补充和修正。
2. 定量预测分析法
这种方法基于大量数据,运用数学和统计模型来揭示变量间的数量关系,从而进行客观、可重复的预测。它要求有足够的历史数据,且数据关系相对稳定。
定量预测又主要分为两类:
-
时间序列预测分析法:
- 核心思想:认为事物的发展具有惯性,未来的趋势可以从过去随时间变化的模式中延伸出来。它只利用预测目标自身的历史数据(Y),而不考虑其他外部因素(X)。
- 常用模型:
- 移动平均法:用近期数据的平均值作为下一期的预测值,平滑短期波动。
- 指数平滑法:对近期数据赋予更高权重,能更灵敏地反映最新变化。
- ARIMA模型(自回归综合移动平均模型):更复杂的模型,能处理具有趋势性、季节性和随机性的序列,是时间序列预测的经典方法。
- 应用场景:股票价格预测、月度销售额预测、每日用电量预测、客流量预测。
-
因果预测分析法(回归分析):
- 核心思想:认为预测目标(因变量Y)的变化是由一个或多个其他因素(自变量X)驱动的。通过建立Y与X之间的函数关系式来进行预测。
- 关键:必须确认变量间存在真实的因果逻辑或强相关关系,而非巧合。
- 常用方法:
- 一元线性回归:只有一个自变量(如用“广告费用”预测“销售额”)。
- 多元线性回归:有多个自变量(如用“广告费用”、“促销力度”、“竞品价格”共同预测“销售额”)。
- 非线性回归:当关系不是直线时使用。
- 应用场景:预测产品销量(基于价格、广告投入)、预测房价(基于面积、地段、房龄)、预测用户增长(基于渠道投入、市场活动)。
🦋6.3 用于预测分析的可视化图表
恰当的可视化图表不仅能展示预测结果,还能帮助评估模型的合理性和拟合效果。
- 折线图(带历史与预测区间):最常用。将历史数据(实线)和模型预测的未来数据(虚线或不同颜色的实线)绘制在同一张图上,直观展示趋势的延续。常配合置信区间阴影带一起展示,以表示预测的不确定性范围。
- 预测曲线图:在散点图或折线图的基础上,叠加由预测模型生成的平滑拟合曲线或趋势线,清晰地展示数据背后的整体规律和未来走向。
- 散点图(带趋势线/回归线):用于因果预测。绘制因变量与自变量的散点后,添加回归线(线性或非线性),可以直观判断关系的强度和形式,并用于进行预测。
- 时间序列模型诊断图:在使用如ARIMA等高级模型时,会生成一系列诊断图(如残差图、ACF/PACF图),用于检验模型是否充分捕获了数据中的信息,判断预测的可靠性。
🦋6.4 使用预测分析法的注意事项
预测本质上是“有根据的猜测”,成功应用需注意以下关键点:
- 明确目标与问题:在开始前,必须清晰定义预测什么(如明年的总营收)、为什么预测(用于制定预算)、预测时限多长(月度、年度)。这直接决定了数据收集的范围和模型的选择。
- 选择合适的模型:没有“万能模型”。必须根据数据特征(是否有趋势/季节性、变量间关系是否为线性)和业务场景选择。例如,平稳序列可用简单平滑法,有季节性的用季节ARIMA,多因素影响的用回归分析。务必使用历史数据回测和交叉验证等技术评估模型精度(如用MAPE, 均方根误差RMSE)。
- 正视误差与不确定性:所有预测都必然存在误差。一个负责任的预测报告不仅要给出点估计值(如“预计销量100万件”),更应提供预测区间(如“有95%的把握销量在90万至110万件之间”),以量化不确定性。
- 警惕过度拟合:模型在历史数据上拟合得“天衣无缝”,并不意味着它在未来表现也好。这通常是模型过于复杂,连数据中的随机噪声也学会了。避免方法是使用正则化、保持模型简洁,并用未参与训练的新数据(测试集) 来验证模型的泛化能力。
- 评估结果的合理性:最终的预测结果需要接受业务常识的检验。一个预测明年用户增长1000%的模型,即使统计指标优秀,也可能忽略了市场饱和度的现实约束。预测值应结合领域专家经验进行合理性判断。
🦋6.5 预测分析法的应用举例:科研经费与人员预测**
文件 L4-6科研经费数据.xlsx 记录了某单位近几年的职工人数和科研经费投入情况(见图4-15)。现需要预测2025年和2026年的职工人数及科研经费额度。
图4-15 某单位历年职工人数与科研经费数据表
分析步骤:
-
确定预测逻辑:预测分为两步。首先,预测未来年份的职工人数(因为人数随时间有稳定趋势)。其次,将预测出的职工人数作为自变量,来预测对应的科研经费(因为经费通常与人员规模相关)。
-
建立预测模型(使用Excel散点图与趋势线):
- 预测职工人数(基于年份):
- 以“年份”为X轴,“职工人数”为Y轴制作散点图。
- 添加“线性”趋势线,并显示公式和R²值(见图4-16)。
- 得到线性回归方程:
y = 3.0882x - 6181.1(其中y为职工人数,x为年份)。 - R² = 0.9815,表明该线性模型对历史数据的拟合程度极高,模型解释力强。
图4-16 职工人数随年份变化的散点图与线性趋势线

- 预测科研经费(基于职工人数):
- 以“职工人数”为X轴,“科研经费”为Y轴制作散点图。
- 观察点的分布,尝试添加趋势线后发现“多项式”(此处为3次)的拟合效果最好。
- 选择显示3次多项式趋势线的公式和R²值(见图4-17)。
- 得到多项式回归方程:
y = 0.0165x³ - 2.3499x² + 117.02x - 1297(其中y为科研经费,x为职工人数)。 - R² = 0.9792,同样表明拟合程度非常好。
图4-17 科研经费随职工人数变化的散点图与多项式趋势线

- 预测职工人数(基于年份):
-
执行预测计算:
- 预测2025年职工人数:将
x=2025代入线性方程,计算得y ≈ 70人。 - 预测2026年职工人数:将
x=2026代入线性方程,计算得y ≈ 73人。 - 预测2025年科研经费:将2025年预测职工人数
x=70代入多项式方程,计算得y ≈ 540万元。 - 预测2026年科研经费:将2026年预测职工人数
x=73代入多项式方程,计算得y ≈ 630万元。
- 预测2025年职工人数:将
-
呈现预测结果(见图4-18):
图4-18 2025年及2026年预测结果表
结论与讨论:
本例成功展示了结合时间序列趋势(线性回归) 和因果关系(多项式回归) 的两步预测法。模型的高R²值表明历史规律明显,预测具备较好的数据基础。然而,在实际应用中,仍需考虑:
- 政策影响:单位编制或科研拨款政策是否会发生重大变化?
- 模型外推风险:将线性趋势外推至过远的未来是否可靠?
- 结果交叉验证:预测的经费增长率是否合理?是否需结合其他定性信息进行校准?
此案例清晰地说明了如何利用易得的工具(Excel)和基础的预测模型,来解决实际的业务预测问题。
- 点赞
- 收藏
- 关注作者















评论(0)