数据分析方法
指具体的分析方法,主要从微观角度指导如何进行数据分析。
数据分析作用与对应的数据方法
:
基本的分析方法:
- 对比分析法
- 分组分析法
- 交叉分析法
- 结构分析法
- 漏斗分析法
- 综合评价分析法
- 因素分析法
- 矩阵关联分析法
高级的分析法:
- 相关分析法
- 回归分析法
- 聚类分析法
- 判别分析法
- 主成分分析法
- 因子分析法
- 对应分析法
- 时间序列
无论简单的还是复杂的,只要能解决问题,就是好方法。
对比分析法
对比分析法是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。 对比分析法的特点就是可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少,这就是对比分析法的定义。
分类:
- 静态比较(和行业比):指在同一时间条件下对不同总体指标的比较,比如说不同部门、不同地区、不同国家的比较、也叫横向比较,简称横比。
- 动态比较(和自己比):指在同一总体条件下对不同时期指标数值的比较,也叫纵向比较,简称纵比。
举例
动态比较:女朋友说:我比上个月廋了没?
静态比较:女朋友说:我和小迪谁漂亮?
分组分析法
分组分析法是根据目标数据的性质、特征,按照一定指标,将数据总体划分成几个部分,分析其的内部结构和相互关系,从而了解事物的发展规律。
分组的目的是为了便于对比,因此分组分析法与对比分析法结合运用。
分组分析法关在在于确定组数与组距。在数据分组中,各组之间的取值界限称为组限,一个组的最小值叫下限,一个组的最大值叫上限,上限与下限的差叫组距,上限和下限的平均值叫组中值,它是一组变量值的代表值。
组距分组步骤:
-
- 确定组数
-
- 确定各组组距
-
- 根据组距分组
举例
例如:学校有职工100人,通过年龄指标进行分组,统计职工年龄分布情况,分析职工年龄结构是否合理,结果如图所示:
职工年龄 | 人数 |
---|---|
20~30 | 23 |
30~40 | 27 |
40~45 | 30 |
50~60 | 20 |
结构分析法
结构分析法又称比重分析法,是在分组分析法的基础上,计算总体内各组成部分占总体的比重,进而分析总体数据的内部特征。
结构指标的计算公式:
结构指标(%)=(总体中某一部分 / 总体总量)* 100%
例:市场占有率=(某样商品 / 该种商品市场销售总量)* 100%
举例
人数占比
职工年龄 | 人数 | 人数占比 |
---|---|---|
20~30 | 23 | 23% |
30~40 | 27 | 27% |
40~45 | 30 | 30% |
50~60 | 20 | 20% |
还可以算40岁以下的职工占比:50%
结构分析法简单实用,应用频繁。通过结构分析,可以了解总体中某一部分的重要程度,再结合对比分析法,分析某一结构指标是上升了还是下降了,使管理者快速了解企业的运营状况。
平均分析法
平均分析法是运用平均数指标来反映总体在一定时间、地点条件下的某一数量特征水平。
平均指标可用于同一现象在不同地区、不同部门或单位间的对比,还可以用于同一现象在不同时间的对比。
平均分析法的主要作用主要有两点:
- 利用平均指标对比同类现象在不同地区、不同行业、不同类型单位等之间的差异程度,比用总量指标对比更具有说服力。
- 利用平均指标对比某些现象在不同历史时期的变化,更能说明其发展趋势和规律。
平均指标有:
- 算数平均数(最常用)
- 所有的数值相加再除以总个数
- 几何平均数
- 几何平均数在计算增长率、收益率等比率和指数进行平均时应用比较广泛,受极端值的影响较小
- 所有数值乘积开n次方根,在计算几何平均数的时候,不可以有0和负数
- 中位数
- 如果因异常值的出现而无法用算术平均数来描述数据的话,就用中位数和众数。
- 中位数是将数据按照从小到大的顺序排列,最中间的那个数据即为中位数。
- 数据个数为奇数时,中位数即最中间的数;当数据为偶数时,中位数为中间两个数的平均值。中位数不受极值影响,对极值缺乏敏感性。
- 众数
- 众数是数据中出现次数最多的数字,即频数最大的数值。
算数平均数的计算公式为:
算数平均数=总体各单位数值的总和/总体单位个数
算数平均数是非常重要的基础性指标。平均数是综合指标,它的特点是将总体内各单位的数值差异抽象化,它只能代表总体的一般水平,掩盖了在平均数后各单位的差异。 平均分析法要结合各种分组和指标对比进行。比如分析不同行业、地区的平均从业人数、平均营业收入等。 总之,对于所有数量指标都可以依据不同的分组用单位来平均,进行对比与分析。
举例
交叉分析法
交叉分析法是用于分析两个变量之间的关系。
把统计分析数据制作成二维(或二维以上,维度越多,交叉表越复杂)交叉表格,将具有一定联系的变量分别设置为行变量和列变量,两个变量在表格中的交叉结点即为变量值。所以交叉分析法又叫交叉表分析法。
举例
玩家等级 | 1月份 | 2月份 |
---|---|---|
1 | 17% | 8% |
5 | 21% | 15% |
10 | 30% | 24% |
15 | 45% | 33% |
综合评价分析法
运用多个指标对多个参评单位进行评价的方法,称为多变量综合评价方法,或简称综合评价方法。其基本思想是将多个指标转化为一个能够反映综合情况的指标来进行评价。如不同国家经济实力,不同地区社会发展水平,小康生活水平达标进程,企业经济效益评价等,都可以应用这种方法。
现代综合评价方法
- 主成分分析法。主成分分析是多元统计分析的一个分支。是将其分量相关的原随机向量,借助于一个正交变换,转化成其分量不相关的新随机向量,并以方差作为信息量的测度,对新随机向量进行降维处理。再通过构造适当的价值函数,进一步做系统转化。
- 数据包络分析法。它是创建人以其名字命名的DEA模型——C2R模型。DEA法不仅可对同一类型各决策单元的相对有效性做出评价与排序,而且还可进一步分析各决策单元非DE有效的原因及其改进方向,从而为决策者提供重要的管理决策信息。
- 模糊评价法。模糊评价法奠基于模糊数学。它不仅可对评价对象按综合分值的大小进行,而且还可根据模糊评价集上的值按最大隶属度原则去评定对象的等级。
综合评价法的特点
- 评价过程不是逐个指标顺次完成的,而是通过一些特殊方法将多个指标的评价同时完成的;
- 综合评价过程中,一般要根据指标的重要性进行加权处理;
- 评价结果不再是具有具体含义的统计指标,而是以指数或分值表示参评单位”综合状况”的排序。
综合评价法的要素
- 评价者。评价者可以是某个人或某团体。评价目的的给定、评价指标的建立、评价模型的选择、权重系数的确定都与评价者有关。因此,评价者在评价过程的作用是不可轻视的。
- 被评价对象。随着综合评价技术理论的开展与实践活动,评价的领域也从最初的各行各业经济统计综合评价拓展到后来的技术水平、生活质量、小康水平、社会发展、环境质量、竞争能力、综合国力、绩效考评等方面。这些都能构成被评价对象。
- 评价指标。评价指标体系是从多个视角和层次反映特定评价客体数量规模与数量水平的。它是一个“具体一抽象一具体”的辩证逻辑思维过程,是人们对现象总体数量特征的认识逐步深化、求精、完善、系统化的过程。
- 权重系数。相对于某种评价目的来说,评价指标相对重要性是不同的。权重系数确定的合理与否,关系到综合评价结果的可信程度。
- 综合评价模型。所谓多指标综合评价,就是指通过一定的数学模型将多个评价指标值“合成”为一个整体性的综合评价值。
综合评价法的步骤
- 确定综合评价指标体系,这是综合评价的基础和依据。
- 收集数据,并对不同计量单位的指标数据进行同度量处理。
- 确定指标体系中各指标的权数,以保证评价的科学性。
- 对经过处理后的指标在进行汇总计算出综合评价指数或综合评价分值。
- 根据评价指数或分值对参评单位进行排序,并由此得出结论。
数据标准化
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
的数据归一化的方法有:
- 0-1标准化
- 就是对原始数据做线性变化,使其落在[0,1]期间
- 第N经表转化处理的值=(第N个原始值-最小值)/(最大值-最小值)
- log函数转换
- atan函数转换
- z-score 标准化
权重确定法
介绍个简单的。目标优化矩阵法。
目标优化矩阵法的工作原理就是把人脑的模糊思维,简化为计算机的1/0式逻辑思维,最后得出量化结果,这种方法不仅量化准确,而且简单、方便、快捷
例如: 我们将模拟HR对人才评价过程中各指标的权重确定过程。横、纵轴表示评定指标:
从纵轴“人品”开始,依次去和横轴的指标对比,假设“人品”没有“动手能力”重要,则在两指标交叉的单元格输入“0”;“人品”比“创新意识”重要,则输入“1”;
举例
用户忠诚度的展示和比较
评分是将标准化的值进行倍数放大,比如使用10分制进行评分,则可以乘10。
对比用雷达图,这样可以完整地显示所有评价指标。
漏斗图分析法
人们发现,在许多事物向前发展的过程中,都会呈现倒金字塔的形状。例如网站经过推广,发现买东西的增加的很少,这时候就需要漏斗图来分析了。
用漏斗图分析,问题就两个方面:
- 最终漏出多少
- 最终漏出的比率多少 针对这俩问题,可行优化的是:
- 扩大漏斗口径
- 提升转化率
矩阵关联分析法
矩阵分析法(象限图分析)是指根据事物的两个重要属性作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也成为矩阵关联分析法,简称矩阵分析法。 而矩阵关联分析法在解决问题和资源分配时,为决策者提供重要参考依据。先解决主要矛盾,再解决次要矛盾,有利于提高工作效率,将资源分配到最能产生绩效的部门、工作中,有利于决策者进行资源优化配置。
举例
2019最新Gartner分析和商业智能平台魔力象限
象限排序:第一象限 > 第二象限 > 第四象限 > 第三象限