读书笔记

《谁说菜鸟不会数据分析》

警告
本文最后更新于 2025-11-25,文中内容可能已过时。
BOOK
谁说菜鸟不会数据分析 封面

谁说菜鸟不会数据分析

6.0
张文霖电子工业出版社2013-01-019787121187803
内容简介
本书通过全彩漫画和通俗案例讲解 Excel 数据分析基础,涵盖数据处理、可视化、图表美化及分析报告撰写,帮助初学者掌握完整的数据分析流程。
核心结构图
核心结构图

数据分析那些事儿

  • 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
  • 数据分析具有现状分析、原因分析、预测分析的作用。其中,现状分析是指阐述企业的运营情况,一般通过日常通报来完成,如日报、周报、月报等;原因分析是指解释现状发生的原因,一般通过专题分析来完成;预测分析是指预测未来的发展趋势,一般通过专题分析来完成,如季度 / 年度计划。
  • 数据分析过程包括 6 个既相对独立又互有联系的阶段,即明确分析目的和思路 → 数据收集 → 数据处理(数据清洗 / 数据转化 / 数据提取 / 数据计算等) → 数据分析 → 数据展现 → 报告撰写。
  • 数据分析的误区包括分析目的不明确,为分析而分析;缺乏业务知识,分析结果偏离实际;一味追求使用高级分析方法,热衷研究模型。
  • 数据分析要明确区分常用的指标,见表 1-1,避免出现错误。
表 1-1 常用的指标和术语
类型说明
平均数全部数据累加后除以数据个数的算术平均值,代表总体的一般水平数
绝对数与相对数● 绝对数:反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标
● 相对数:反映客观现象之间数量联系程度,相对数 = 比较数值 / 基础数值
百分比与百分点● 百分比(百分率 / 百分数):表示一个数是另一个数的百分之几
● 百分点:不同时期以百分数的形式表现的相对指标的变动幅度,1 个百分点 = 1%
频数与频率● 频数:一组数据中个别数据重复出现的次数
● 频率:每组类别次数与总次数的比值,代表某类别在总体中出现的频繁程度
比例与比率● 比例:在总体中各部分的数值占全部数值的比重,反映总体的构成和结构
● 比率:不同类别数值的对比,反映一个整体中各部分之间的关系
倍数与番数● 倍数:一个数除以另一个数所得的商,表示数量的增长和上升幅度
● 番数:原来数量的 2 的 N 次方倍,如翻两番为 4 倍(22
同比与环比● 同比:与历史同时期进行比较得到的数值,反映事物发展的相对情况
● 环比:与前一个统计期进行比较得到的数值,反映事物逐期发展的情况

确定分析思路

  • 数据分析方法论从宏观角度指导如何进行数据分析;而数据分析法是指具体的分析方法,从微观角度指导如何进行数据分析。数据分析方法论的作用在于理顺分析思路,确保数据分析结构体系化;把问题分解成相关联的部分,并显示它们的关系;为后续数据分析的开展指引方向;确保分析结果的有效性及正确性。
  • 常用的数据分析方法论包括 PEST 分析法、5W2H 分析法、逻辑树分析法、4P 营销理论、用户行为理论。其中,PEST 分析法从政治、经济、社会、技术四个维度进行行业分析;5W2H 分析法是以何因、何事、何人、何时、何地、如何做进行提问,发现解决问题的线索;逻辑树分析法将问题所有子问题分层罗列,从最高层向下扩展;4P 营销理论从产品、价格、渠道、促销四个维度分析公司经营情况;用户行为理论是分析用户行为数据与心理特征,揭示行为背后的动机。

数据准备

  • 字段是事物或现象的某种特征,即变量;记录是事物或现象某种特征的具体表现,即数据或变量值。
  • 数据类型分为字符型和数值型,字符型数据是不具有计算能力的文字数据类型,包括中文字符、英文字符、数字字符(非数值型)等;数值型数据是直接使用自然数或度量单位进行计算的数值数据。
  • 数据表由标题行和数据部分组成;第一行是表的列标题(字段名),列标题不能重复;第二行起是数据部分,数据部分的每一行数据称为一个记录,且数据部分不允许出现空白行和空白列;数据表中不能有合并单元格存在;数据表与其他数据之间应留出至少一个空白行和一个空白列;数据表需要以一维表的形式存储,但在实际操作中接触的数据往往是以二维表存在,此时应将二维表转化为一维表的形式存储数据。
  • 获取数据的方式分为录入外部数据和自己录入数据。导入外部数据常见的来源是文本和网站数据来源。自己录入数据主要是问卷录入,问卷题目常用的类型主要有单选、多选、排序和开放性文字题。数值题直接录入数值即可;单选题编码时只需定义一个变量(A = 1、B = 2、C = 3、D = 4);多选题录入方式包括二分法(把每一个相应选项定义为一个变量,0 = 未选,1 = 已选)和多重分类法(事先定义录入的数值,并根据限选的项数确定应录入的变量个数),如 7 选 3 选 ACF,二分法录入 1、0、1、0、0、1、0,多重分类法录入 1、3、6;排序题需要对选项重要性进行排序,如选项 B>C>A 录入 B = 1、C = 2、A = 3;开放性文字题可归类则转为多选题分析,无法归类则做定性分析。

数据处理

  • 数据清洗包括重复数据的清理、缺失数据的处理、检查数据逻辑错误。其中,重复数据的处理方法包括函数法(COUNTIF 函数)、高级筛选法、条件格式法、数据透视表、删除重复数据;缺失数据的处理方法包括定位输入(Ctrl+G 定位 + Ctrl+Enter 替换为样本平均值)和查找替换(Ctrl+F 查找 + Ctrl+H 替换);检查数据逻辑错误的方法包括利用 IF 函数检查错误和利用条件格式标记错误。
  • 数据加工是指对现有字段进行抽取、计算、分组、转换、抽样等。其中,数据抽取是指保留原数据表中某些字段的部分信息,组合成新字段,包括字段分列(数据分列 / LEFT 函数 + RIGHT 函数)、字段合并(CONCATENATE 函数 + & 运算符)和字段匹配(VLOOKUP 函数);字段合并包括简单计算(加减乘除)和函数计算(平均值与总和 / 日期加减法 / DATEDIF 算工龄);数据分组一般用 VLOOKUP 函数;数据转换包括数据表的行列互换(选择性粘贴)和多选题录入方式的转换(利用 IF / ISNUMBER / HLOOKUP / SEARCH 函数将多重分类法转为二分法)。
  • 数据抽样一般用 RAND 函数随机抽样,如 =RANK()*10+60 随机抽取 60~70 的数。

数据分析

  • 数据分析的现状分析、原因分析、预测分析三大作用对应对比、细分、预测三大基本方法。高级数据分析方法使用机会较少,具体见表 5-1。
  • 对比分析法是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律,分为静态比较(同一时间条件下对不同总体指标的比较)和动态比较(同一总体条件下对不同时期指标数值的比较)。对比分析常用的维度包括与目标对比、不同时期对比、同级部门 / 单位 / 地区对比、行业内对比、活动效果对比。对比分析要注意指标的口径范围、计算方法、计量单位必须一致;对比的对象要有可比性;对比的指标类型必须一致。
  • 分组分析法是根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研究,以解释其内在的联系和规律性,关键在于确定组数与组距。在数据分组中,各组之间的取值界限为组限,一个组的最小值为上限,最大值为上限,上下限的差值为组距,上下限的平均值为组中值。采用组距分组的步骤是确定组数 → 确定各组的组距(组距 = ( 最大值 - 最小值 ) / 组数) → 根据组距大小,对数据进行分组整理,划归至相应组内。
  • 结构分析法是指被分析总体内的各部分与总体之间进行对比的分析方法,计算公式为 结构相对指标 ( 比例 ) = ( 总体某部分的数值 / 总体总量 ) × 100%,经典应用是市场占有率。
  • 平均分析法是指运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平,但会掩盖平均数后各单位的差异。平均指标有算术平均数(算术平均数 = 总体各单位数值的总和 / 总体单位个数)、调和平均数、几何平均数、众数和中位数等。
  • 交叉分析法(交叉表分析法)是指同时将两个有一定联系的变量及其值交叉排列在一张表格内,使各变量值成为不同变量的交叉结点,形成交叉表,从而分析交叉表中变量之间的关系。
  • 综合评价分析法是指运用多个指标对多个参评单位进行评价,其步骤是确定综合评价指标体系 → 收集数据并对不同计量单位的指标数据进行标准化处理(0 — 1 标准化 / Z 标准化) → 确定指标体系中各指标的权重(专家访谈法 / 德尔菲法 / 目标优化矩阵表等) → 对经处理后的指标再进行汇总计算出综合评价指数或综合评价分值 → 根据评价指数或分值对参评单位进行排序,并由此得出结论。
  • 杜邦分析法是指利用各主要财务指标间的内在联系,对财务情况及经济效益进行评价的方法。
  • 漏斗图分析法是以漏斗图的形式展现分析过程及结果的方法。
  • 矩阵关联分析法(象限图分析法)是指根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出解决问题的分析方法。发展矩阵在简单矩阵中增加发展趋势维度,呈现事物在不同时间或阶段的动态变化轨迹;改进难易矩阵在原有两个指标的基础上增加改进难易程度指标,呈现各因素在 “改进效果” 与 “改进难度” 坐标中的分布,辅助确定优先改进项。
  • 数据透视表是对 Excel 数据表中的各字段进行快速分类汇总的一种分析工具,通过它可以方便地调整分类汇总的方式,灵活地以多种不同方式展示数据的特征。
表 5-1 高级数据分析方法
研究方向数据分析方法
产品研究相关分析、对应分析、判别分析、结合分析、多维尺度分析等
品牌研究相关分析、聚类分析、判别分析、因子分析、对应分析、多维尺度分析等
价格研究相关分析、PSM 价格分析等
市场细分聚类分析、判别分析、因子分析、对应分析、多维尺度分析、Logistic 回归、决策树等
满意度研究相关分析、回归分析、主成分分析、因子分析、结构方程等
用户研究相关分析、聚类分析、判别分析、因子分析、对应分析、Logistic 回归、决策树、关联规则等
预测决策回归分析、决策树、神经网络、时间序列、Logistic 回归等

数据展现

  • 图表展示具有表达形象化、突出重点、体现专业化的特点。经济适用图表类型包括表格、饼图、条形图、柱形图、折线图、散点图,要通过关系选择图表,见表 6-1。图表制作的步骤是确定所要表达的主题 → 选定适用的图表 → 选择数据制作图表 → 检查是否有效展示数据 → 检查是否正确表达观点。
  • 当需要呈现的数据在 3 个系列及其以上,尤其是数据间的量纲不同的时候,用表格呈现数据的效果相对较好,Excel 条件格式方便好用的功能包括突出显示单元格、项目选取、数据条、图标集和迷你图。
  • 对于复杂一点的问题需使用稍微复杂的图表才能呈现要表达的内容,如双坐标图、矩阵图、旋风图、漏斗图等,见图 6-1。平均线图是在原来的柱形图或折线图的基础上,添加一条平均线,用于对比图中各项目之间与平均线的差距;双坐标图比平常的图像多一条次纵坐标轴,适用于图表中有两个系列及其以上的拘束,且量纲不同或数据差别很大的情形;竖形折线图(蛇形图)用于分析与比较多个不同产品、项目在每个指标方面的表现,得出它们在每个指标属性偏向,采用 “带平滑线和数据标记的散点图” 来绘制,并通过两个辅助数据来增加对应的标签;瀑布图(步行图 / 阶梯图)用于表示企业成本的构成、变化等情况;帕累托图(排列图 / 主次图)是按照发生频率的高低顺序绘制的直方图(无间距的柱形图),表示有多少结果是由己确认的原因所造成的;旋风图(成对条形图 / 对称条形图):适用于同一事物在某个活动、行为影响前后不同指标的变化;同一事物在某个条件变化下(指标 A 的变化),指标 B 受影响也随之变化,具有因果关系;两个类别之间不同指标的比较的情形;人口金字塔图是特殊的旋风图,是按人口年龄和性别表示人口分布的特种塔状条形图,用于反映人口的过去、现在、未来的发展情况;漏斗图用堆积条形图制作,且要用占位数据吧实际的条形图 “挤” 到中间去;矩阵图(散点图)用于展示不同变量之间的关联程度和趋势;发展矩阵图以矩阵形式展示问题、因素及现象间的相互关系;改进难易矩阵(气泡图)在散点图的基础上增加第三个变量,即气泡的面积,用于展示 3 个数值型变量之间的关系。
表 6-1 通过关系选择图表
数据关系适用图表
成分饼图、柱形图、条形图、瀑布图
排序柱形图、条形图、气泡图、帕累托图
时间序列折线图、柱形图、面积图
频率分布柱形图、条形图、折线图
相关性柱形图、对称条形图(旋风图)、散点图、气泡图
多重数据比较簇状柱形图、雷达图

图 6-1 给图表换装
图 6-1 给图表换装

图表美化

  • 完整的图表元素包括标题、图例、单位、脚注、资料来源等。饼图、柱形图、条形图、折线图的注意事项见表 6-2。图表说谎的情形包括虚张声势的增长(如图表拉伸等)、3D 效果的伪装、逆序排列的误导、一维图形的障眼法。
  • 美化图表的技巧包括最大化数据墨水比(减少非数据元素,突出数据元素);找出隐形的线(用明确的线对齐元素);图表数字格式;突出对比。
  • 专业图表的制作技巧包括创建图表模板(图表工具 > 另存为模板);快速制图(选中数据区域,按 F11 键创建 Excel 默认的图表类型);添加标签小工具(JWalk Chart Tools 加载宏);修剪超大值(绘制白色平行四边形 // 表示省略的中间数据)。
表 6-2 饼图、柱形图、条形图、折线图的注意事项
图表类型注意事项
饼图● 按照时钟表盘的刻度,把数据从 12 点钟的位置开始排列,最重要的成分紧靠该位置
● 数据项不要太多,保持在 5 项以内
● 不要使用爆炸式的 “饼图分离”
● 不要使用图例
● 尽量不使用标签连线,如果要用则切忌凌乱
● 尽量不使用 3D 效果,如果要用厚度要尽量薄一些
● 当扇区使颜色填充时,推荐使用白色的边框线,具有较好的切割感
柱形图● 同一数据序列用相同的颜色
● 不要使用倾斜的标签,别让读者歪着脑袋
纵坐标轴一般刻度从 0 开始
条形图● 同一数据序列使用相同的颜色
● 尽量让数据由大到小排序,方便阅读
● 不要使用倾斜的标签
● 最好添加数据标
折线图● 折线选用的线型要相对粗些,最好比网格线、坐标轴等更突出
● 线条一般不要超过 5 条,如果线条太多的话可分开做图表
● 不要使用倾斜的标签
纵坐标轴一般刻度从 0 开始

专业的报告

  • 数据分析报告是根据数据分析原理和方法,运用数据来反映、研究和分析某项事物的现状、问题、原因、本质和规律,并得出结论,提出解决办法的一种分析应用文体,包括专题分析报告、综合分析报告、日常数据通报。数据分析报告的写作原则包括规范性、重要性、谨慎性、创新性;数据分析报告的作用在于展示分析结果、验证分析质量、提供决策参考。
  • 数据分析报告结构中,“总 — 分 — 总” 结构的开篇部分报告标题页(解释基本观点 / 概括主要内容 / 交代分析主题 / 提出问题)、目录和前言(分析背景 / 目的与思路);正文部分包括具体分析过程与结果;结尾部分包括结论、建议及附录。
  • 撰写报告时要注意构合理,逻辑清晰;实事求是,反映真相;用词准确,避免含糊;篇幅适宜,简洁有效;结合业务,分析合理。
留言交流