数据分析过程中几个可能常见的陷阱

数据分析与开发 2021-09-23 1866

描述

前言很多的数据分析人员往往太过于去关注数据或者分析方法论等，尤其是对于刚入门的，在解读数据过程中，受到数据来源、采集方法、统计口径、分析方法、业务经验、思考方式等因素影响，就会出现一些容易忽视的“陷阱”，以致于得出的结果很可能出现偏差。所以，重视数据分析是好的，但也千万不能掉进数据分析的“陷阱”里。

那么，本文我们将从业务层面的视角，来探讨和梳理在数据分析过程中几个可能常见“陷阱”，目的是主要给刚入门的、产品、运营等提供一些有益经验分享，帮助大家在实际工作场景中遇到这些情况的时候，可以尽量规避一些不太注意的“陷阱”。

不了解数据来源，不确保数据的正确性

在数据分析中更注重的是分析，而并不是数据本身，这就造成了数据分析最大的陷阱：不了解数据来源，不确保数据的正确性，就开始分析了。因此，数据分析的第一步就是了解数据来源，确保数据准确性。比如，一个考勤软件的App在做渠道投放，上线了新版的落地页。

上线了一段时间数据稳定后，业务人员从数据发现，此某个渠道的落地页点击率、转化率等数据相比其他渠道的投放的效果高出很多，从数据中，可以看到说明这个渠道来的用户效果很好，以后就要加大这个渠道的投放。然而，突然接到技术人员的反馈，在数据埋点的时候不小心埋错了，导致统计数据出现问题，这个渠道的数据是其他两个渠道总和！因为错误的数据，得出了错误的分析结果，并且还做了后续错误决策。由此可见，有效数据分析的前提，是对正确的数据做分析。尤其是在小公司的人员，没有强大的数据团队，可能就会借用各种各种第三方的统计软件来做数据埋点，此时首要确认数据的正确性，去梳理数据来源。

需求不匹配，分析目的不明确

梳理了数据来源，确保数据的准确性，是前提。那么接下来就是需要明确分析目的，分析目的明确了，后面的各种统计数据和分析方法以及分析结果才有意义。当明确目的后，才有后续的分析思路。比如，一个考勤软件的App的业务人员提出转化率较低，是否有优化的空间的需求。

然而我们并没有进一步的确认是哪个环节转化率低，就开始直接拉取数据进行分析，其实业务人员说的是新用户会员成单的转化率，是不是来源不精准，能否优化渠道或者停止投放，而我们得到的需求不明确，沟通的时候也未能进一步的明确分析目的，就是直接拉取各个环节的转化率，导致拉取的数据与原始问题不匹配。

因此，根据业务方的需求，首先要明确为什么要做数据分析，要解决什么问题，也就是分析的目的。然后针对分析目的，搭建分析框架，选择分析方法和具体分析指标，以及明确抽取哪些数据，用到哪些图表等分析思路，只有对分析目的有清晰的认识，才会避开为分析而分析的误区，分析的结果和过程就越有价值。

未清理数据，数据采集出现偏差

在了解数据来源、确保了准确性、明确分析需求后，下一步就是数据采集和数据清洗了，这也是最容易出问题的环节，有些问题甚至非常隐蔽难以发现。因此，数据本身没有观点，分析时不能预设观点，只倾向于那些能够支持自己的观点的数据，并在数据清洗中，合理的识别数据容量大小、剔除脏数据。

注意选择性偏见或者幸存者偏见。总体样本中，任意一个群体样本的平均值，都会围绕在这个群体的整体平均值周围。基于这个原理，我们便可以采用随机抽样的方式来对整体样本中的一个小群体进行分析，得出的结论是会比较接近真实情况的。但是你采集数据的过程是否是真的随机。

比如，在一个考勤软件APP应用升级期间，通过衡量用户的日活、留存率、活跃企业数等指标，来判断用户对新版本的喜欢是否优于老版本。但这里实际就隐藏了选择性偏见，因为新版本发布时，第一批升级上来的用户往往就是最活跃的用户。

这批用户在这些指标上，本来表现就是优于一般用户的，因此指标数据更高并不能说明更好。注意数据样本容量不够。我们在分析某特定的用户行为数据时，可能用户使用很少的情况。或者是在提取数据的过程中，增加了很多的限制条件或者多种用户行为或属性进行交叉后，得到很少的用户样本。

此时，得出的分析结果未必可信。因为大数定律，只有当数据量达到一定程度后，才能反映出特定的规律。但是样本容量多少才算合理，通常只能是具体问题具体分析。比如，在一个考勤软件APP应用新上了学习打卡的新功能，但由于前期无预算做推广，导致新功能只有在小部分老用户群体中曝光，因此，从数据中来判断此功能并不受欢迎。

但这里实际就存在数据样本容量不够，并不能说明问题。因此，遇到这种情况，建议可以把时间线拉长，这样可能会获得足量的样本。还有一种做法是，将不重要的限定条件去掉，也可以增大样本数。注意存在脏数据。脏数据是指严重不合理或对于实际业务毫无意义的数据，通常是由程序bug、第三方攻击、人为等原因造成的。这种数据对指标的准确度影响较大。

比如，我们要分析在一个考勤软件APP中各个企业类型打卡规则的分布情况，而用于分析用户打卡视角中，有较多是个人打卡并不是我们要分析的目标群体或者有人的工种的特殊性，就会造成打卡规则的分布不规则的情况，容易造成对用户喜好的误判。因此，对脏数据的清洗和处理，也是数据分析人员日常工作中非常重要的一部分。在分析具体业务时，也要针对特定业务，过滤掉异常数据，来确保拥有比较好的数据质量。

指标不合理，数据具备时效性

清洗完数据后，下一步就需要明确分析的数据指标，进行数据分析，其数据分析的结果通常是各种各样的指标，每个指标都有自己的统计逻辑，反映的事物的某些方面的本质。比如，很多时候我们会使用平均值来描述一组数据的集中趋势。

我们在制定业务阈值时，也经常会参考平均值。但是，有些业务场景不适合使用平均值。就像变化比较大，存在极端值的数据，或者是对最终结果影响不一致的数据。这种时候，你就要考虑其他指标，如加权平均值、百分位数、小数值合并后再求平均值。因此，在进行数据分析时，如果不能选择正确的指标，也可能会走入误区，从而得出错误的结论。数据是具备一定的时效性，不同情况下的数据，一些曾经的数据可能不再适用，需要找到新的数据指标。

套用方法论，分析结论不严谨

明确好数据分析指标，接下来就是通过各种数据分析方法来分析数据，得出结论，支持业务决策。数据分析方法论是对一个数据分析项目的整体工作起到指导作用的思路模型。然而，在数据分析学习时或许习惯了各种解题套路，但实操时其实并不存在通用的分析套路。

不同的行业、不同的业务，不同的阶段，哪怕用的是同一种分析方法结论都应有所区别。比如，在实际工作场景中，数据分析需要对数据表现作出快速判断，进而指导运营决策，并不像学术研究那样严谨，不需要在每次分析前都去验证样本群体是否符合某种统计分布等，实际工作中，考验得更多的是对业务的理解的把握能力。

所以，在开展数据分析工作过程中，不能完全依赖过往的类似案例以及分析方法，而应重视业务的理解。因此，每一次分析，应该结合业务场景中思考，更不能被各种套路方法论给束缚住，也不能简单依赖过往的类似案例。

轻视业务，与实际场景脱节

数据不等同与实际场景，实际场景往往比数据更加复杂，分析时需要了解具象化的场景，而不是抽象的数据，数据分析初学者极易犯的错误，只懂工具不懂业务不能真正理解业务需求。好的分析人员需要既懂工具又懂业务，也要多去一线了解业务运作，帮助解决业务运营中遇到的各种问题。

比如，结构化思维模型、KANO分析模型、RFM模型、四象限模型。。。。。。这些经典且广泛应用的模型。来积累丰富的数据分析模型库以应对各种业务场景。因此，数据分析人员结合实际业务场景，需要具体问题具体分析，服务于业务的应用。及时与企业各部门沟通，共享数据分析的成果，这样才能体现数据分析的真正价值。所以作为数据分析人员，要结合业务需求，保持独立思考的心态，大胆假设，小心求证，警惕和避免走进数据分析的陷阱。

总结

实际工作生活中，还有很多需要我们注意的关于数据分析的事项，这里就不一一开展，本文只是从业务层面的视角梳理了关于数据分析各个环节中可能存在的引发误导的一些陷阱。

编辑：jq

打开APP阅读更多精彩内容