“假数据”避坑指南
无论是在日常生活还是工作,数据往往会给我们带来一些“权威”的参考。
譬如,小时候你注意到自己一哭,妈妈就会关注你,这是你哭了很多次之后得出来的结论,这就是一种数据科学;
又比如,一家美国零售商最近发现,当天气变冷,肉桂葡式蛋挞的销量上升500%。面对这样的“感觉”,零售商要做出抉择:每当预测天气即将转冷时,就应该储备多少肉桂葡式蛋挞吗?
那些葡式蛋挞的零售商们在拥有十足把握以前,需要对他们的假设进行验证。此时就需要数据来验证他们的“感觉”和证明两者之间的因果关系。
以数据指导业务决策而不是仅凭直觉和经验已经成为很多企业决策者的共识,会收数据、会看数据、会分析数据成为了不少职场人的“加分项”。
那么你有想过,你精心收来的“真实数据”可能也会骗你?
大多数人认为,假数据只有在故意造假的情况才可能出现,事实上错误的收集方式、不准确的问题逻辑等都会产生“假数据”。
小倍从四个方面为大家整理了“假数据”的“假”从何而来:
1、问题问错了
——今天晚上想吃什么?
——不知道,随便。
这样无解的对话是不是经常发生在我们身边,其实,模糊又泛泛地提问是在我们设计问卷时最容易犯的错误之一。
——今晚有什么不想吃的东西吗?
——不想吃火锅,昨天才吃过。
当一个人根本不知道想要什么的时候往往更擅长于回答他们不想要什么以及过去发生了什么。正如乔布斯所说:“只有人们看到了他们想要的东西之后才知道什么东西能改善他们的生活。”
——您的月收入是多少?您平时吃饭会光盘吗?
——......
这样的敏感或者带有明显的“道德标准”的问题在面对面的访谈时得到的结果与匿名问卷得到的结果会一致吗?很有可能不会!
在社会心理学中有一个词叫社会赞许性(social desirability),又称社会期许误差,是指人们为了令人产生正面印象,倾向在调查中以虚假情况或意愿取代真实情况或意愿,以符合社会期望。例如过多提供自己的“善良行动”,或过少提及自己的“不良行动”。
人们在可能被他人审视的时候会更倾向突出其好的一面,而在匿名且隐私的环境中才能表达真实的自己。
2、人选错了
假设调研一座城市的人均消费水平。如果是在机场调研,或许会得出“城市发达、人民收入高”等结论,但如果到贫民窟里调查,结论就会截然相反,因为城市里真正贫穷的人很少会在机场出没。
这是非常常见的因幸存者偏差而带来的“假数据”。所谓幸存者偏差,是指取得资讯的渠道仅来自于幸存者时,此资讯可能会与实际情况存在偏差。
此时,即使你的问卷收集过程没有任何问题,也很难避免样本本身在说谎。
由于我们无法对所有的用户进行普查,因此在选择被访样本时要做好用户分层,进而从每一个层次的用户抽取数人进行调查。
例如,我们想要对用户积分使用情况进行调查,就需要将用户分为几类:
从每种类别的用户中,我们选取数人来进行抽查。在每个层级的人群中,我们也要尽量将年龄,性别,职业等等区分开来,这样才能减少幸存者偏差带来的数据偏差。
不仅如此,我们还需要考虑另一个问题——样本量越大越好吗?
样本量确实越大越好,样本越大越接近数据总体情况,但样本量越大同时也代表需要付出更多的人力和财力,所以往往出于现实因素的考虑,需要确定最少取样数量。
那么影响样本量的因素就只是人力财力吗?显然也不是!
影响样本量的因素一般有以下5个:
▶ 调查对象标志的差异程度
▶ 允许误差(又称极限误差)数值的大
▶ 调查结果的可靠程度
▶ 抽样的方法
▶ 抽样的组织形式
此外,根据调查经验,调查表的回收率高低也是影响样本数目的一个重要因素,调查表的回收率通常都很低,如果存在长时间段内多次调查同一批人的情况回收率会更低,此时也必须要适当考虑加大样本数量。
3、场景预设错了
在进行调研时,我们常常需要预设一个场景或条件,再收集信息。然后从各个角度再调研,去交叉验证这个预设场景是否正确。
但实际上很少人去做「交叉验证」这个环节,只做了「预设场景」,相当于把调研设计者的主观意志强加到用户身上。
依然以我们想要对用户积分使用情况进行调查为例:
——您会使用积分做什么?
A.换购日用品
B.换购视频网站会员
C.换购话费充值抵用券
D.换购消费抵用券
E.其他
当你调查的用户可能从来没有使用过积分,或者积分少得可怜什么也换不到的时候,这个时候可能人家就是凭感觉写一个选项,可想而知,这样的结果,肯定是存在很大的不准确性的。
此时如果将这个问题与用户的积分兑换记录挂钩,数据的准确率会有明显提升。
4、数据不能代替思考
夏天,“冰激凌的销量”和“溺水死亡人数”成正比,二者的趋势高度吻合。
所以,吃冰激凌会导致人们游泳时更容易溺水?游泳溺水时人们喜欢用冰激凌来抢救?
显然,常识告诉我们这不可能,这两者根本没有联系,唯一的契合点在于“夏天天气热”,冰激凌的销量会因此上升,下水游泳的人也会因此增多,自然会有更多溺水事件发生。
数据是客观的、理智的,但人是经验主义者,更善于用逻辑去认识和判断事物,数据的绝对客观性,往往会把我们被拖入单维思考的沼泽里。
我们很容易相信数字所带来的权威性,许多在人类看来再正常不过的逻辑思维,却是冰冷傲慢的数据分析的盲区,数据可以辅助你思考,但它不能代替你思考。
品牌只有隐蔽地、悄无声息地冲破嘈杂的信息,直接和顾客进行沟通,让他们感受到你是真心在和他们谈话并且想要提升他们的体验,而不只是为了推广产品。这样,他们才会心甘情愿地告诉你他们真正想买的是什么,甚至还会告诉你他们想从你们公司购买到什么。
因此,如何提问、怎样提问、对什么样的人提问都是有一门学问在里面,因此,当您发现您发出去的问卷回收回来的数据“不好用”的时候,不妨思考一下是不是收到了“假数据”。
倍市得在以自身独特的优势,帮助品牌打造“互联网+研究解决方案”的市场调研思路,轻松“避坑”。
不仅如此,倍市得客户体验管理系统通过客户触点,依据客户使用场景,实现千人千面的问卷体系;BI看板可以按照不同的权限和角色,将体验指标和数据在线化和可视化;系统自带的预警工单处理客户不满意,实现实时的闭环。
不仅是发问卷,更是打造业务闭环管理的“最强大脑”。