这几天总统大选又把各种民调和预测推成了热点,大家都说机器学习或者大数据完败,人心不可捉摸。这一仗证明了数据和机器总是勘不破人性这种玄学,这些永远都是无法预测好的云云。
实际上并非如此,数据并不是客观的,数据带有强烈的主观色彩,人本身在挖掘数据、分析数据和总结数据三个环节,都起到了至关重要的作用。
首先,收集数据的渠道,都是人操作的、人判断的,用街头的问卷还是电话?用 Google 的搜索历史还是 Facebook 的语义分析?这都是可选的、可变的。
其次,分析数据的算法里,没有任何一个是机器自己研制的。每个算法的每个公式和策略,都是人制定的,人去决定这些数据代表着什么意义,在大选中又会起到什么作用。
最后,得到结论的过程,也是人做决策。这样的分析结果代表什么含义?这样的结论准确程度有多少?
比如,许多我们知道的民调和大数据预测惨败,但也有很多成功预测的,他们使用的是完全不同的方法。不代表他们的能力多强、多有钱或者有多少人力,而是他们选择的方式不同。
像 Bing 通过搜索结果、社交媒体数据及第三方的预测结果,在 8 月得到的预测是希拉里有 77% 可能当选(之后的预测数字甚至更高):
而另外有人通过各州的收入来分析,准确率就大不一样:
因此并不能单纯地说,大数据、民调的数据分析方法有问题,人心永远无法捉摸。
不过今天我想说的是衍生出来的另外一个问题:数据跟我们做产品有什么关系?我们做产品时到底应该怎么看待数据?
1. 数据在产品演化中是必要的,它提供的是信息。
我在 产品是演化出的,不是规划出的 中提过,产品一定是演化出来的,不是规划出来的。
互联网产品的特殊性在于,不像传统的商品,设计、制造和销售完全割裂。对互联网产品来说,能够一边改进一边接触到用户,这就提供了很好的途径,让我们对用户的反馈做出改变。这也是惯常所说的「互联网思维」。
所谓接触用户、了解用户,无非就是几种方法(在之前文章里也有提过):
- 观察,或者亲自体验
- 调查问卷、街头调查
- 访谈、焦点小组
- 获得用户使用数据
使用这些方法,我们得到的是各种各样的信息,其中有定性的也有定量的。这些就是我们每次迭代的核心基础,没有这些,我们根本不知道该如何改。
对于定性的信息,更多是考验产品经理的观察力、对用户的敏感程度。所谓一个人到底有没有「产品感」,跟用户聊了几句能不能得到有效信息,去现实场景中体验了下产品能不能有新的发现,等等,都是这个范畴的。
而所谓数据,就是这些信息当中,属于定量部分的。
定量部分的信息,不依赖于产品经理的「产品感」,很多时候是依赖于产品经理对数据的敏感程度和分析能力。从错综复杂的数据里还原真相,推理出现场,是这时所需要的能力。
对于不管是调查问卷还是从产品后台得到的这些数据,看似都没什么问题,数字变大就是增长,数字减少就是下跌,明明是板上钉钉的事儿,其实却暗藏陷阱。对产品经理来说,数据的陷阱,比其它定性信息的陷阱,更加危险——因为你很相信这是客观的、无从质疑的。
(定量和定性信息的区别,定量信息即是数据)
2. 陷阱一:数据获取有误。
美国总统大选是数据获取天然的试验场,怎么得到最真实的数据、怎么选择调查对象样本都是老生常谈的话题。1936 年美国总统大选中脱颖而出的民调公司盖洛普,就是依靠更准备的获取方法,用 5 万样本打败了当年的《文学文摘》 230 万份的样本数据。
有趣的是,靠总统大选声名鹊起的盖洛普,今年没有预测总统大选。(First Gallup, Then Pew:http://www.imediaethics.org/first-gallup-then-pew-afraid-of-election-polls/)
数据获取在总统大选中非常难操作,在于美国作为移民国家、又奉行自由主义,国内的政治派系、种族、性别、年龄、教育背景、社会阶层等等,千差万别,无法找到准确的分层统计样本(分层抽样指依据特征区分样本,再随机抽样)。
这么来看,对不同的产品,数据获取的难度自然也不一样。
如果产品所面向的用户群体非常集中,比如是做初高中教育的,那么用户就是初高中的学生,调研的人群不会特别分散;但如果是大规模的平台,像淘宝京东这种,用户群体从巨富到还没有收入的学生各不相同,那么要区分调研他们的状况,自然就难上加难。
除了区分用户群体,确保获取信息的准确性也会是件麻烦事。
我之前有个朋友是做情趣用品的,他们做了一系列调研,然后发现平时使用情趣用品的男女比例,大概是 8:2 的样子(具体数字我记不清了)。这不是他们的猜想,也不是根据其他间接的数据做的推论,这可都是实实在在的调研结果。
但想来想去,他们总觉得哪里不对。这跟他们平时的感知是相悖的。于是他们又重新做了一些调研,不过这次他们使用了匿名的方式,并且没有绑定用户任何的账号,这次使用情趣用品女性的比例骤然增大。
显而易见:原来的调研是在微博上做的公开调研,很多女性用户比较腼腆,不愿填写自己的真实情况。
再说回今年的总统大选,为什么大量的民调和预测都失败了?因为有很多选民言行不一,也有很多选民大家称之为「沉默的大多数」,这样的结果就是获取到的数据,本身就是有问题的、不真实的。即便是它们没有经过任何润色处理。
(像微博上常见的公开投票,大家会更在意「表现出来的」观点,而不是自己「真实的」观点)
3. 陷阱二:数据是客观的,但信息和知识是有主观成分的。
不过好在前面说的都是传统的调研方式,新的获取数据方式,也就是所谓大数据,其实是根据用户实际行为获得的。对刚才提到的淘宝京东来说,根据该用户的消费记录,基本就能够知道他们大致属于什么收入阶层,根据他们的购物记录,也能还原出大致的人的性格、喜好和生活环境。
既然是通过用户的行为得到的数据来做判断,不是拿调查问卷或者访谈作为根据,那总不会出问题了吧?
当然也不是。这就涉及到数据分析环节中的陷阱了。同样的数据,不同的人会有不同的看法,不同的算法也会得到截然不同的结论。
数据(Data)是客观存在的,但是信息(information)则是我们分析出的。而知识(knowledge)是从信息中提炼出的、归纳总结出的(原腾讯副总裁吴军老师和台积电张忠谋都提过这样的概念)。
它们分属三种层次,我们应当时刻清楚当前面对的,究竟是哪一个。
举个我真正遇到的例子。
我目前所在的即时物流平台,做的是配送的业务。一方的用户是不同的渠道商,像饿了么、鲜花店等;另一方的用户则是众包配送员。可以理解为我们是做双方的撮合平台。
有段时间我们就遇到一个问题:A 渠道商的订单总是配送不出去,或者超时,或者干脆时间太久被取消。这个渠道的订单取消率和超时率都居高不下,同时配送这些订单的配送员数量一直很少。
我们对这些数据初步的判断就是:这是 A 渠道商的配送员不够。由于我们对 A 渠道商的配送服务有一定要求,所以对应的配送员要经过培训。我们的结论就是:让更多的配送员接受培训,增加对应配送员。
看起来逻辑没什么问题,但我们在即将行动时发现了另一份数据:A 渠道商的订单转单率特别高。所谓转单,就是配送员认为自己某种原因无法完成配送,于是把自己手中的订单转出去。
这下真实的原因露出水面。并非是配送员不够,而是配送员对接 A 渠道商的订单积极性不高,甚至有些反感。被转出的单子自然就容易超时乃至取消。
问题的本质也就是,我们应当提高 A 渠道商订单在配送员方面的满意度和收入。而不是冒然增多配送员。
「看似是这样的」和「真的是这样的」中间的差别可能非常巨大。
再比如,看这两张图,用户活跃量几乎一样(彩色图块的外边线),应该都是比较乐观的增长。
(图片来自 GrowingIO)
但仔细看,就会知道,虽然第一张图里的用户活跃量也不低,但是用户的周留存剧烈下降,甚至为 0,而图二中每天的活跃用户,在一定时间后就逐步稳定了下来。也就是说,在后期的日活中,有大量的是留存老用户,不像图一基本都是新用户。
这是一种很好地通过数据分析活跃用户与留存用户关系的方式。而如果只看到了活跃用户的数据,就不会得到正确的结论。
还有个经典例子就是沃尔德对美国空军战机的分析,这里就不做赘述了,参考:百度百科「幸存者偏差」中关于二战飞机的例子,前后解释有些矛盾,是怎么回事? (https://www.zhihu.com/question/21949175)
同样的数据,都能得出完全不同的判断。
(沃尔德的论文中计算概率的方法)
4. 陷阱三:唯数据导向。
你可能会问:不是说数据来指导我们迭代吗?那数据导向有什么问题吗?
确实,随着数据获取渠道的丰富、硬件上有了存储和计算大规模数据的可能性,数据在产品设计中在起着越来越重要的作用。Growth Hacker 的方式基本是现在互联网产品的共识了。
但是唯数据导向却是错的。
我们先看一个虚构的例子。
小 C 和小 D 来到一家公司做运营方向的产品,他们都在努力想让产品吸引更多用户。小 C 想到的是,打好基础,把产品的方方面面做好,慢慢推进,用户迟早会买账;而小 D 觉得这是落伍的方法,他认为,应该快速用各种营销方式先吸引人过来,剩下的在迭代中考虑。
如果是唯数据导向的公司,会怎么样?肯定会选择小 D 的方案,因为他们的两种方式里,小 D 的显然数据会更好看。
好了,小 C 只好也接受了小 D 的观点,两个人都在想如何做好营销的功能,老板建议他们用新手红包的方式。
所以小 C 想的是给每个用户发 10 元新人红包,把更多主要的补贴用在后续有黏性的用户身上。
而小 D 认为现在拉新、造势最重要,应该每个人发 50 元的新人红包,但是呢,钱要花在刀刃上,这 50 元的新人红包想要拿到,还得邀请 10 个好友才行,邀请完也不行,邀请完才告诉你这是抽奖红包,你只有 10% 的概率拿到——刚开始不告诉你,你下载了 APP、注册完了、打开红包页面,我再告诉你。
小 C 说你这不是欺诈吗?用户会反感的。小 D 说这有什么啊,反感的用户自然就会走,但是这样新用户的数据会暴涨的啊。
于是争执不下的两人,各自做了一套功能,上线后一周,老板看了看数据,就把小 C 开除了。
想必你明白我的意思了。这种舍远求近、捡了芝麻丢了西瓜的事情,其实普遍发生在如今的产品经理的设计里。在各种领导的压力下、KPI 的压力下、公司融资的压力下,往往都是追求一时的数据好看,而不在意长期的可持续发展。
这点在运营和业务导向的电商行业、O2O 行业非常显著。尤其是大公司,职级体系复杂,每个人只关心自己手头这块利益,就没有人在意公司长期的利益了(BAT 里谁做得最差有目共睹)。
微信是在节制方面做得最好的。张小龙多次提到,微信的核心价值观就是要以用户优先,而不是以 KPI 或者数据优先。比如他说道:
关于用户的价值,这里可以举很多例子,比如说很多的公众号可能把拉粉作为他最大的一个诉求,但你会看到其实微信里面几乎没有地方可以提供你可以很轻易的获取粉丝。这里要考虑一点,你吸引到了非常多的粉丝,这些粉丝真的是愿意被你吸引才过来的,这个区分很重要,如果是被你用各种手段牵过来的粉丝,这是没有意义的,也违背了我们以用户第一为价值观点的考量。假设一个公众号有1000万粉丝,可是这是在用户不太知情的情况底下获得的,可能很危险。
唯数据导向的产品设计方法,不仅会追求数据不断的增长,还会很担心数据的短暂下滑。
之前就跟朋友讨论一个问题:有很多成熟的、规模不小的平台和产品,为什么体验烂到这种地步了,还是不改版呢?
了解过他们一些产品经理的想法后,除了技术实现的问他,我还知道了一种可能。改版这种事情,是牵一发动全身的,要协调各种资源,很容易在协作中出问题;更麻烦的是,改版对用户来说,肯定是短期内难以接受的,很可能各项数据指标会有剧烈下滑,用户也由于不习惯新版而怨声载道。这两个麻烦,尤其后一个,是没人愿意站出来承担的。
长期来看会带来更多好处、未来用户会有更多的增长,这都不是几天就看得出来的,也许做改版的产品经理没有等到那一天,就会因为看似办事不利被开除了。所以维持现状也就是最好的选择了。
所以总结下来,怎样才是正确对待数据的方法呢?
首先,我们要确保数据的真实性、获取数据的准确性;其次,我们要清楚,每种数据都只是从一个侧面反映了事实,要还原数据是要多维去看的;最后,我们还要知道数据是客观的,但怎样合理利用数据则是很主观的,应当把它放在合适的位置上,而不是唯数据是从。
最后想说的是,说到跟数据有关系的产品经理,数据产品经理、懂数据的产品经理、可以利用好数据的产品经理,完全是三类人。数据产品经理是负责呈现数据和分析数据的功能产品的,数据就是他的产品;懂数据的产品经理是可以对数据有清晰认知的、能够知道数据背后真相的,他们能够让数据来指导自己的产品。
不过懂数据的产品经理,未必是可以利用好数据的产品经理。后者会更在意数据反映出的问题本质,以及对产品和用户来说,这个本质意味着什么,而不只是单纯追求数据。
希望大家都能成为最后一种产品经理。
*本文作者刘飞(互联网产品经理,公众号liufeinotes)