神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:决策是行动的指南。不管是个人还是企业,每天都要面临着无数的决策。决策的好坏会对结果产生巨大影响,如何做好决策是每个人都要上的一门必修课。在Netflix这里,他们采用了一种以实验为导向的决策流程,先小范围地对不同方案进行测试,根据对比效果调整,从而摸索出普遍适用的决策。他们为此还在官方技术博客推出了关于Netflix如何用A/B测试做出决策的系列文章。本文来自编译,是系列文章的第七篇,也是最后一篇,谈的是学习文化的重要性。
划重点:
Netflix强调了从数据中学习的重要性
学习与实验渗透到了Netflix的各个地方
实验对 Netflix 来说是一种双赢的价值主张
相关阅读:
Netflix 是如何做决策的?(一):介绍
Netflix是如何做决策的?(二):什么是 A/B 测试?
Netflix是如何做决策的?(三):误报与统计显著性
Netflix是如何做决策的?(四):漏报与功效
Netflix是如何做决策的?(五):树立对决策的信心
Netflix是如何做决策的?(六):实验是主要关注焦点
本系列的前几篇文章介绍了A/B 测试的WHY、WHAT以及HOW,所有这些都是产品开发从实验中获益所必需的。但是如果不加上一点魔法的话,光有这些还是不够的。
怎么把实验的原材料转化成涡轮增压的产品创新?其中的秘诀在于文化。文化的发展壮大从来没有捷径可走,培养实验文化也不例外。要想让领导层支持聚焦 A/B 测试的学习方法、建立起对测试结果的信任,以及形成大规模实施实验的技术能力,这些都需要时间——尤其是对这些想法不熟悉的组织要想做到的话更是需要时间。但是通过科学方法进行实验所带来的回报,以及让产品开发形成良性循环是非常值得的。关于如何启动实验飞轮以及建立实验文化,我们在微软的同事分享了一些考虑周到的出版物,而他们的“从爬到走再到跑最后飞起来”(rawl, Walk, Run, Fly)的模型是评估实验实践成熟度的好工具。
在 Netflix这里,我们几十年来一直都在利用实验和科学方法,并且很幸运拥有成熟的实验文化。实验文化得到了包括高层在内的全公司的的广泛支持,只要有可能,A/B 测试或其他因果推理方法的结果几乎就是决策的必需。我们还对教育计划进行投资,从而提高公司范围内对我们怎么用 A/B 测试作为产品开发框架的理解。事实上,本系列的大部分材料都改编自我们内部的实验 101 和 201 课程(面向Netflix全员开放)。
Netflix是学习型组织
作为一家企业,Netflix有组织地强调了从数据中学习的重要性,这也包括了从 A/B 测试中的学习。我们的数据和洞察组织有团队跟公司的各个部门合作,为了解全球各地的内容偏好,提供无缝的客户支持体验提供支持。我们采用了定性与定量结合的消费者研究、分析、实验、预测建模等工具来深入了解会员。我们拥有数据管道,为从面向执行人员的仪表板到个性化系统提供支持,从而帮助将Netflix 会员与适当的内容建立关联。这种数据驱动的思维方式已经是渗透到公司的各个层面,就连Netflix的最高领导层也是数据和洞察力组织的体现。
Netflix的企业文化是用数据说话
正如第 6 部分所讨论的那样,我们有部分专注于实验与因果推理的数据科学家在跟Netflix 的产品创新团队合作。这些数据科学家会设计和执行测试,从而为学习议程提供支持,并为决策做出贡献。通过深入研究某个测试结果的细节、寻找不同测试之间的共同模式,以及探索其他的数据源,这些 Netflix 数据科学家积累了有关 Netflix 体验各个方面的领域专业知识,并成为产品经理和工程领导者的重要合作伙伴。数据科学家通过评估机会大小以及确定适合创新的领域来帮助塑造 Netflix 产品的发展,并经常会提出随后需经过测试的假设。
我们还投资了一个广泛而灵活的实验平台,让我们的实验计划能够随着公司对学习和了解的雄心壮大而扩展。就像 Netflix 产品本身这些年来一直在不断发展一样,我们支持大规模实验的技术开发手段也在不断发展。事实上,这20 多年来,我们一直致力于改进 Netflix 的实验平台解决方案——我们对支持 A/B 测试的工具的第一笔投资可以追溯到 2001 年。
Netflix 的 Stan Lanning在2001年开发的早期实验工具。
学习与实验渗透到了Netflix的各个地方
Netflix 拥有独特的内部文化,这种文化强化了实验和科学方法的使用。作为一家公司,我们的目标是保持好奇心,真正地、诚实地去了解我们在世界各地的会员,并服务好他们。我们在思想上也保持开放,知道伟大的想法可能会来自不太可能的来源。对于学习和做出大决策来说,没有一种办法能优于运用严格测试的力量来确认或证伪想法。公开、坦诚地分享测试结果可以让 Netflix 的每个人对会员形成直觉,并就我们如何为他们提供更好的体验提出想法——于是就启动了一个良性循环。
事实上,Netflix随时要跑的测试太多了,以至于某位会员可能会同时被分配到多个测试之中。其实Netflix 作为产品并不是一个:在任何特定时间,我们都在测试大量的产品变体,始终致力于寻求进一步了解如何为现有会员带来更多乐趣,同时吸引新的会员。有些测试,比方说十大排行榜,是用户很容易就能注意到的,而其他一些测试,比方说个性化以及搜索系统的变更,或者流媒体视频的编码与提供,则不太明显。
在 Netflix这里,我们不惧大胆的测试,不怕挑战基本的或长期固有的假设。在这两点上,十大排行榜都是一个很好的例子:对于在Netflix产品上面暴露一种新型证据来说,十大排行榜属于巨大而显著的改变。像这样的大型测试可以开辟出全新的创新领域,在公司内部也会引起积极的辩论(见下文)。而在另一方面,我们也会展开更小规模的测试,以优化产品的方方面面。一个很好的例子是我们为寻找宣传产品各方面的正确文案所做的测试。就数字而言,这些更小的,不那么不引人注目的测试要多得多,我们投资于端到端的基础设施,目的是简化实验的执行,让产品团队能够快速地从假设走到测试,最后推出成功的体验。比方说,莎士比亚项目为快速的文案测试提供了一个端到端的解决方案,并且与 Netflix 集中式的实验平台集成到一起。说得更宽泛一点,我们一直在寻找可以从实验中受益的新领域,或者其他的方法或工具可以带来新的或更快的学习的领域。
数据科学家不是数据的看门人,而是数据的向导
对测试展开辩论,以及谦逊的重要性
Netflix 有一套成熟的运营机制来对产品决策的辩论制订以及社会化进行管控。 Netflix 不会通过委员会或寻求共识来做出决定。取而代之的是,对于每一个重大决策,我们都有一位“见多识广的队长”,在消化相关数据以及同事的意见(包括不同的观点)后,此人将最终负责做出判断。在可能的情况下,A/B 测试结果或因果推理研究是该决策过程的预期输入。
事实上,不仅产品决策需要测试结果,创新和测试的投资领域决策、重大创新的测试计划、重大测试的结果等,这些都要总结进备忘录,广泛社会化,并积极讨论。进行相关辩论的论坛大家都可以访问,确保有人反馈关于测试设计和结果的不同观点,并对决策做出权衡。进入这些论坛的邀请对任何有兴趣的人开放,入场费只需要看备忘录。尽管公司高管也经常光顾这些地方,但这里很显然没有等级之分,因为一切都要靠数据说话。
Netflix 数据科学家是这些论坛的积极参与者以及有价值的参与者。数据科学家应该为数据说话,说明从实验结果中可以得出以及不可以得出什么结论,不同的实验设计的优缺点等等。尽管数据科学家不是产品决策的知情队长,但作为数据的解释者,他们是关键产品决策的积极贡献者。
通过实验帮助产品进化可以是一种让人心生谦卑的体验。在 Netflix这里,我们拥有开发和演进 Netflix 服务所需的各个学科的专家(产品经理、UI/UX 设计师、数据科学家、各种类型的工程师、推荐系统与流视频优化专家等等),他们会不断提出关于如何改进 Netflix 的新假设。但在提出的想法当中,只有一小部分最终能成为 A/B 测试的赢家。没错:尽管我们拥有广泛的专业知识,但会员通过自己在 A/B 测试中的行为让我们知道,我们的大多数想法其实并没有改善我们的服务。我们每年开发和测试数百种的产品变体,但只有一小部分最终投入到生产并推广给全球 2 亿多的 Netflix 会员。
实验计划的胜率很低既令人谦卑又令人振奋。当公司的任何人都可以看到相关数据,知道哪些重大想法和投资并未受到效果时,你很难再挺起高傲的头颅。但是,当看到所有专家都看好的想法被 A/B 测试中的会员行为否决——并且看到对注册流程的微小调整最终会带来巨大收入时,还有比这更能证明通过实验进行决策的价值吗?
在Netflix这里,我们不会把未能带来胜出体验的测试看作是“失败”。当我们的会员用他们的行为否决了新产品体验时,我们仍然会了解很多关于他们的偏好、哪些对不同的会员群体有效(哪些无效!),以及哪些地方可能或者不可能存在创新机会的信息。将我们从特定跟创新领域(比方说移动 UI体验)测试中获得的经验结合起来,可以帮助我们更全面地描绘让会员产生共鸣和不产生共鸣的体验类型,从而得出新的假设、新的测试,并最终,为我们的会员带来更快乐的体验。随着我们的会员群体在全球范围内不断扩大,随着消费者偏好与期望的不断演进,我们也会重新审视当粗测试时不成功的那些想法。有时候,来自原始分析的信号表明现在是这个想法的更好时机,或者将会为我们的部分新会员群体提供价值。
因为 Netflix 会测试所有的创意,而且因为大多数的创意都不是赢家,所以我们的实验文化鼓励创意的民主化。产品经理总是渴望新想法,并乐于接受来自公司任何人的创新建议,无论对方资历或专业知识如何都从善如流。毕竟,在推广到会员群体之前,我们会测试任何东西,就算是专家,成功率也很低!我们在 Netflix 已经反复看到这一点,即我们的工程师、数据科学家甚至高管提出的大大小小的产品建议可能也会带来意想不到的胜利。
(左)成为赢家的想法很少。 (右)实验让创意民主化。因为我们会测试所有的想法,并且因为大多数想法都不是胜利者,所以我们对来自公司各个角落的产品想法持开放态度:任何人都可以举手提出建议。
实验文化使得更多的声音为创意做出贡献,而更多的声音则可以为决策提供信息。这是从每一位个从事产品工作的人获取最佳想法,并确保推出的创新得到会员的审查和认可的手段。
为我们的会员提供更好的产品,以及谦逊、重视想法和证据的内部文化:实验对 Netflix 来说是一种双赢的价值主张。
新兴的研究领域
尽管 Netflix 几十年来一直在进行实验,但相对于我们想要学习的东西以及支持这些学习上的抱负所需建立的能力,我们只触及了一点皮毛。在 Netflix 这里,关于实验与因果推理的挑战和机遇是开放的:探索和实现新的方法,让我们能够更快更好地学习;开发支持研究的软件解决方案;不断建设我们的内部实验平台,从而更好地服务于不断壮大的用户社区以及不断扩大的实验规模与吞吐量。通过内部活动与教育计划以及外部的贡献,我们对发展壮大实验文化的关注是持续的。以下是我们关注的一些主题:
提高速度:超越固定时间范围的实验。
本系列文章侧重于固定时间范围的测试:样本量、分配给每个治疗体验的流量比例,还有测试的持续时间,这些都是预先确定的。原则上,数据只有在测试结束的时候才检查一次。这确保了多次查看数据不会增加误报率(参见第 3 部分)。在实践上,我们希望能够尽早安排测试,或者在我们逐渐了解哪些治疗成功,哪些不成功时能够调整入端流量的分配方式,以维系本系列前面分所描述的那些统计属性。为了实现这些好处,Netflix 正在投资于可随时做出有效决策的连续实验,而不是等到固定时间的过去。这些方法已应用到确保安全部署 Netflix 客户端应用上。我们还投资于实验设计的支撑,实现在整个测试过程中流量自适应分配给有希望的治疗手段。这两项努力的目标是相同的:那就是更快速地识别出有益于会员的体验。
扩大对准实验与因果推理的支持。
Netflix 已经学到了很多东西,而且通过利用经典的在线 A/B 测试或随机对照试验(这也是本系列文章关注的重点),几乎产品的每个方面都得到了显著改善。但并不是每一个业务问题都适合用 A/B 测试,因为有些问题没法在个人层面上随机化,或者存在溢出效应等因素可能会打破有效因果推理的关键假设。在这些情况下,我们往往要靠对准实验进行严格评估。所谓的准实验,是指单元不是通过随机过程分配到实验组或控制组的。但“准实验”这个词本身涵盖了广泛的实验设计与方法论,这些与以 Netflix 数据科学社区为代表的无数学术背景之间存在着差异。那怎么才能跨不同领域去综合最佳实践,同时扩展我们的方法,从而让更多的同事能够利用准实验呢?
我们在这一领域的早期成功得益于对跨业务垂直领域的知识分享、教育以及支撑工具的投资。由于准实验用例跨越了 Netflix 的众多领域,识别出常见模式一直是建立共享库的强大驱动力。通过这些共享的库,科学家可以对准实验做出评估。为了支撑规模的持续扩大,我们构建了内部工具,将数据检索、设计评估、分析以及可重生成的报告结合起来,旨在为我们的科学家提供支持。
我们预计,对准实验研究、工具与教育方面的投资会随着时间的推移而增长。这件事情做好了,科学家及其跨职能的合作伙伴就能够了解到更多的东西,从而为当前和未来的 Netflix 会员带来更多快乐。
实验平台即产品。
我们把 Netflix 实验平台看作是一个内部产品,还配备了自己的产品经理,并设计了创新的路线图。我们的目标是为配置、分配、监控、报告、存储和分析 A/B 测试提供一条铺好的端到端的道路,把焦点放在为简单性和测试速度而优化的实验用例上面。我们的目标是让实验成为产品生命周期当中一个简单的,不可分割的一部分,让工程师、数据科学家或产品经理只需很少的努力即可创建、分析和执行测试,并且只要测试所有者需要,在任何地方都可以采用自动化。
但是,如果平台的默认路径对特定用例不适用,实验者可以利用我们的大众化贡献模式,或人员重用平台的各个部分来构建自己的解决方案。随着实验人员对测量方法、实验设计以及自动化的前沿进行创新,在实验平台团队的通力合作下,这些创新将会被商品化,并提供给更广泛的组织。
我们的实验平台的产品开发有以下三个核心指导原则:
一般要把测试的复杂性以及微妙之处(比方说分配与方法论)从跑单个测试的过程中抽象出来,重点应该放在对一系列用例或测试领域有意义的默认值上。 测试执行过程中对特定步骤的人工干预一般应该是可选的,重点是测试所有者能够把注意力集中在他们认为可增加价值的地方,同时把其他领域留给自动化处理。 设计、执行、报告、决策与学习都是实验生命周期的不同阶段,有着不同的需求与用户,每个阶段都受益于为每种用途而专门开发的工具。结论
Netflix 拥有浓厚的实验文化,我们通过A/B 测试,或科学方法的其他应用获得的结果,往往会为如何改进产品以及给会员带来更多乐趣的相关决策提供信息。为了支撑Netflix不断增长的会员,以及日益复杂的业务,我们当前和未来的实验规模也会不断扩大,所以Netflix 在文化、人员、基础设施以及内部教育方面都进行了投资,从而暴增 A/B 测试在全公司范围内都能得到广泛使用。
我们会继续发展我们的学习与实验文化,为全球的 Netflix 会员带来更多乐趣。随着我们的会员群和业务的不断发展,实验与控制体验之间小一点的差异会变得非常重要。这对于会员子群体来说也是如此:随着会员规模的增长,我们的服务可以变得更有针对性,希望能够为按照地理区域、设备类型等定义的用户群提供好的体验。随着我们业务的发展壮大,我们正在寻找可以从实验受益的新领域,能进行更多实验、学到更多东西,以及加快实验计划的同时让更多同事可以进行实验的方法。
但最大的机会是这个:通过实验的良性循环,可以为我们的会员带来更多的快乐。
译者:boxi。