数据科学 | 指标设计中最难的部分是什么？

清华大佬耗费三个月吐血整理的几百G的资源，免费分享！....>>>

为了做出好的数据驱动的决策，你需要这3个方面：

以精心设计的指标为基础的决策标准。
收集这些指标所依据的数据的能力。
统计学技能来计算这些指标，并在不确定的情况下解释结果。

那如何进行指标设计（metric design）呢？本文将着重第1条进行探讨。

现在，数据收集比以往任何时候都容易，许多领导者感到压力，因为他们要把数字拖到每一次会议上。不幸的是，在这股狂热中，他们中的许多人没有对指标设计进行应有的思考。在那些愿意付出努力的人中，大多数人都是边做边说，仿佛这是全新的东西。

并非如此。

心理学——对思想和行为的科学研究——已经有一个多世纪的时间来研究如何避免尚未被正确定义的模糊数量的危险，因此该领域已经学到了一些坚实的“金块”，商业领袖和数据科学家在设计指标时借用这些“金块”将是明智的。

如果你不相信指标设计是困难的，那么拿起笔和纸。让你写下一个关于幸福的定义，这个定义得是板上钉钉，并且没有人可以对你衡量它的方式提出异议......

很棘手，对吧？现在试试其他一些人们日常使用的抽象名词，比如“记忆”、“智能”、“爱”和“注意力”等等。我们中的任何人都了解自己，这简直是奇迹，更不用说彼此了。

然而，这正是心理学研究人员为了取得科学进步而必须清除的第一个障碍。为了研究心理过程，他们必须建立精确的、可测量的代用指标——指标（metrics）——来进行研究。那么，心理学家和其他社会科学家是如何思考指标设计的呢？

像心理学家一样思考

你如何严格地、科学地研究那些你不容易定义的概念？像注意力、满意度和创造力这样的概念？答案是......你不去定义! 相反，你要进行「操作化」。在这个例子中，我们假设你对测量用户幸福感感兴趣。

什么是操作化（operationalization）？

当你操作化时，你首先对自己说：“我永远不会衡量幸福，我已经与之和平相处了。” 哲学家们在这方面已经有几千年的历史了，所以你不可能突然想出一个让所有人都满意的单一定义。

接下来，你将你的概念的可衡量的本质提炼成一个代表指标（proxy）。

既然我们已经接受了我们永远无法衡量幸福的事实，现在是时候问问自己，为什么我们一开始就考虑这个词。关于这个概念——以其模糊的形式——有什么与我们想做的决定相关和恰当的地方？什么具体的和可获得的信息会使我们倾向于选择一种行动方案而不是另一种？(当你在开始之前就有了行动的想法时，指标设计就容易多了。如果可能的话，在试图设计一个指标之前考虑一下潜在的决定）。

然后，我们提炼出我们所追求的核心理念，以创建一个可衡量的代表指标——一个能够捕捉到我们所关心的这个核心本质的指标。

现在，有趣的部分来了! 我们可以给我们的指标起任何我们喜欢的名字：“用户幸福”或“X”或其他。

我们不用被语言所限制，因为无论我们如何努力设计，我们的代表指标都*不会*成为“用户幸福”的柏拉图式。

虽然它可能适合我们的需要，但重要的是要记住，我们的标准不可能也适合其他人的需要。这就是为什么在关于我们的标准是否能捕捉到真正的幸福的无谓争论中是愚蠢的。如果你急切地想得到某种“统治一切的标准”，有一首迪斯尼歌曲适合你——Let it go。

我们创建的任何指标都只是一个适合我们自己需要的代表指标（可能没有其他人需要）。它是我们达到个人目的的个人手段：做出一个明智的决定或总结一个概念，这样我们就不必每次提到它时都要写一整段。

到目前为止，一切都很好。你只需确定你的决策需要哪些信息，然后找出一种方式来总结这些信息，使之符合你的需要（这就是你的指标），然后给它起个你喜欢的名字。

以上就是“数据科学 | 指标设计中最难的部分是什么？”的详细内容，想要了解更多IT圈内资讯欢迎持续关注编程学习网

扫码二维码 获取免费视频学习资料

Python编程学习

查看2022高级编程视频教程免费获取