论文记录-A solution to the single-question crowd wisdom problem

A solution to the single-question crowd wisdom problem

Abstract

  1. 群体智慧一度被认为优于个体观点,在一些领域已经逐渐用投票来取代专家决策
  2. 民主投票有局限性
  3. 本文方法:选择比人们预测的更受欢迎的答案

Intro

假设你对美国地理知识一无所知,现在提问:

  1. 费城是宾夕法尼亚州的首府吗?
  2. 哥伦比亚是南卡罗来纳州的首府吗?
    你去找很多人问这两个问题,希望他们中的主流观点是正确的,这个方法在哥伦比亚的问题上是有效的,但在费城的问题上,大多数人都会回答“是”,而这是个错误答案。显然民主投票的方法是有问题的。

针对该问题的标准回应是根据信任对投票进行加权平均。对于二值问题,信任度$c$表示一个受访者的投票有$c$的主观概率是正确的,有$1-c$的概率是错误的。概率可以线性或非线性平均,产生置信加权投票算法。然而该方法仅在正确答案是高置信的,而这在费城和哥伦比亚的问题中也不适用,因为这两个问题的两个选项的置信度都很相似,没法从中找出一个主流的回答。

本文提出一种替代算法,它要求受访者预测其他人对该问题的回答的分布,并选择那些比预测得到更多支持的回答。算法的直观描述如下:想象有两个平行宇宙,正宇宙里费城不是宾州的首府,而反宇宙里费城就是首府。针对“费城是否为宾州首府”这个问题,正宇宙里认为“是”的人比反宇宙要少。该问题可以形式化为扔有偏硬币的问题,该硬币在正宇宙有60%的概率扔出“是”,而在反宇宙有90%的概率扔出“是”。两个宇宙的主流观点都是“是”,人们知道硬币是有偏差的,但不知道哪个宇宙是正宇宙。因此,他们对赞成票的预测频率将在60%到90%之间。然而,正宇宙中的赞成票会收敛到60%,于是反对票就是那个比预测能得到更多支持的答案,同时也是正确答案。

我们将这个选择原则称为“出乎意料的受欢迎”(SP)算法,并在补充材料中严格定义了它。在一个问题(P)中,数据显示投赞成票的受访者相信几乎所有人都同意他们,而投反对票的人认为自己会占少数。投赞成票的平均预测百分比很高,导致实际投赞成票的百分比低于这些预测。因此,出乎意料受欢迎的回答是“否”,而这正是正确答案。相反,在哥伦比亚问题中,预测的赞成票低于实际的赞成票,出乎意料受欢迎的答案和实际确实受欢迎的答案是一致的,由此多数人的判断是正确的。

是否可以利用受访者的信心构建一个同样有效的算法?假设受访者知道先验的世界概率和硬币偏见。每个受访者观察他们的私人硬币投掷结果,并通过应用贝叶斯规则计算他们的信心。假设的算法将需要从报告的信任度的大样本中识别正宇宙的硬币。图2通过反例证明了不存在这样的算法(附件中的定理1提供了一个一般不可能的结果)。它展示了对于两个不同的有偏见的硬币问题,一个正确答案是肯定的,另一个正确答案是否定的,信心的相同分布是如何产生的。诚然,真实的人可能不会遵循理想化的贝叶斯模型。我们的观点是,如果基于后验概率(投票和信心)的方法对理想中的受访者无效,那么对真正的受访者也可能无效。

相比之下,SP算法有一个理论上的保证,即它总是根据现有证据选择最佳答案(补充资料中的定理2)。定理3将该算法扩展到多选题,并显示了投票预测如何能够识别出对正确答案给予最高概率的受访者。这些结果是基于一个共同的理论模型,该模型将有偏见的硬币的例子推广到多个多面硬币上。

为了测试SP算法,我们用四种类型的语义和知觉内容进行了研究(详情见SI)。研究1a, b, c使用了50个美国州首府问题,用不同的人群重复其格式(P)。研究2采用了80个一般知识问题。

研究3要求专业皮肤科医生将80张皮肤病变图片诊断为良性或恶性。研究4a、b向非专业人士和艺术专业人士展示了90件20世纪的艺术品(图3),并要求他们预测正确的市场价格类别。所有的研究都包括一个二分法的投票问题,总共产生了490个项目。研究1c、2和3另外还测量了信心。预测的投票频率是通过对所有受访者的预测进行平均来计算的(详情见补充资料)。

我们首先测试了四种算法的配对准确性:多数票、SP、信心加权票和最大信心,后者选择平均信心最高的答案。在所有490个项目中,相对于简单的多数票,SP算法减少了21.3%的错误(通过双侧匹配对符号测试,P < 0.0005)。在测量信心的290个项目中,相对于多数票,减少了35.8%(P < 0.001),相对于信心加权票,减少了24.2%(P = 0.0107),相对于最大信心,减少了22.2%(P < 0.13)。

当同一研究中不同正确答案的频率不平衡时,百分比的一致可能是偶然的高。因此,我们通过分类相关系数,如Cohen’s kappa、F1得分或Matthews相关,评估一项研究中的分类准确性。SP算法在每项研究中的卡帕值都是最高的(图4);其他系数产生类似的排名(扩展数据图1-3)。

  • Copyrights © 2020-2024 Kun Li

请我喝杯咖啡吧~

支付宝
微信