Web中的Bias(更新中)

news2024/9/20 14:49:40

目录

  • 前言
  • 数据偏见对人们的影响
  • 衡量偏见
  • 活跃偏差或少数人的智慧
  • 数据偏见
  • 其他
  • 参考文献

前言

本文参考Ricardo Baeza-Yates 2018年发表在《Communications of the ACM》的论文Bias on the Web,论文旨在提高人们对网络使用和内容中存在的偏见对我们所有人造成的潜在影响的认识。

也希望对推荐排序方向上的探索有所启发,在为满足人们需求的Web系统设计中考虑这一点。

Bias 在一些文献和博客中也称为偏差,但在此处翻译成偏见更合适一些,后文也会使用偏差一词,两者在英文中的意义是等价的。

数据偏见对人们的影响

自古以来,偏见就植根于人类文化和历史之中。而且,由于数字数据的兴起,它现在可以比以往更快地传播并接触更多的人。大数据中的偏见,影响着我们的每一个人,尽管很多时候我们没有意识到它的存在甚至不知道它如何(正面或负面地)影响我们的判断和行为。对于少数群体而言,数据偏见可能影响到生活的方方面面,小到一次搜索的结果、一个个性化广告的展示,大到抵押贷款的审批。这些结果往往都是由算法控制的,而算法就是基于带有偏见的数据训练和优化的。

在这里插入图片描述

衡量偏见

解决偏见的第一个挑战是如何定义和衡量它。 从统计学的角度来看,偏见是由不准确的估计或抽样过程引起的系统性偏差。因此,变量的分布可能相对于原始的、可能未知的分布有偏差。此外,文化偏见可以在我们对共同个人信仰的倾向中找到,而认知偏见会影响我们的行为和决策方式。

重要见解:

  • 对偏见的任何补救措施都始于对其存在的认识。
  • 网络上的偏见反映了我们内心的偏见,以更微妙的方式表现出来
  • 在设计真正满足用户需求的基于Web的系统时,我们必须考虑并说明偏见。

在这里插入图片描述

图1显示了偏见(红色)是如何影响网络的发展及其使用的:

  1. 人们使用网络导致的活跃偏差(Activity bias)和没有互联网接入的人的隐藏偏差。
  2. 他们产生了网络上的数据偏差(Data bias),这些带有偏见的数据污染了基于这些数据的算法。
  3. 通过我们与网站的交互,产生了交互偏差、自我选择偏差。
  4. 内容和使用循环回网络,造成各种类型的二阶偏见

视频解读地址:CACM June 2018 - Bias on the Web

活跃偏差或少数人的智慧

活跃偏差(Activity Bias)或少数人的智慧(Wisdom of a Few)。

2011年,吴等人[28]关于人们如何在推特上关注其他人的研究发现,0.05%的最受欢迎的人吸引了几乎50%的参与者,也就是说,数据集中一半的推特用户只关注少数精选的名人。沉默的大多数网络用户,他们只看网络而不贡献,这本身就是一种自我选择偏见。[14]

Ricardo Baeza-Yates 和 Saez-Trumper 分析了四个数据集,结果是令人吃惊的:

  • 在2009年的Facebook数据集中,7%的活跃用户发布了50%的帖子。
  • 在2013年更大的亚马逊评论数据集中,4%的活跃用户撰写了一半的评论。
  • 在2011年的一个非常大的数据集中,有1200万活跃的推特用户,2%的用户发表了一半的帖子。
  • 英文维基百科一半条目的第一个版本是由0.04%的注册编辑(约2000人)研究和发布的,这表明只有一小部分用户为网络做出了贡献,认为它代表了整个人群的智慧是一种错觉。

只有4%的人自愿写亚马逊数据集中所有评论的一半是没有意义的,也是很奇怪的。因此2015年10月,亚马逊开始了一场反付费虚假评论的企业运动,该运动在2016年继续进行,起诉了近1000名被指控撰写评论的人。

当然,偏差也有有益的一面:

虽然英文维基百科的例子是最有偏见的,但它代表了积极的偏见。英文维基百科开始时的2000人可能引发了雪球效应,帮助维基百科成为今天的巨大百科全书资源。

在这里插入图片描述

Zipf Law,也称为最小努力原则,即做最少的事来达到目的。认为许多人只做很少,而很少有人做很多,这可能有助于解释很大一部分活动偏见。然而,经济和社会激励也在产生这一结果方面发挥了作用。例如,Zipf Law可以在大多数Web度量中看到(例如每个网站的页数或每个网页的链接数)。图2的x-轴表示英国网页的链接数量,y-轴表示拥有相应链接数的网页的数量。然而,在x轴的开头有一股强大的社会力量,作者称之为“shame effect”,它使斜率不那么负。它还表明,许多人更喜欢付出最少的努力,尽管大多数人也需要感觉他们做了足够多的事情来避免对自己的努力感到羞耻。 这两种影响是人们在网络上活动的共同特征。

数字沙漠(digital desert)。诺贝尔奖获得者Herbert Simon说,“丰富的信息造成了注意力的匮乏。” 因此,活跃偏差在网络上产生了一个“digital desert”,或者说没人见过的网络内容。一个下限来自推特数据,Ricardo Baeza-Yates 和 Saez-Trumper 发现1.1%的推文是由没有追随者的人撰写和发布的。回顾维基百科使用统计数据给了我们一个上限,即2014年5月添加或修改的文章中有31%在6月份从未被访问过。网络上数字沙漠的实际规模可能在1%到31%范围的前一半。

偏差并不总是负面的。 由于活跃偏差,所有级别的Web缓存在保持最常用的内容随时可用方面都非常有效,网站和Internet网络的负载总体上比可能的要低得多。此外,正面的偏差还包括 Inductive Bias。

数据偏见







其他

rich-get-richer。Web数据中的Bias及使用这些数据,会污染基于Web应用背后的算法,从而提供同样有偏见的结果。

参考文献

[8] Baeza-Yates, R. and Saez-Trumper, D. Wisdom of the crowd or wisdom of a few? An analysis of users’ content generation. In Proceedings of the 26th ACM Conference on Hypertext and Social Media (Guzelyurt, TRNC, Cyprus, Sept. 1–4). ACM Press, New York, 2015, 69–74.
[14] Gong, W., Lim, E.-P., and Zhu, F. Characterizing silent users in social media communities. In Proceedings of the Ninth International AAAI Conference on Web and Social Media (Oxford, U.K., May 26–29). AAAI, Fremont, CA, 2015, 140–149.
[28] Wu, S., Hofman, J.M., Mason, W.A., and Watts, D.J. Who says what to whom on Twitter. In Proceedings of the 20th International Conference on the World Wide Web (Hyderabad, India, Mar. 28–Apr. 1). ACM Press, New York, 2011, 705–714

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/60596.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Methyltetrazine-PEG4-NHS ester,甲基四嗪PEG4琥珀酰亚胺酯

一:产品描述 1、名称 英文:Methyltetrazine-PEG4-NHS ester 中文:甲基四嗪-四聚乙二醇-琥珀酰亚胺酯 2、CAS编号:1802907-92-1 3、所属分类:Tetrazine 4、分子量:533.54 5、分子式:C24H3…

qt单线程实现顺序事件的处理不卡顿技巧(IDE开发)

需求: 我现在是这样的需求,我正在开发一款嵌入式IDE中,编辑器中光标改变,右侧的符号大纲能对应的改变选中项。 这里的过程是这样的,鼠标位置改变事件函数里,通过光标行号,计算得到当前处于的符…

通过私钥连接腾讯云,实现免密远程登录

一、创建 SSH 密钥 系统提示不会保存私钥,要求用户在 10 分钟之内自行下载私钥,要保存在本地电脑和邮箱里面备用。 二、绑定密钥到云服务器 勾选刚才创建的 SSH 密钥,点击上面的绑定云主机,弹窗中要先找到你云主机的地域&#x…

【计算机毕业设计】74.家教平台系统源码

一、系统截图(需要演示视频可以私聊) 摘 要 21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐…

CentosLinux 6.5安装教程

、开始安装Centos6.5:我们选择“inistall system with basic video driver” 注意:这是一种精简系统的安装模式: 1.安装或升级现有的系统; 2.安装系统并使用基本的显卡驱动; 3.进入系统修复模式; 4.从硬盘…

[附源码]Python计算机毕业设计SSM竞赛报名管理系统(程序+LW)

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

【计算机毕业设计】基于jsp网上书店(源代码+论文)

网上书店系统 1.需求分析。 参考设计要求,及可行性的分析,我们确定了如下的需求: 1.数据库设计科学合理。 2.网站主页面简洁美观,可以天蓝色为主色调。 3.网站主页显示各个分类的及总的畅销表、新书榜、推荐榜,显…

Allegro如何锁定器件操作指导

Allegro如何锁定器件操作指导 Allegro上可以锁定器件,避免误操作被移动,具体操作如下 选择fix命令 Find选择Symbols 框选需要锁定的器件 可以看到器件被锁住了 除了这个方法之外,还有另外一种方法锁定器件,选择edit-property Find选择Symbols

ADSP-21569/ADSP-21593的开发入门(中)

ADSP-21569/21593的软件准备 安装CCES软件,我装的是2.10.1,官网可以下载,我也可以提供。软件安装没什么可说的,全部下一步,软件的试用跟注册可以单独联系我。 https://www.analog.com/cn/design-center/evaluation-h…

做短视频创业之前必须确定的内容:变现形式,短视频玩法和人设定位

做短视频创业之前必须确定的内容:变现形式,短视频玩法和人设定位。这是短视频的根基,打好基础才能更好的实现盈利目标。 开始做短视频的时候,走了很多弯路,这段时间总结了之前的经验教训,结合在我赢助手上…

【编程题】【Scratch四级】2022.09 班级成绩处理

班级成绩处理 三年级1班有36个小朋友,某次数学考试,同学们的成绩在78-100之间,求出该班学生的平均分和成绩优秀的人数(成绩大于85分)。 1. 准备工作 (1)默认小猫角色,默认白色背景…

Python学习基础笔记二十一——迭代器

列表,我们使用for循环来取值,我们把每个值都取到,不需要关心每一个值的位置,因为只能顺序的取值,并不能跳过任何一个去取其他位置的值。那么我们为什么可以使用for循环来取值,for循环内部是怎么工作的呢&am…

【力扣算法简单五十题】17.路径总和

给你二叉树的根节点 root 和一个表示目标和的整数 targetSum 。判断该树中是否存在 根节点到叶子节点 的路径,这条路径上所有节点值相加等于目标和 targetSum 。如果存在,返回 true ;否则,返回 false 。 叶子节点 是指没有子节点…

模仿Spring注入接口的代理类全过程

前言 在使用mybatis或者openFeign时只定义了一个接口类,并无实现类,可以把接口注入到service中并且能调用方法返回值。一个接口并无实现类,为什么可以实例化并且交给了spring管理。mybatis,OpenFeign又是怎么实现的?接…

生物化学 核磁共振 氢谱 n+1定律 邻碳耦合 同碳耦合

核磁共振氢谱 基础 自旋量子数 自旋为S的粒子,取向的范围为[-S,S],但是需要间隔1。比如质子的自旋为1/2,则有-1/2 ,1/2两个取向。取值的个数等于在外加磁场的情况下能够分裂的能级的个数。但是质量数和原子序数都为0的原子(C12,O16C^{12},O^{16}C12,O1…

Java ~ Executor ~ LinkedBlockingQueue【总结】

一 概括 简介 LinkedBlockingQueue(链接阻塞队列)类是BlockingQueue(阻塞队列)接口的主要实现类之一,也是Executor(执行器)框架最常搭配使用的实现之一,采用链表的方式实现。相比基于…

Qt+opencv 鼠标画线实现几何图形识别并动态创建

前言 使用Qt OpenCV实现,通过鼠标画线绘制几何图形,然后通过opencv进行图形轮廓识别,返回图形顶点,然后创建对应的几何图形添加到场景中。绘制使用QGraphics体系完成。 看效果图: 本文demo在这里 点击下载 环境: …

python在centos下安装以及配置

python在centos下安装以及配置 1.背景 centos下默认的都是python2.7下载需要更换为3.x使用,目前大部分应用都是基于pyhton3了 具体步骤: 我下载一个3.8.15的包 https://www.python.org/ftp/python/3.8.15/Python-3.8.15.tgz 小注释:如果…

动手学深度学习(2)—— 线性神经网络

文章目录线性神经网络线性回归线性回归从零开始的实现生成数据集读取数据集初始化模型参数定义模型定义损失函数定义优化算法训练线性回归的简洁实现生成数据集读取数据集定义模型初始化模型参数定义损失函数定义优化算法训练softmax 回归softmax运算交叉熵损失图像分类数据集读…

浅谈降维实操,一种用于处理特征的方式——后附Python代码

👦👦一个帅气的boy,你可以叫我Love And Program 🖱 ⌨个人主页:Love And Program的个人主页 💖💖如果对你有帮助的话希望三连💨💨支持一下博主 降维实操前言线性降维低…