GitHub黑市曝光,高档刷星6元一颗,最奇葩开源项目97%都是刷的

news2024/11/26 6:22:57
​梦晨 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

在黑市买GitHub星星多少钱?

最贵的高达6元一颗

有创业者Yassin Eldeeeb自掏腰包测试了一把。他足足花20欧元(约156人民币),只买到25颗“高级星星”。

图片

没错,在黑市上刷GitHub星星也是分高低贵贱的。

高级的都是注册一年以上的账号来刷,昵称头像工作地点等个人资料非常自然绝不重样。

甚至至少还有一个对其他开源项目的贡献记录等,不但算法检测不出来,肉眼看也没毛病。

图片

便宜的最低可做到0.4-0.88元一颗星星,这种就是最简单的新注册空号去刷了,默认头像,随机生成昵称的那种。

买了一个月以后发现都已经被平台封号处理,买到的星星也跟着消失了。

不过这种廉价服务最疯狂的地方在:失效了可以联系卖方,免费包重刷。

具体有多少人购买这种服务无从得知,不过Eldeeeb注意到他的账单编号是#57189,说明成交量绝对不在少数。

图片

像这样的“黑市”刷星服务,最近被频频曝光,也在开发者社区成了话题热榜的常客。

图片

大家的讨论中,有一个最奇葩的开源项目,被检测出有97%的星都是假的。

假星检测器

检测出这个奇葩项目的是另一位创业者Fraser Marlow,他偶然发现了GitHub黑市的存在。

同时他也注意到投资人越来越重视GitHub标星数,当作评估开源产品的指标了。

不过作为数据管道服务公司Dagster的增长主管,他不但没有给自己产品刷星——

反而与识别垃圾邮件的专家合作,收集数据并开发了一个假星检测器。

图片

具体分为两种算法,简单算法只能检测出那些“一眼假”的。

比如大批账号都给相同的两个项目标星,没有贡献记录,除了头像和用户名不同其他一毛一样那种。

图片

但对于开头提到的那种6元一星的高级账号,简单算法就无能为力了。

为此,Dagster还设计了一种更复杂的监督聚类算法。

原理也很简单,一批假账号会具有相似的特征,在可视化中可以聚集在一起。

而正常用户的特征应该相当独特,在统计上非常分散,不应该属于任何大的群体。

举个栗子来说,正常的GitHub账号不是每天都有活动记录,如果一群账号活跃的日期都重合,就表明它们很有可能是受同一个脚本控制的。

为验证算法可靠性,他们创建了一个靶子仓库,并真的去购买了刷星服务。

聚类算法在测试中表现非常好,接近100%的匹配率。

在更复杂的真实数据上,也达到了98%的精确度和85%的召回率。

图片

接下来,团队在Github Archive公开数据集上综合使用两种算法测试。

一测不得了,造假最严重的okcash总标星759,简单算法只发现一个疑似假星,结合聚类算法直接蹦到97%,

由于计算成本较高,测试中只分析了2022年1月1日及之后获得的星星。

也就是说,还有很多2022年之前刷星的项目没有被揪出来。

图片

与之相比,他们检测了自己的产品Dagster和几个同行,刷星率都比较低,看来数据管道这个行业还是比较健康的。

图片

在这之后,他们与GitHub团队分享了这些发现,并把检测器也开源了。

曝光48小时之内,GitHub和刷星供应商都行动起来,他们测试用的“靶子仓库”中的假星都消失了。

据GitHub方面回应,其实多年以来一直都在积极打击刷星行为,但仍旧频发,根本管不住。

之前就有学术研究,通过数据分析找出63872个可疑账号,但其中只有不到5%被GitHub平台自己检测出并封号。

图片

研究推测,刷星行业早在2018-2019年就获得了341万-437万美元的利润。

那么为什么会有人花大价钱买GitHub标星,真的能带来实际收益么?

投资人:我们就爱看星标

开源项目团队选择“刷星”的一个重要目的,就是吸引投资者的目光。

一家风险投资公司的合伙人Pratima Aiyagari 表示,做开源项目极大可能很久都赚不到钱。

既然收入情况没法拿来参考,那就要多看一看产品本身的状况了。

考察开源项目最准确的方式是查看代码,但这种方法复杂繁琐且专业性强,并没有成为投资者的首选方式。

于是投资者找出了替代方法——看星标——实际上,他们天生就会寻找快速增长的新账号。

图片

除了绝对数量,风投公司Runa还专门设计了一种名为ROSS指数的指标,依据星标数年增长率对团队进行排名。

Runa的一名合伙人Konstantin Vinogradov说,ROSS指标已经成为了开源项目遵循的重要标准,排名靠前的开源项目中有三分之一都获得了融资。

不过伴随着“刷星”现象的出现,投资者对星标数的看法也开始弱化。

投资人Kevin Zhang说,星标数可能可以成为一块“敲门砖”,但不意味着投资者会因为星标数和项目团队“第二次见面”。

这也印证了学术界的看法——加州大学圣地亚哥分校助理教授Stuart Geiger表示,随着时间的推移,指标(星标数)可能会自行失效。

图片

这就涉及到了两条社会科学定律——坎贝尔定律和古德哈特定律。

坎贝尔定律说,决策当中使用的一项指标越受重视,就越容易被操纵。

好比网络购物,实物我们看不见摸不着,自然就会参考其他买家的评价,于是“刷单”现象也就应运而生了。

古德哈特定律则认为,如果一项指标被人们刻意追逐,那就不(或不再)是一个好的指标。

但在没有更好的替代指标的情况下,就必须确保数据的真实度了,就好像在考试中要不遗余力地打击作弊一样。

图片

不过,除了想吸引投资者的团队之外,还有许多个人开发者也会“刷星”。

目的和创业团队有异曲同工之处,只不过吸引的不是投资者而是HR,希望高星项目能在求职中为他们带来优势。

事实上,也的确有企业将GitHub信息作为评价求职者的指标,甚至有人凭借套壳项目就斩获了Google的offer。

图片

图片

除了选人,在技术选型时也是同样的道理——很多人(尤其非专业人士)会倾向于使用高星项目。

图片

除了GitHub,还有综合型产品发布平台Product hunt,数据类产品平台kaggle,以及IT问答平台StackOverFlow等媒介也越来越多的受到投资人的关注。

不过如果不能建立有效的“防刷单”策略,可能最终也难逃换汤不换药的命运。

对于这种现象,有人总结是“Fake it till they make it.”——

如同“先上车后补票”一样,先假装自己已经成功,直到真的成功为止。

One More Thing

AI,特别是大模型的发展,让检测虚假账户越来越难了。

以前的造假可能只是刷刷星标和点赞,判断用户真伪的方式主要是看账户本身的特征。

但自从有了ChatGPT以后,还可以刷以假乱真而且不重样的评论。

如果一个账户命中了虚假账号的特征,但发布的回复却和真人毫无二致,该如何判断它的真伪?

参考链接:
[1]https://www.wired.com/story/github-stars-black-market-coders-cheat/
[2]https://news.ycombinator.com/item?id=37990338
[3]https://dagster.io/blog/fake-stars
[4]https://dl.acm.org/doi/10.1145/3427228.3427258

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1175923.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最近非常火的电子木鱼流量主小程序源码系统 带完整搭建教程

在当今数字化时代,人们对于休闲娱乐的需求越来越高。近年来,一种结合了传统文化和现代科技的新型休闲娱乐方式——电子木鱼,迅速在年轻人群中流行开来。电子木鱼流量主小程序源码系统的出现,为这种新型娱乐方式提供了更加便捷的途…

在直播系统中使用RTSP协议传递视频

目录 概述 1、环境准备 2、拉流URL地址 3、导播软件取流 (1)OBS中拉取RTSP流 (2)芯象中拉取RTSP流 (3)vMix中拉取RTSP流 写在最后 概述 提到RTSP协议,很容易想到RTMP协议,它…

【Linux】进程状态详解

Halo,这里是Ppeua。平时主要更新C语言,C,数据结构算法…感兴趣就关注我吧!你定不会失望。 本篇导航 0. 五状态进程模型1. 运行 >> R (running)2. 浅度睡眠 >> S (sleeping)3. 深度睡眠 >> D (disk sleep)4. 暂…

skynet学习笔记01— skynet开发环境搭建(超详细)与第一个skynet程序

00、参考资料 https://blog.csdn.net/qq769651718/category_7480207.html 01、前置准备 开发所在目录 mhzzjmhzzj-virtual-machine:~/work/skynetStudy$ pwd /home/mhzzj/work/skynetStudy前置准备 mhzzjmhzzj-virtual-machine:~/work/skynetStudy$ sudo apt install lua5…

注册电气工程师证书挂靠有风险吗?考试难度很高是吗?前景怎么样

一.先说证书挂靠问题,毫无疑问,有风险,远的不说咱说说近的, 比如下面这张图 从上面这张图可以看出来,哪怕是2023,还有陆陆续续的人因为挂靠的问题被处罚,所以我的建议是能不挂就不挂&#xff0c…

qt opengl 绘制点、线、三角形、多边形(二)

文章目录 一、相关宏定义参数二、代码及示例图1. 点 LG_POINTS 0x00002. 线 GL_LINES 0x00013. 线 GL_LINE_LOOP 0x00024. GL_LINE_STRIP 0x00035. GL_TRIANGLES 0x00046. GL_TRIANGLE_STRIP 0x00057. GL_TRIANGLE_FAN 0x00068. GL_QUADS 0x00079. GL_QUAD_STRIP 0x000810. GL_…

第八章 Python类(面向对象编程)

系列文章目录 第一章 Python 基础知识 第二章 python 字符串处理 第三章 python 数据类型 第四章 python 运算符与流程控制 第五章 python 文件操作 第六章 python 函数 第七章 python 常用内建函数 第八章 python 类(面向对象编程) 第九章 python 异常处理 第十章 python 自定…

数票通批量开票小妙招,双11开票不用愁

每年双十一都是电商企业和财务“疯狂”的日子,随着疫情的回暖,消费者的消费能力蹭蹭上涨,商家的口袋盆满钵满,而财务的加班永无休止,批量开票成为财务人摆脱双十一加班的必备技能。 面对双十一狂欢,相信不少…

一文带你深入浅出Web的自动化测试工具Selenium【建议收藏】

文章目录 前言第01节 Selenium概述第02节 安装浏览器驱动(以Google为例)第03节 定位页面元素1. 打开指定页面2. id 定位3. name 定位4. class 定位5. tag 定位6. xpath 定位7. css 选择器8. link 定位9. 示例 有道翻译 第04节 浏览器控制1. 修改浏览器窗…

3D目标检测实战 | 图解KITTI数据集评价指标AP R40(附Python实现)

目录 1 准确率和召回率2 P-R曲线的绘制3 AP R11与AP R40标准4 实际案例 1 准确率和召回率 首先给出 T P TP TP、 F P FP FP、 F N FN FN、 T N TN TN的概念 真阳性 True Positive T P TP TP 预测为正(某类)且真值也为正(某类)的样本数,可视为 I o U > I o U t…

3Dmax Vary 渲染 玻璃 水 啤酒 的参数尝试

折射率: 空气折射率为1.0 水折射率一般 1.3 -1.4 ,啤酒折射率一般 1.4-1.55 玻璃折射率 一般 1.5-1.7 金刚石钻石 2.0 透明物体 密度越大 折射率越高。折射:同一束光在不同密度介质传播时发生的 光路弯折。如果密度不断发生变化&#…

C++常用格式化输出

在C语言中可以用printf以一定的格式打印字符,C当然也可以。 输入输出及命名空间还不太了解的小伙伴可以看一看C入门讲解第一篇。  在C中,可以用流操作符(stream manipulators)控制数据的输出格式,这些流操作符定义在2…

UE5——源码阅读——4——引擎预初始化

预初始化的开始处理和结束处理 将GEnginePreInitPreStartupScreenEndTime设置为平台的时间 ON_SCOPE_EXIT 这个就是在程序结束后执行一个Lambda,这个弘的目的是简化代码确保正确的时机正确的执行清理操作,降低因资源泄露而导致BUG的概率 处理延迟注册…

【GEE】基于GEE-Landsat8数据集地表温度反演(LST热度计算)

老样子,最近在做生态方面的项目,然后需要分析城市的热岛效应,想了想还是用GEE计算比较简单,直接下载影像太麻烦了。所以在网上看看了资料,踩了踩坑终于是将代码写出来了。秉承着取之于民、用之于民的想法,今…

如何解决msvcp140.dll文件丢失问题,msvcp140.dll丢失的解决方法

在使用电脑时,有时我们可能会遇到一些错误提示,比如“找不到msvcp140.dll文件”。这是因为某些程序需要依赖于msvcp140.dll文件才能正常运行。这个问题是可以解决的,大家不需要担心,而且其解决的方法是有很多种的,今天我们就来给大…

VS编译器中创建新源文件,自动添加----#define _CRT_SECURE_NO_WARNINGS 1

每次创建新的源文件时都需要添加比较麻烦,我们让每次创建时自动添加,步骤如下: 1、右键编译器--->属性--->目标(存放的是编译器的文件位置我们找到文件的位置) 2、如下步骤找到“newc file.cpp”文件&#xff0…

MySQL基础之约束、多表查询、事务【基础完结】

1 SQL约束 SQL约束是用于规定表中的数据规则,如果存在违反约束的数据行为,行为会被终止。 1.1 如何创建约束 • 在创建表的时候进行规定(create table)• 修改表的时候进行规定(alter table) 1.2 约束的…

设计师的宝库:5个供应免费素材的设计网站

今天给大家推荐五个设计素材网站,设计师看到就要码住,码住就是灵感。 即时设计 即时设计是一个可在线使用的设计资源网站,在网页中打开「即时设计」的官网,登录账号后即可使用即时设计提供的设计资源。 即时设计 - 可实时协作的…

史上最全Windows安全工具汇总

史上最全Windows安全工具锦集来源于网络整理,安全性自测。 下载方式:史上最全Windows安全工具汇总

为了理直气壮怼回去,写了一个日志切面输出接口出入参数

1.背景 我们在日常排查问题过程中知道,入参传错是导致接口调用失败的常见原因之一。特别是提供给第三方调用的回调接口和openAPI接口,由于无法保证第三方开发人员的水平,经常问题不断,反反复复找你问为啥掉不通,甚至吐…