妙用OSGraph:发掘GitHub知识图谱上的开源故事

news2024/12/28 2:24:58

image.png
作者:范志东

1. 何为OSGraph?

OSGraph (Open Source Graph) 是一个开源图谱关系洞察工具,基于GitHub开源数据全域图谱,实现开发者行为、项目社区生态的分析洞察。可以为开发者、项目Owner、开源布道师、社区运营等提供简洁直观的开源数据视图,帮助你和你的项目制作专属的开源名片、寻求契合的开发伙伴、挖掘深度的社区价值。

简而言之:OSGraph获取了GitHub的全量数据,并以图谱的形式做了可视化分析。

OSGraph数据处理流程

2. 为何OSGraph?

既然说到GitHub数据可视化分析,为何不使用现有工具而要重新建设OSGraph?

主流的GitHub数据分析工具

这里列举了几个主流的开源分析工具的特点:

  • StarHistory:展示开源项目的star历史曲线,产品功能简洁,“秀肌肉”专用,分析指标丰富度不足。
  • OSSInsight:基于传统BI报表的理念设计了开发者/项目的报表大盘,功能丰富,满足大多数基础的洞察诉求,但部分复杂维度的报表组件直观度不够,关联性数据的下钻和洞察能力不足。
  • OpenHub:支持开发者/项目/组织的排行榜(类Gitstar Ranking)和快速检索,关联性分析能力不足。

可以看到,主流的开源分析工具还是围绕着传统BI报表的思路建设的,图表丰富度可以根据产品功能设计补充改进,但是基于二维表的思考方式在关联性数据分析能力表达上存在先天不足。

OSGraph以图谱的方式重新思考GitHub数据:既然GitHub维护了开发者和项目的行为轨迹和活动记录,涉及了大量的人与人、人与项目、项目与项目的交互关系,为何不以天然最适合描述万物联系的Graph数据结构对底层数据建模,既而实现直观的图可视化分析呢?

GitHub上人与项目的关系

3. OSGraph能做什么?

OSGraph官网(https://osgraph.com)目前提供了6张典型的开源图谱供大家使用,分别从项目和开发者维度洞察贡献、伙伴、兴趣、社区、生态。

图谱名称功能描述
项目贡献图谱发现项目核心贡献根据项目开发者开发活动信息(Issue、PR、Commit、CR等),找到项目核心贡献者。
项目生态图谱洞察项目生态伙伴提取项目间的开发活动、组织等关键信息,构建项目核心生态关系。
项目社区图谱分析项目社区分布根据项目的开发活动、开发者组织等信息,提取项目核心开发者社区分布。
开发活动图谱展示个人开源贡献根据开发者开发活动信息(Issue、PR、Commit、CR等),找到参与的核心项目。
开源伙伴图谱寻找个人开源伙伴找到开发者在开源社区中,与之协作紧密的其他开发者。
开源兴趣图谱挖掘个人开源兴趣根据参与的项目主题、标签等信息,分析开发者技术领域与兴趣。

为了更直观地表述图数据结构在开源数据洞察的优势,我们结合具体的场景案例说明。面对GitHub数据,我们多多少少会遇到如下类似的问题,这些问题可以通过上述的6类图谱很好的直观展现。

开源数据洞察需求

3.1 项目贡献图谱

发现项目核心贡献:根据项目开发者研发活动信息(Issue、PR、Commit、CR等),找到项目核心贡献者。

Q:我想看看给Apache Spark项目写代码的都有谁?
A:选择“项目贡献图谱” - 搜索spark - 选择apache/spark。可以看到HyukjinKwon、dongjoon-hyun等核心贡献者,另外还一不小心捉到两个“显眼包”,AmplabJenkins、SparkQA这两个只参与CodeReview的机器人账号。

Spark贡献图谱

项目贡献图谱可以帮助我们更好地发掘项目的关键开发者,尤其是我们不够熟悉的开源项目,可以快速地定位到关键贡献人,帮助技术运营发起合作申请和活动邀请。

3.2 项目生态图谱

洞察项目生态伙伴:提取项目间的开发活动、组织等关联信息,构建项目核心生态关系。

Q:最近很火的开源大模型Llama3周边生态大致是什么样的?
A:选择“项目生态图谱” - 搜索llama3 - 选择meta-llama3/llama3。可以看到pytorch、tensorflow、transformers等知名AI项目,当然还有上科技头条的llama.cpp。比较惊喜的发现是ray竟然和llama3有不少公共开发者,可以深度挖掘一下。

Llama3生态图谱

项目生态图谱让开源项目的挖掘变得更加轻松,我们通过分析两个开源项目的公共Stargazers和PR/CR等信息,挖掘潜在的项目关联关系,这可以帮助开发者快速熟悉开源项目的周边生态,并能做很好的技术延展探索。未来,通过引入项目间的代码依赖关系,甚至项目与科研论文的引用关系,可以帮助开发者和科研人员更快地熟悉未知的技术领域。

3.3 项目社区图谱

分析项目社区分布:根据项目的开发活动、开发者组织等信息,提取项目核心开发者社区分布。

Q:大数据引擎Flink发展这么多年后的社区现状如何?
A:选择“项目社区图谱” - 搜索flink - 选择apache/flink。可以看到项目关注者主要来自中、美、德三国,而Alibaba组织是代码贡献的中坚力量。

Flink社区图谱

项目社区图谱目前从国家和组织的维度对核心开发者进行了分组展示,可以帮助我们快速了解一个项目开发人员的地理分布和组织分布,指导开源布道师和技术运营做更优的公共关系资源配置。

3.4 开发活动图谱

展示个人开源贡献:根据开发者研发活动信息(Issue、PR、Commit、CR等),找到参与的核心项目。

Q:大神Linus Torvalds最近在参与哪些开源项目?
A:选择“开发活动图谱” - 搜索torvalds。果然linux项目是torvalds的主要工作,不过llvm、mody、libgit2也有所参与,同时也看到他在subsurface这种“潜水日志管理工具”上的大量贡献,果然大佬的爱好都很广泛。

Linus的开发活动

开发活动图谱让了解一个社区开发者的背景变得更加直观,过去我们只能在开发者的GitHub个人页面上查看“贡献雷达图”作粗粒度的了解,而开发活动图谱在统计粒度和信息展示间找到了很好的平衡点。在个人主页上使用这样的开源个人名片不失为一种更时髦的选择。

3.5 开源伙伴图谱

寻找个人开源伙伴:找到开发者在开源社区中,与之协作紧密的其他开发者。

Q:我想知道在开源社区有没有和我志同道合的人?
A:选择“开发伙伴图谱” - 搜索我的ID。让我震惊的是有那么多陌生人和我关注了同一批项目,这不得找机会认识一下,说不定就能找到新朋友了。而和我合作PR的人基本上都是我认识的朋友和同事,继续探索一下朋友们的开源伙伴,开源社区的“六度人脉”不就来了么。

我的开源伙伴

开源伙伴图谱构建了一种“人-人”关系视图,GitHub原生数据并不存在基于账户的“好友/粉丝”数据,我们通过两个人共同Star的项目以及参与的PR/CR等开发活动数据,构造了开发者之间的关系视图。通过此视图,可以发掘很多“志同道合”但未曾谋面的朋友,或许下一个合作PR就在这次“会面”之后发生。

3.6 开源兴趣图谱

挖掘个人开源兴趣:根据参与的项目主题、标签等信息,分析开发者技术领域与兴趣。

Q:GitHub上最活跃的开发者对什么技术感兴趣?
A:选择“开源兴趣图谱” - 搜索sindresorhus(GitHub用户榜 No.1)。整体来看sindresorhus对node、npm、js很感兴趣,另外他发起的awesome项目足足30W星,令人咋舌!当前的开源兴趣数据主要来自项目有限的标签信息,后续借助AI技术可能会有更好的展现。

Sindre的开源兴趣

开源兴趣图谱是对开发者技术背景的另一种形式的探索尝试,我们都知道开源项目一般都会有一些标签标注其技术领域和使用的关键技术,通过将开发者参与的项目按照标签分组汇总,得到个人的技术兴趣图谱,通过它可以快速地了解一个开发者的技术领域和视野。当然,基于项目现有的标签数据并不能做到精准的领域分类(不少项目没有标注标签数据),因此未来我们希望结合NLP技术做到更好的项目领域识别和分类。

4. 未来规划

当下OSGraph初版的功能还比较单一,未来我们想做更多有意思的事情:

  • 简单灵活的API设计,让图谱无限扩展。
  • 自由高效的画布交互,无限探索数据价值。
  • 图谱URL支持嵌入Markdown,制作我的开源名片。
  • 基于AI技术的项目主题标签分析、图谱总结、检索增强对话等。
  • 多人多项目联合分析,图谱洞察一键可达。
  • 更丰富的数据展示与多维分析。
  • 更丰富的数据来源和标签数据。

5. 合作贡献

OSGraph是蚂蚁集团的TuGraph团队、AntV团队、OSPO联合华东师范大学X-Lab实验室发起的开源生态项目,旨在通过图谱的方式赋能GitHub开源数据分析,提供更优的开源数据洞察体验,让图计算的价值惠及到社区。作为开源项目,我们后续会打通从社区贡献到生产化部署的自动化链路,让您的贡献所见即所得……

我们正在积极筹备OSGraph的源代码开放,您可以Star本项目保持关注,我们非常期待的您的加入与贡献,也欢迎提交Issue提供建议和问题反馈,未来我们开源图谱上见!

OSGraph项目地址:https://github.com/TuGraph-family/OSGraph

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1820893.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电脑自带录屏在哪?电脑录屏,4个详细方法

在现代社会中,越来越多的人需要在电脑上录制视频,比如录制游戏操作、制作教学视频、演示文稿等等。因此,电脑录屏成为了一项非常重要的功能。那么电脑自带录屏在哪?本文将带领大家看看可以使用哪些方法进行录屏。 录屏方法一&…

SK海力士计划于2024年第四季度启动GDDR7大规模生产

SK海力士,作为HBM市场的领头羊,于6月13日宣布,公司目标于2024年第四季度开始其GDDR7芯片的大规模生产。 与此同时,美光科技在Computex展会上也宣布推出其GDDR7图形内存,目前正处于样品测试阶段。据AnandTech报道&#…

Python | Leetcode Python题解之第149题直线上最多的点数

题目&#xff1a; 题解&#xff1a; class Solution:def maxPoints(self, points: List[List[int]]) -> int:n len(points)if n < 2:return nres 2for i in range(n):x1, y1 points[i][0], points[i][1]has {}for j in range(i 1, n):x2, y2 points[j][0], points…

AI虚拟试穿技术:开启高保真、多场景、多样化服装组合的试穿应用

随着电子商务的快速发展,消费者对于在线购物体验的要求越来越高。特别是在服装领域,消费者渴望能够在购买前直观地了解服装的试穿效果。传统的虚拟试穿技术虽然已有一定的发展,但在不同场景下的高保真度和鲁棒性方面仍面临挑战。为此,我们研发了一种全新的AI虚拟试穿技术,…

当JS遇上NLP:开启图片分析的奇幻之旅

前言 在当今科技飞速发展的时代&#xff0c;JavaScript&#xff08;JS&#xff09;作为广泛应用的编程语言&#xff0c;展现出了强大的活力与无限的可能性。与此同时&#xff0c;自然语言处理&#xff08;NLP&#xff09;领域也正在经历着深刻的变革与进步。 当这两者碰撞在一…

探索AI视频生成技术的原理

探索AI视频生成技术的原理 随着人工智能技术的迅猛发展&#xff0c;AI在视频生成领域的应用已经引起了广泛关注。从娱乐、广告到教育和科学研究&#xff0c;AI视频生成技术正在彻底改变我们制作和消费视频内容的方式。本文将深入探讨AI视频生成技术的原理&#xff0c;解析其背…

解决CentOS的yum命令失效的问题

近日笔者对一台装有 CentOS 7.9 系统的服务器反复折腾&#xff0c;玩到最后发现 yum 命令用不了&#xff0c;总是报下面的错误信息&#xff1a; There was a problem importing one of the Python modules required to run yum. The error leading to this problem was:/usr/l…

通用大模型VS垂直大模型,你更青睐哪一方?

AI大模型之辩&#xff1a;通用与垂直&#xff0c;谁将引领未来&#xff1f; 在人工智能&#xff08;AI&#xff09;领域&#xff0c;大模型技术的崛起无疑为整个行业带来了革命性的变革。然而&#xff0c;随着技术的深入发展&#xff0c;AI大模型的战场似乎正在悄然分化&#…

9.常见集合

目录 一、三种常见集合二、Vector2.1 特性2.2 创建并更新Vector2.3 读取Vector中的元素2.4 遍历元素2.5 储存不同类型的值 三、字符串3.1 概念3.2 新建3.2 更新3.3 索引字符串3.4 字符串切片3.5 字符串遍历 四、哈希map4.1 基本概念4.2 新建哈希map4.3 访问哈希map中的值4.4 更…

使用adb通过wifi连接手机

1&#xff0c;手机打开开发者模式&#xff0c;打开无线调试 2&#xff0c;命令行使用adb命令配对&#xff1a; adb pair 192.168.0.102:40731 输入验证码&#xff1a;422859 3&#xff0c;连接设备&#xff1a; adb connect 192.168.0.102:36995 4&#xff0c;查看连接状态:…

【云岚到家】-day03-2-门户缓存实现实战

【云岚到家】-day03-2-门户缓存实现实战 5 缓存实现5.2 定时任务更新缓存5.2.1 分布式调度平台5.2.1.1 jdk提供的Timer定时器5.2.1.2 使用第三方Quartz方式5.2.1.3 使用分布式调度平台XXL-JOB 5.2.2 XXL-JOB5.2.2.1 介绍5.2.2.2 部署调度中心5.2.2.3 执行器 5.2.2 定义缓存更新…

二开版视频CMS完整运营源码/新版漂亮APP手机模板/集成员分销功能等

一个二开的影视CMS&#xff0c;直接上传源码至网站根目录&#xff0c;访问网站域名即可安装。 测试环境&#xff1a;Nginx 1.20.1—MySQL 5.6.50–PHP-7.2&#xff08;安装拓展/fileinfo&#xff09; 上传源码&#xff0c;访问域名直接安装 后台地址&#xff1a;域名/MDadmi…

4. 案例研究-接口程序

4. 案例研究-接口程序 本章通过一个案例研究, 来展示设计互相配合的函数的过程.4.1 turtle 模块 创建一个文件mypolygon.py, 并输入如下代码:import turtle bob turtle.Turtle() print(bob)# 这一句的作用是让画板停留, 等手动点击x关闭画板, 程序才结束. # 否则程序执行完毕…

Spring中的IOC

IOC&#xff08;Inversion of Control&#xff0c;控制反转&#xff09;是Spring框架核心概念之一。它是一种设计原则&#xff0c;用来实现对象的松耦合和依赖管理。在传统的编程中&#xff0c;对象负责创建或查找其依赖对象&#xff0c;而在IOC模式下&#xff0c;这些职责被移…

C++ | Leetcode C++题解之第150题逆波兰表达式求值

题目&#xff1a; 题解&#xff1a; class Solution { public:int evalRPN(vector<string>& tokens) {int n tokens.size();vector<int> stk((n 1) / 2);int index -1;for (int i 0; i < n; i) {string& token tokens[i];if (token.length() >…

24年大一尺取练习(东北林业大学)

前言&#xff1a; 今天下午才刚看到oj上发了这次练习&#xff0c;我已经错过了截止时间&#xff0c;刚好不是很想复习六级&#xff0c;就把这次练习补了吧。 正文&#xff1a; Problem:A 尺取Language&#xff1a; #include<bits/stdc.h> using namespace std; const i…

如何把路由器设备的LAN口地址为三大私网地址

要将路由器的LAN口地址配置为三大私有IP地址范围之一&#xff08;10.0.0.0/8、172.16.0.0/12 或 192.168.0.0/16&#xff09;&#xff0c;我们需要访问路由器的管理界面并进行相应的设置。 下面是步骤&#xff1a; 连接到路由器&#xff1a; 连接到路由器的管理界面&#xf…

C++设计模式——Bridge桥接模式

一&#xff0c;桥接模式简介 桥接模式是一种结构型设计模式&#xff0c;用于将抽象与实现分离&#xff0c;这里的"抽象"和"实现"都有可能是接口函数或者类。 桥接模式让抽象与实现之间解耦合&#xff0c;使得开发者可以更关注于实现部分&#xff0c;调用…

谷粒商城实战(036 k8s集群学习2-集群的安装)

Java项目《谷粒商城》架构师级Java项目实战&#xff0c;对标阿里P6-P7&#xff0c;全网最强 总时长 104:45:00 共408P 此文章包含第343p-第p345的内容 k8s 集群安装 kubectl --》命令行操作 要进入服务器 而且对一些不懂代码的产品经理和运维人员不太友好 所以我们使用可视化…

【5.x】ELK日志分析

ELK日志分析 一、ELK概述 1、ELK简介 ELK平台是一套完整的日志集中处理解决方案&#xff0c;将ElasticSearch、Logstash和Kiabana三个开源工具配合使用&#xff0c;完成更强大的用户对日志的查询、排序、统计需求。 一个完整的集中式日志系统&#xff0c;需要包含以下几个主…