妙用OSGraph:发掘GitHub知识图谱上的开源故事
1. 何为OSGraph?
OSGraph (Open Source Graph) 是一个开源图谱关系洞察工具,基于GitHub开源数据全域图谱,实现开发者行为、项目社区生态的分析洞察。可以为开发者、项目Owner、开源布道师、社区运营等提供简洁直观的开源数据视图,帮助你和你的项目制作专属的开源名片、寻求契合的开发伙伴、挖掘深度的社区价值。
简而言之:OSGraph获取了GitHub的全量数据,并以图谱的形式做了可视化分析。
2. 为何OSGraph?
既然说到GitHub数据可视化分析,为何不使用现有工具而要重新建设OSGraph?
这里列举了几个主流的开源分析工具的特点:
- StarHistory:展示开源项目的star历史曲线,产品功能简洁,“秀肌肉”专用,分析指标丰富度不足。
- OSSInsight:基于传统BI报表的理念设计了开发者/项目的报表大盘,功能丰富,满足大多数基础的洞察诉求,但部分复杂维度的报表组件直观度不够,关联性数据的下钻和洞察能力不足。
- OpenHub:支持开发者/项目/组织的排行榜(类Gitstar Ranking)和快速检索,关联性分析能力不足。
可以看到,主流的开源分析工具还是围绕着传统BI报表的思路建设的,图表丰富度可以根据产品功能设计补充改进,但是基于二维表的思考方式在关联性数据分析能力表达上存在先天不足。
OSGraph以图谱的方式重新思考GitHub数据:既然GitHub维护了开发者和项目的行为轨迹和活动记录,涉及了大量的人与人、人与项目、项目与项目的交互关系,为何不以天然最适合描述万物联系的Graph数据结构对底层数据建模,既而实现直观的图可视化分析呢?
3. OSGraph能做什么?
OSGraph官网(https://osgraph.com)目前提供了6张典型的开源图谱供大家使用,分别从项目和开发者维度洞察贡献、伙伴、兴趣、社区、生态。
图谱名称 | 功能 | 描述 |
---|---|---|
项目贡献图谱 | 发现项目核心贡献 | 根据项目开发者开发活动信息(Issue、PR、Commit、CR等),找到项目核心贡献者。 |
项目生态图谱 | 洞察项目生态伙伴 | 提取项目间的开发活动、组织等关键信息,构建项目核心生态关系。 |
项目社区图谱 | 分析项目社区分布 | 根据项目的开发活动、开发者组织等信息,提取项目核心开发者社区分布。 |
开发活动图谱 | 展示个人开源贡献 | 根据开发者开发活动信息(Issue、PR、Commit、CR等),找到参与的核心项目。 |
开源伙伴图谱 | 寻找个人开源伙伴 | 找到开发者在开源社区中,与之协作紧密的其他开发者。 |
开源兴趣图谱 | 挖掘个人开源兴趣 | 根据参与的项目主题、标签等信息,分析开发者技术领域与兴趣。 |
为了更直观地表述图数据结构在开源数据洞察的优势,我们结合具体的场景案例说明。面对GitHub数据,我们多多少少会遇到如下类似的问题,这些问题可以通过上述的6类图谱很好的直观展现。
3.1 项目贡献图谱
发现项目核心贡献:根据项目开发者研发活动信息(Issue、PR、Commit、CR等),找到项目核心贡献者。
Q:我想看看给Apache Spark项目写代码的都有谁?
A:选择“项目贡献图谱” - 搜索spark - 选择apache/spark。可以看到HyukjinKwon、dongjoon-hyun等核心贡献者,另外还一不小心捉到两个“显眼包”,AmplabJenkins、SparkQA这两个只参与CodeReview的机器人账号。
项目贡献图谱可以帮助我们更好地发掘项目的关键开发者,尤其是我们不够熟悉的开源项目,可以快速地定位到关键贡献人,帮助技术运营发起合作申请和活动邀请。
3.2 项目生态图谱
洞察项目生态伙伴:提取项目间的开发活动、组织等关联信息,构建项目核心生态关系。
Q:最近很火的开源大模型Llama3周边生态大致是什么样的?
A:选择“项目生态图谱” - 搜索llama3 - 选择meta-llama3/llama3。可以看到pytorch、tensorflow、transformers等知名AI项目,当然还有上科技头条的llama.cpp。比较惊喜的发现是ray竟然和llama3有不少公共开发者,可以深度挖掘一下。
项目生态图谱让开源项目的挖掘变得更加轻松,我们通过分析两个开源项目的公共Stargazers和PR/CR等信息,挖掘潜在的项目关联关系,这可以帮助开发者快速熟悉开源项目的周边生态,并能做很好的技术延展探索。未来,通过引入项目间的代码依赖关系,甚至项目与科研论文的引用关系,可以帮助开发者和科研人员更快地熟悉未知的技术领域。
3.3 项目社区图谱
分析项目社区分布:根据项目的开发活动、开发者组织等信息,提取项目核心开发者社区分布。
Q:大数据引擎Flink发展这么多年后的社区现状如何?
A:选择“项目社区图谱” - 搜索flink - 选择apache/flink。可以看到项目关注者主要来自中、美、德三国,而Alibaba组织是代码贡献的中坚力量。
项目社区图谱目前从国家和组织的维度对核心开发者进行了分组展示,可以帮助我们快速了解一个项目开发人员的地理分布和组织分布,指导开源布道师和技术运营做更优的公共关系资源配置。
3.4 开发活动图谱
展示个人开源贡献:根据开发者研发活动信息(Issue、PR、Commit、CR等),找到参与的核心项目。
Q:大神Linus Torvalds最近在参与哪些开源项目?
A:选择“开发活动图谱” - 搜索torvalds。果然linux项目是torvalds的主要工作,不过llvm、mody、libgit2也有所参与,同时也看到他在subsurface这种“潜水日志管理工具”上的大量贡献,果然大佬的爱好都很广泛。
开发活动图谱让了解一个社区开发者的背景变得更加直观,过去我们只能在开发者的GitHub个人页面上查看“贡献雷达图”作粗粒度的了解,而开发活动图谱在统计粒度和信息展示间找到了很好的平衡点。在个人主页上使用这样的开源个人名片不失为一种更时髦的选择。
3.5 开源伙伴图谱
寻找个人开源伙伴:找到开发者在开源社区中,与之协作紧密的其他开发者。
Q:我想知道在开源社区有没有和我志同道合的人?
A:选择“开发伙伴图谱” - 搜索我的ID。让我震惊的是有那么多陌生人和我关注了同一批项目,这不得找机会认识一下,说不定就能找到新朋友了。而和我合作PR的人基本上都是我认识的朋友和同事,继续探索一下朋友们的开源伙伴,开源社区的“六度人脉”不就来了么。
开源伙伴图谱构建了一种“人-人”关系视图,GitHub原生数据并不存在基于账户的“好友/粉丝”数据,我们通过两个人共同Star的项目以及参与的PR/CR等开发活动数据,构造了开发者之间的关系视图。通过此视图,可以发掘很多“志同道合”但未曾谋面的朋友,或许下一个合作PR就在这次“会面”之后发生。
3.6 开源兴趣图谱
挖掘个人开源兴趣:根据参与的项目主题、标签等信息,分析开发者技术领域与兴趣。
Q:GitHub上最活跃的开发者对什么技术感兴趣?
A:选择“开源兴趣图谱” - 搜索sindresorhus(GitHub用户榜 No.1)。整体来看sindresorhus对node、npm、js很感兴趣,另外他发起的awesome项目足足30W星,令人咋舌!当前的开源兴趣数据主要来自项目有限的标签信息,后续借助AI技术可能会有更好的展现。
开源兴趣图谱是对开发者技术背景的另一种形式的探索尝试,我们都知道开源项目一般都会有一些标签标注其技术领域和使用的关键技术,通过将开发者参与的项目按照标签分组汇总,得到个人的技术兴趣图谱,通过它可以快速地了解一个开发者的技术领域和视野。当然,基于项目现有的标签数据并不能做到精准的领域分类(不少项目没有标注标签数据),因此未来我们希望结合NLP技术做到更好的项目领域识别和分类。
4. 未来规划
当下OSGraph初版的功能还比较单一,未来我们想做更多有意思的事情:
- 简单灵活的API设计,让图谱无限扩展。
- 自由高效的画布交互,无限探索数据价值。
- 图谱URL支持嵌入Markdown,制作我的开源名片。
- 基于AI技术的项目主题标签分析、图谱总结、检索增强对话等。
- 多人多项目联合分析,图谱洞察一键可达。
- 更丰富的数据展示与多维分析。
- 更丰富的数据来源和标签数据。
5. 合作贡献
OSGraph是蚂蚁集团的TuGraph团队、AntV团队、OSPO联合华东师范大学X-Lab实验室发起的开源生态项目,旨在通过图谱的方式赋能GitHub开源数据分析,提供更优的开源数据洞察体验,让图计算的价值惠及到社区。作为开源项目,我们后续会打通从社区贡献到生产化部署的自动化链路,让您的贡献所见即所得……
我们正在积极筹备OSGraph的源代码开放,您可以Star本项目保持关注,我们非常期待的您的加入与贡献,也欢迎提交Issue提供建议和问题反馈,未来我们开源图谱上见!
OSGraph项目地址:https://github.com/TuGraph-family/OSGraph
妙用OSGraph:发掘GitHub知识图谱上的开源故事的更多相关文章
- 知识图谱如何运用于RecomSys
将知识图谱作为辅助信息引入到推荐系统中可以有效地解决传统推荐系统存在的稀疏性和冷启动问题,近几年有很多研究人员在做相关的工作.目前,将知识图谱特征学习应用到推荐系统中主要通过三种方式——依次学习.联合 ...
- ERNIE:知识图谱结合BERT才是「有文化」的语言模型
自然语言表征模型最近受到非常多的关注,很多研究者将其视为 NLP 最重要的研究方向之一.例如在大规模语料库上预训练的 BERT,它可以从纯文本中很好地捕捉丰富的语义模式,经过微调后可以持续改善不同 N ...
- ISWC 2018概览:知识图谱与机器学习
语义网的愿景活跃且良好,广泛应用于行业 语义网的愿景是「对计算机有意义」的数据网络(正如 Tim Berners Lee.James Hendler 和 Ora Lassila 在<科学美国人& ...
- 知识图谱顶会论文(IJCAI-2022) TEMP:多跳推理的类型感知嵌入
IJCAI-TEMP:知识图谱上多跳推理的类型感知嵌入 论文地址: Type-aware Embeddings for Multi-Hop Reasoning over Knowledge Graph ...
- Atitti 知识图谱构建方法attilax 总结
Atitti 知识图谱构建方法attilax 总结 1.1. 知识图谱schema构建(体系化)1 1.2. 纵向垂直拓展(向上抽象,向下属性拓展)2 1.3. 横向拓展2 1.4. 网拓展2 1 ...
- 知识图谱与Bert结合
论文题目: ERNIE: Enhanced Language Representation with Informative Entities(THU/ACL2019) 本文的工作也是属于对BERT锦 ...
- 哈工大知识图谱(Knowledge Graph)课程概述
一.什么是知识图谱 知识(Knowledge)可以理解为 精炼的数据,知识图谱(Knowledge Graph)即是对知识的图形化表示,本质上是一种大规模语义网络 (semantic network) ...
- 知识图谱顶刊综述 - (2021年4月) A Survey on Knowledge Graphs: Representation, Acquisition, and Applications
知识图谱综述(2021.4) 论文地址:A Survey on Knowledge Graphs: Representation, Acquisition, and Applications 目录 知 ...
- GitHub开源史上最大规模中文知识图谱
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/m0_38106923/article/d ...
- GitHub:如何构建一个股票市场知识图谱?(附代码&链接)
来源:专知 本文约 600007 董事⻓/董事 高燕 女 60 600007 执⾏董事 刘永政 男 50 600008 董事⻓/董事 ··· ··· ··· ··· ··· 注:建议表头最好用相应的英 ...
随机推荐
- AHPA:开启 Kubernetes 弹性预测之门
简介:阿里巴巴云原生团队和阿里达摩院决策智能时序团队合作开发 AHPA 弹性预测产品,该产品主要出发点是基于检测到的周期做"定时规划",通过规划实现提前扩容的目的,在保证业务稳定 ...
- 数仓架构的持续演进与发展 — 云原生、湖仓一体、离线实时一体、SaaS模式
简介: 数据仓库概念从1990年提出,经过了四个主要阶段.从最初的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库.在不断的演进过程中,数据仓库面临着不同的挑战. ...
- 智能数据构建与管理平台Dataphin的前世今生:缘起
简介: 阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路,更将其植入到产品Dataphin(智能数据构建与管理)中,通过阿里云为企业提供服务. Dataphin 智能数据构建与 ...
- PolarDB-X 2.0:使用一个透明的分布式数据库是一种什么体验
简介: 透明分布式,是PolarDB-X即将发布的能力,它能让应用在使用PolarDB-X的过程中,犹如使用单机数据库一般的体验.与传统的中间件类型的"分布式数据库"相比,有了透明 ...
- 实时数仓入门训练营:Hologres性能调优实践
简介: <实时数仓入门训练营>由阿里云研究员王峰.阿里云资深技术专家金晓军.阿里云高级产品专家刘一鸣等实时计算 Flink 版和 Hologres 的多名技术/产品一线专家齐上阵,合力搭建 ...
- Flink 1.14 新特性预览
简介: 一文了解 Flink 1.14 版本新特性及最新进展 本文由社区志愿者陈政羽整理,内容源自阿里巴巴技术专家宋辛童 (五藏) 在 8 月 7 日线上 Flink Meetup 分享的<F ...
- 数据可视化技术应用:“Python环境管理器-Anaconda”的安装
目录 1. Python环境管理器:Anaconda 2. 在Windows上安装Anaconda 3. Anaconda和Miniconda的区别 1. Python环境管理器:Anaconda P ...
- 技术书籍 — EffectiveMordenCpp 研读
一.类型推导 PROs: 源码某处的类型修改,可以自动传播其他地方 Cons: 会让代码更复杂(How?) 在模板类型推导时,有引用的实参会被视为无引用,他们的引用会被忽略 template<t ...
- 机器学习策略:详解什么时候该改变开发/测试集和指标?(When to change dev/test sets and metrics)
什么时候该改变开发/测试集和指标? 有时候在项目进行途中,可能意识到,目标的位置放错了.这种情况下,应该移动的目标. 来看一个例子,假设在构建一个猫分类器,试图找到很多猫的照片,向的爱猫人士用户展示, ...
- js前端去除HTML标签返回纯字符串正则/<[^>]*>/g
点击查看代码 let stra = `<p>公告:我们于2024年5月3日下午13:00下架本小程序,请您搜索"好故事"进行观看,您的会员和书豆不会受到影响.感谢您的理 ...