开源内容:https://github.com/TommyZihao/zihao_course/tree/main/CS224W
子豪兄B 站视频:https://space.bilibili.com/1900783/channel/collectiondetail?sid=915098
斯坦福官方课程主页:https://web.stanford.edu/class/cs224w
文章目录
- 前言
- 图的应用场景
- 如何对图数据进行挖掘
- 图深度学习
- 图深度学习难点
- 图机器学习必备工具
- 图机器学习应用
- 图的计算任务
- 图的商业价值
- 图数据挖掘项目
- 扩展阅读
- AlphaFold
- 思考题
- 其它阅读材料
- 总结
前言
图是描述关联数据的通用语言,很多数据都是以图的形式进行存储的。很多问题也可以转换成图的问题,例如七桥问题。图广泛的存在于自然界中,例如黏菌在培养皿里面可以形成铁路网的形状。
因此研究图机器学习十分必要,没有相关基础的小伙伴可以参考这篇博客图论期末复习(《图论机器应用》——朴月华),了解一下图论的基本知识。
图的应用场景
图的应用场景:事件关系、计算机网络、疾病传播路径、食物链、粒子网络、地铁站、社交网络、经济网络、通讯网络、论文引用网络、互联网、神经网络、医疗知识图谱、基因和蛋白质的调控网络、场景网络、代码图、化学分子、3D建模
如何对图数据进行挖掘
-
传统的机器学习
数据都是独立同分布的,彼此孤立无关
-
现代深度学习方法
主要用于处理表格、像素矩阵或者序列数据,包括全连接神经网络、卷积神经网络(CS231N)、循环神经网络(CS224N)、Transformer、图神经网络(CS244W) -
图深度学习
前面介绍的那些方法都无法处理由节点和连接构成的图数据,而这却恰恰是图机器学习所要解决的问题。图深度学习近几年在深度学习领域的顶级会议ICLR中崭露头角,图机器学习是人工智能和深度学习的新蓝海。
图深度学习
图神经网络的大致架构如下,可以简单的理解为输入图,通过黑箱获得想要的结果
图神经网络可以进行端到端的表示学习,并自动学习特征,无需人工特征工程
图嵌入将
N
N
N个复杂节点数据变为一个
N
×
d
N×d
N×d维向量,这个向量包含原始数据的语义信息
图深度学习难点
图深度学习的网络十分复杂,可以归结为以下三点:
- 任意尺寸的输入和复杂的拓扑结构
- 没有固定的节点顺序和参考锚点
- 经常是动态变化同时具有多模态特征
图机器学习必备工具
图深度学习工具包:
PyG(PyTorch Geometric):官方自己的库,和PyTorch类似
GraphGym:用于设计和评估图神经网络(GNN)的平台
NetworkX:用于构建和操作复杂的图结构,提供分析图的算法
DGL:复现了近几年的顶会论文,适合进行学术研究
图数据可视化工具:AntV、Echarts、GraphXR
图数据库:Neo4j,更多见DB-Engines Ranking of Graph DBMS
图机器学习应用
图机器学习的任务类型有很多种,包括:节点、边、子图、图
图的计算任务
图上有各种各样的计算任务,这些任务主要分为以下几种
-
基于节点的任务
- 节点分类:预测节点的一个属性
示例:对在线用户/项目进行分类
- 节点分类:预测节点的一个属性
-
基于边的任务
- 链接预测:预测两个节点之间是否存在缺失链接
示例:推荐系统、药物联合副作用、交通预测
- 链接预测:预测两个节点之间是否存在缺失链接
-
基于子图的任务
- 交通预测
- 交通预测
-
基于图的任务
-
图分类:对不同的图进行分类
示例:分子特性预测 -
图生成:药物发现(从头设计药物;现有数据库的虚拟筛选;药物再利用)、AlphaFold
-
图演化:物理模拟
-
图的商业价值
- 图是最优质的长期资产
- 网络效应是一个企业最深的护城河
图数据挖掘项目
ReadPaper:专业的学术讨论社区,实现文献引用网络
CONNECTED PAPERS:可以展示文献引用网络
BIOS:生物医学知识图谱
刘焕勇主页
Hypercrx:展示项目关系网络图、项目活跃开发者协作网络图
OpenRank:一种基于异质网络的价值评价算法
开源项目和开源企业排行榜
Open_galaxy
红楼梦人物知识图谱
扩展阅读
AlphaFold
AlphaFold官网
AlphaFold蛋白质数据库
AlphaFold博客1
AlphaFold博客2
AlphaFold自然杂志论文
AlphaFold代码
百度文心·生物计算大模型
人工智能在药物发现和生物技术中的应用:2022年回顾与关键趋势
思考题
-
打开你的手机,里面那些APP用到了图机器学习和图神经网络的技术?(内容个性化推荐、社交网络、银行金融)
-
A股、港股、美股市值最高的上市公司,哪些公司的核心资产是图?
-
观看电影《社交网络》,图和图数据挖掘的商业价值体现在哪些方面?
-
马化腾在2022年12月内部讲话提到,微信视频号是整个腾讯的希望,请从图的角度解释这句话。
-
在你自己的研究领域,哪些数据可以用图或者网络来表示,如何进行图数据挖掘?
-
近年来,图数据挖掘在哪些领域带来了革命性进展?
-
图数据挖掘解决哪些基本任务?
-
分别从图、连接、节点三个层面,举例解释图数据挖掘在生物医学方面的应用。
-
图神经网络为什么是端到端的?为什么不需要人工做特征工程?
-
图神经网络和其它神经网络有什么区别?
-
简述AlphaFold的基本原理,它解决了哪些以前解决不了的问题?
-
图机器学习和传统机器学习有什么区别和难点?
-
图机器学习的编程工具有哪些?看看它们的官网吧(Graphgym、pyG、networkx、dgl、Pytorch、AntV、Echarts)
其它阅读材料
李笑来-惊喜与创造惊喜的方法论:https://zhuanlan.zhihu.com/p/475615463
乔布斯在斯坦福大学毕业典礼的演讲:https://www.bilibili.com/video/BV1oW411h7Ea
子豪兄1024脱口秀-乔布斯传奇:https://www.bilibili.com/video/BV1Zf4y1g78Q
哥尼斯堡七桥问题:https://zhuanlan.zhihu.com/p/519123688
2022 IDEA大会|BIOS V2正式发布,数据驱动构建超级医学知识图谱:https://mp.weixin.qq.com/s/vuHGUtWbiIH-pJ6MZaxl5Q
总结
本篇博客首先介绍了图的广泛应用场景,引出了图是描述大自然的通用语言。然而现有的机器学习和深度学习方法不能有效利用图信息进行学习,从而引出了图深度学习的基本概念和难点。图深度学习广泛的应用在我们的学习生活中,蕴含了巨大的商业价值和科研价值,同时图深度学习可以和人工智能各方向结合(大模型、多模态、可信计算、NLP、情感计算),促进其它方向的发展。