图机器学习导论
学习路径与必读论文清单
- 斯坦福CS224W(子豪兄中文精讲)
- 知识图谱实战
- Deepwalk
- Node2vec
- PageRank
- GNN
- GCN
- Gragh-SAGE
- GIN
- GAT
- Trans-E
- Trans-R
图无处不在
图是描述关联数据的通用语言
举例
- 计算机网络
- 新冠肺炎流行病学调查传播链
- 食物链
- 地铁图
- 社交网络
- 经济网络
- 通信网络
- 互联网
- 论文引用网络
- 人神经元神经网络
- 医疗图谱
- 基因和蛋白质的调控网络
- 场景网络
- 代码也可以抽象为图
- 分子图
- 三维建模模型图
- 人体关键点检测
- 张量图
数学上图论起源于哥尼斯堡七桥问题
如何对图数据进行数据挖掘
节点和连接组成的图
传统机器学习数据样本之间独立同分布
现代深度学习方法用来解决表格矩阵序列数据,还没有专门处理关联数据的神经网络
图机器学习是人工智能和深度学习的新蓝海
##* 机器学习的热点
- 图神经网络
- 对抗学习
- 元学习
- NAS
- 自监督学习
- bert
- nlp
- 连续学习
图深度学习的难点
任意尺寸输入
没有固定的节点顺序和参考锚点
动态变化
多模态特征
图神经网络
##图神经网络
课程概述
传统机器学习方法:Graphlets,Graph Kernels
node embedding:DeepWalk,Node2Vec
图神经网络:GCN,GraphSAGE,GAT,Theory of GNNS
知识图谱和推理:
生成新的图:GraphRNN
图数据挖掘
课程目录
课程主页:http://cs224w.stanford.edu
参考书籍:Graph Representation Learning Book
课程每一章都是独立的
图机器学习、图神经网络编程工具
PyG:www.pyg.org
NetworkX:networkx.org
DGL:www.dgl.ai
AntV图可视化工具Graphin:graphin.antv.vision
AntV图可视化工具G6:g6.antv.antgroup.com
Echarts可视化:echarts.apache.org/examples/zh/index.html#chart-type-graphGL
图数据库库排名
图机器学习应用
任务层次
节点层面
信用卡欺诈
连接层面
推荐可能认识的人
子图层面、社群层面
用户聚类
图层面
分子是否有毒
生成新的分子结构
图机器学习任务
- 节点分类
- 连接预测
- 图分类
- 聚类
- 其他任务
图生成
图演化
Example
AlphaFold
AlphaFold官网:https://www.deepmind.com/research/highlighted-research/alphafold
AlphaFold蛋白质数据库:https://alphafold.ebi.ac.uk
AlphaFold博客1:https://www.deepmind.com/blog/alphafold-using-ai-for-scientific-discovery-2020
AlphaFold博客2:https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe
AlphaFold自然杂志论文:https://www.nature.com/articles/s41586-019-1923-7.epdf?author_access_token=Z_KaZKDqtKzbE7Wd5HtwI9RgN0jAjWel9jnR3ZoTv0MCcgAwHMgRx9mvLjNQdB2TlQQaa7l420UCtGo8vYQ39gg8lFWR9mAZtvsN_1PrccXfIbc6e-tGSgazNL_XdtQzn1PHfy21qdcxV7Pw-k3htw%3D%3D
AlphaFold代码:https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13
百度文心·生物计算大模型:https://wenxin.baidu.com/wenxin/paddlehelix
人工智能在药物发现和生物技术中的应用:2022年回顾与关键趋势:https://mp.weixin.qq.com/s/ZuDpd2YqHpDiRqw9GIXolw
图背后的商业价值
人的本质就是社会关系的总和
江湖不是打打杀杀江湖就是人情世故,江湖就是图
举例
- Google的搜索引擎
- 抖音、微博、B站的内容推荐
- 银行的风控信用卡欺诈
图是最优质的长期资产
网络效应是一个企业最深的护城河
几个图数据挖掘项目
- ReadPaper(ReadPaper.com)
- Connected papers(connectedpapers.com)
- BIOS(bios.idea.edu.cn)
- 刘焕勇主页:https://liuhuanyong.github.io
总结
图是描述大自然的通用语言
图蕴含了巨大的商业价值和科研价值
图在过去现在未来都在改变各行各业
图机器学习是长期通用技能
图机器学习可以和人工智能方向结合(大模型、多模态、可信计算、NLP)