周报6
-
本周主要在看代码:看Medusa头的代码发现不是很了解base_model那部分,所以又去看了llama2的代码和一些相关博客。
-
重写了一部分佛山中医学院项目的代码,更规范一些。
-
调研CosmoFlow,是一个深度学习预测宇宙参数的模型,旨在在现代 HPC 平台上处理大型 3D 宇宙学数据集。基于TensorFlow 框架,执行在两个 HPC 系统——Cori(美国) 和 Piz Daint(瑞士)。
他的模型很小,是简单的CNN,700 万个参数(28.15 MB )。
样本101,056 个,输入是[128, 128, 128]的空间张量(暗物质分布),输出是3个宇宙学参数
最大运行使用 Cori 的 8192 个 KNL 节点,训练 130 个epoch。平均 epoch 3.35 秒,整个运行大约需要 9 分钟。
个人觉得把CNN换成大模型是可行的。具体会存在哪些瓶颈我后面还需要去了解一下。
一些想法:
感觉扩散模型的逆扩散过程(生成)也可以用美杜莎头的思想来加快生成速度,因为扩散模型在生成过程中需要一个step一个step来去噪得到图片,所以或许也可以用几个小模型当做美杜莎头打草稿,经过几个step后用原模型校验一下,循环这个过程达到加快生成过程的目的。
一下,循环这个过程达到加快生成过程的目的。