🥮随笔
本篇将毫无逻辑,只是写到哪儿算哪儿,只是用来记录着玩儿。
关键学习期的概念
关键学习期(Critical Learning Periods)是一个在生物学和人工智能领域都有研究的概念。在生物学中,关键学习期指的是在生物出生后的某个特定发育阶段,大脑对环境刺激特别敏感,这个时期的经验可以深刻影响其长期的行为和认知能力。例如,人类的视觉系统在儿童时期的某个阶段对视觉刺激特别敏感,如果在这个阶段没有得到适当的视觉刺激,可能会导致永久性的视力损害。
在人工智能领域,特别是在深度学习中,关键学习期的概念被用来描述深度神经网络(DNNs)在训练过程中的一个特定阶段,这个时期网络对输入数据的变化特别敏感。如果在这个阶段网络接收到有缺陷或不完整的数据,可能会对网络的最终性能产生长期影响。例如,如果在训练初期网络接收到模糊的图像数据,可能会影响网络学习到的特征,从而影响最终的图像识别性能。这种影响可能会持续到训练的后期,即使之后提供了清晰的图像数据,网络性能也可能无法完全恢复。
所以做一个可能并不严谨的推理,比如说一个人近视程度三四百度,但是平时不戴眼镜,也不觉得生活有什么影响,带上眼镜反而要适应很久。或许,在人生的很早阶段就近视了,而大脑直接将这种视觉模糊的信号强行计算为物理世界的样子,也可以正常建立关联,所以并不会影响什么。
当然,这种情况一旦遇到需要精细化分辨的内容就完犊子了,比如说视力表上的E的方向。平时靠算法补齐的内容,一旦靠算法和推理无法直接补齐,就还是会呈现模糊。
而对于绘画领域,MJ在很早的时候,就是一群设计师在收集和筛选素材,所以美学评分一直很高,而sd为代表的开源版本,基础素材就是开源的那些图库,所以美学评分一直起不来。或许这也是关键学习期的影响。不过也有好处,就是他理解的更加是真实的物理世界,一旦过了某个临界值,或许效果是可以大幅超越偏科的MJ的,纯主观感受上,Flux或许已经开始接近这个临界点了。
压缩即智能
也是个老话题了。
数据和知识本身都是对于物理世界的压缩,而且都是有损的,而之所以需要压缩,是因为人类的大脑容量实在是不够存储物理世界这么大的信息量。
数据和知识又不同,数据是对原始物理世界的第一层有损压缩,物理世界也是有精度的,时间和能量都有最小单位,都是一份份的传递和度量的,只是精度实在太高,人类绝大多数时候不需要这样的精度,如果吃一个苹果都需要知道每个细胞的细胞壁厚度,那这个苹果估计能吃大几百年了。数据就是大幅度的删减精度,然后留下人类需要的部分。
而知识,又是对数据的再一次有损压缩。数学公式是一种知识,人生道理也是一种知识,这些知识是有泛化的价值,古话讲的是“触类旁通”,也是这一波人工智能大家感觉智能了的原因,因为他好像不仅仅能知道你告诉他的事情,甚至类似的问题也能知道。
那如果把压缩好的知识直接告诉一个算法,然后用算法来解决所有问题不就好了吗?
貌似,并不能。这里有个比较关键的事情,是要“解压算法”。
老子曾经说过,别人没有办法告诉你你不知道的事情。
比如说有一种水果,叫“释迦”,用kimi解释一下:
释迦果,又称番荔枝,是一种热带水果,原产于热带美洲,尤其是在秘鲁、墨西哥、巴西、古巴和美国等地有广泛的栽培。亚洲的印度和泰国也是释迦果的主要栽培地区。在中国,释迦果的栽培历史约有400年,最早由荷兰人引入台湾,因此得名“释迦果”。
释迦果的品种多样,包括但不限于以下几种:
- 凤梨释迦:果形有心脏形、圆锥形、卵形或不规则形,果肉质感好,可切片食用,风味佳,带有百香果或凤梨香气。
- 大目释迦:果表鳞目大,光泽度高,果实硕大,但因籽多,吃起来口感可能略逊。
- 绿钻释迦:是凤梨释迦的改良种,色泽碧绿,果实体积较大,带有大目释迦清甜的口感。
- 红释迦:也称玫瑰释迦,是土释迦的自然变种,外观深粉红色或紫红色,果肉白色,口感、香气与土释迦相似。
- 黄龙释迦:在南美、美国等热带、亚热带地区有种植,市面上比较少见。
释迦果的营养价值丰富,含有蛋白质、脂肪、碳水化合物、维生素C、钙、磷、铁等矿物质。它的果肉柔软嫩滑,甜度很高,具有健脑、明目、安神除烦等功效。释迦果中的“番荔枝内脂”还具有很强的抗肿瘤活性,因此被誉为“抗瘤之星”。
在选择释迦果时,应挑选果形端正、颜色均匀、手感柔软且富有弹性的果实。未成熟的释迦果外表嫩绿且硬,而成熟的果实颜色较深且较软。购买未熟透的释迦果后,可以通过自然催熟的方式使其变软后食用。释迦果可以直接食用,也可以制作成果汁、冰沙或其他甜品
好了,现在你知道了吗?
如果你吃过,不需要解释,你自然就知道,而如果你没吃过,就算看几篇论文,仍然不知道。对于不知道的人来说,就缺少对这两个字的“解压算法”。
对于diffusion模型,训练的时候如果用了这种水果,那么你再输入这个关键词他就能正常生成,但如果本身数据集中没有,那么他是不可能正常生成的,因为他不知道。
大脑存储解压算法的方式就是神经元,人工智能里边通过权重来记录的,也可以理解为是一种解压算法。所以transformer也好,diffusion也好,或者Dit也好,都是在尝试做解压算法的存储。当然,这里也包含了数据本身的存储。
这么说起来,“道”会不会是最终的终极压缩呢?而河图和洛书不过是帮助人类的大脑理解物理世界和运行规律的解题思路,毕竟,解压缩也是需要过程的,就像解数学题需要套公式。
哦对,或许抖音比今日头条这样的产品能覆盖的面更广,也是因为视频这种形式,人类解压比较省事儿,而文字看起来,毕竟还是麻烦的。
从Diffusion到DiT
图像生成为什么不用DiT?因为没啥必要。
transformer之前一直用用于处理文本,而文本这个东西本身是有时序和语义的,就是他能理解时间的概念。为什么呢?因为文本本身就是有时间概念的。比如说下边这句话:
吃了一个苹果,所以拉肚子了。
吃苹果和拉肚子是有先后顺序的,先后这个概念本身,就是时间。
当然了,也不是所有文字都有时间概念,比如说《降临》这个电影中七肢桶这个种族的文字,就是没有先后顺序的,所以用他们的文字训练的模型,大概率也就不懂时间了。
而Diffusion这个模型,是不懂时间的,但是他也懂语义,所以优化clip模型,优化diffusion的架构,增加模型体积,是可以画出不错的静态图像的,但是一旦生成视频,就像deforum后者animatediff,就完全没法看了。
为啥呢?
deforum本身就是参考上一帧图片,然后图生图。再往前就不看了,所以图像变化就像吃了毒蘑菇一样。
animatediff可以参考16帧,而且还可以继续增加。问题是,他不懂语义,就像一个人没有办法两次踏进同一片河流一样,一旦一个苹果从画面中小时,再出现的时候,他就不觉得是同一个苹果了。
本质上还是他只是参考了过去的画面中的元素,多参考了一些,并不能真的理解为什么他们不能变化,上限从模型算法本身上基本上就锁死了。
dit解决了这个问题。所以sora刚出的时候,那么多人都很兴奋,当然了,我其实有点怀疑好多营销号是不是自己真的理解了啥玩意儿叫“世界模拟器”。
你会看到不管是sora,可灵,或者是runway,都是转型用Dit生成视频了。
这个算法,还是很有潜力的,而且如果发展的好,或许可以颠覆游戏产业、视频电影产业等等诸多行业,到时候,唯一值钱的,可能就是想法本身了。
先到这里,有空再聊。
✨恰饭时间
如果对comfyui还不熟悉的话,最近面向ComfyUI的新手,写了一门系统性入门图文课程,现在已经更新完成了,内容主要包括如何下载软件、如何搭建自己的工作流、关键基础节点讲解、遇到报错怎么解决等等,如果大家在学习过程中遇到什么问题,也可以直接对应的文章下留言,会持续更新相关答疑内容哈。欢迎订阅哦~
https://blog.csdn.net/jumengxiaoketang/category_12683612.html
感谢大家的支持~