文章目录
- 0.ChatGPT大模型带来的影响
- 0.1 ChatGPT带来信息化革命性创新,目前尚不能处理专业知识但成长很快
- 0.2 Chat GPT为网安行业带来新的创新方向,也将引领新一轮投融资热潮
- 0.2.1 攻击方发起网络攻击的门槛降低
- 0.2.2 防守方合理使用ChatGPT可大幅减少安全运营工作量
- 0.2.3 针对AI网络安全应用的投融资将呈现井喷效应
- 0.3 Chat GPT的广泛应用将推动数据安全需求升级
- 0.4欧洲刑警组织:ChatGPT很有可能被滥用于网络犯罪
- 1. 多GPU并行训练
- 1.1 大模型训练-多GPU训练方法种类
- 1.1.1 两种GPU训练方法:DataParallel 和 DistributedDataParallel:
- 1.2 误差梯度如何在不同设备之间通信?
- 1.3 BN如何在不同设备之间同步?
- 2 开源的大模型可以自己训练调优
- 1. BLOOMZ
- 2. OPT-IML
- 3. Pythia
- 4. LLaMA
- 5. Vicuna
- 6. LMFlow
- 3. ChatGPT-5
- GPT-3
- Awesome GPT-3
- Demos
- App and layout tools
- Search and data analysis
- Program generation and analysis
- Text generation
- Content creation
- General reasoning
- Game generation
- Other
- Articles
- Github
- Products
0.ChatGPT大模型带来的影响
0.1 ChatGPT带来信息化革命性创新,目前尚不能处理专业知识但成长很快
2023年虽然才开始不久,但毫无疑问ChatGPT是今年最重大的科技话题之一。Chat GPT是生成式人工智能的开山之作,出道即巅峰,是继PC互联网、移动互联网之后又一次革命性创新,其创新性在于突破之前决策式AI基于规则的算法模型框架,跳出之前“数据搬运工”的传统模式,即在海量数据中寻找符合规则策略的数据,经过比对计算,基于当前的环境、条件和状态,准确的找到符合条件的数据,一步一步的走向算法和程序的终点,得出一个确定的决策。
生成式AI为决策式AI赋予了灵魂和思想,决策式AI需要在海量数据中挑选并使用符合规则的数据,自身并不创造新的数据,生成式AI的革命性创新的根本在于将逻辑和伦理以算法的形式植入,并产生新的数据,相当于为算法植入了思想和灵魂,尽管其智能水平与高水平人类仍有较大差距,但生成式AI在可无限扩展的算力和数据加持下,其成长性和发展前景将无比光明。
从2022年底至今,Chat GPT已经从3.0快速迭代到3.5,从3.5迭代到4.0,配合市场营销的宣传,ChatGPT已经成功打造了几个标签:
l 高富帅:超级算力+海量数据+机器学习+资本追捧
l 自学成才:自我学习,自我提升,快速进阶
l 会推理:读懂复杂问题,具备逻辑能力
0.2 Chat GPT为网安行业带来新的创新方向,也将引领新一轮投融资热潮
ChatGPT带来的网络安全问题也将被无限放大,微软近期推出Microsoft Security Copilot将下一代AI技术,使用其技术内置到网络安全系统中,微软将网络安全防护产品作为首个与ChatGPT能力结合的产品发布,就可以看到网络安全在人工智能领域的重要性,或者网络安全本身就是ChatGPT的一个场景应用。
0.2.1 攻击方发起网络攻击的门槛降低
尽管ChatGPT有内容审计,不提供完整的直接可用的网络攻击工具,但只要攻击者有一定专业技能,通过合理的提问编排,如与搜索引擎配合,网络攻击者可借助ChatGPT快速提升攻击能力和烈度,另外从攻击者的视角,任何一个点被攻破,都可以成为跳板,取得成效;笔者问了ChatGPT网络攻防方面的一些常规问题,回答的有模有样。
0.2.2 防守方合理使用ChatGPT可大幅减少安全运营工作量
运营方对自身IT资产及业务足够熟悉时,可以使用ChatGPT识别漏洞、编写安全运营自动化脚本、制定安全策略等,可在很大程度提升安全运营效率。ChatGPT作为网络安全攻防双方都可使用的工具,用在防守端可得到直接有效答案更方便,在内容审核方面ChatGPT对防守属性的内容更友好易用。ChatGPT作为安全攻防工具本身具有两面性,并将在某一时间点达到攻守的整体平衡,决定攻防态势的最终是人,由人来规划、建设和运营网络安全能力,对工具的使用熟练程度能在很大程度上起到提高效率的作用。
0.2.3 针对AI网络安全应用的投融资将呈现井喷效应
到2025年,人工智能(AI)软件市场规模将从2021年的330亿美元增长到640亿美元。网络安全将是人工智能支出增长最快的细分市场,相关支出的复合年增长率(CAGR)高达22.3%,Forrester发布该报告时ChatGPT尚未出现,经过验证后的Chat GPT将极大推动后续以人工智能和机器学习为支撑技术的网络安全市场进一步繁荣,在大规模资产探测、漏洞管理、异常行为检测等细分方向推出更强能力网络安全产品,配合零信任的安全框架,实现可落地的弹性、动态、智能的网络安全防护体系。
0.3 Chat GPT的广泛应用将推动数据安全需求升级
ChatGPT基于问题交互式学习进化的方式出现,相当于将传统网络安全和数据安全建立的内外网的网格彻底刺破,相当于ChatGPT在以回答问题的形式收集和分析数据,企业和个人以正常业务的形式持续流出重要数据。针对以ChatGPT为代表是生成式人工智能工具,在合规定义方面至少要加强隐私保护(个人隐私、企业隐私、国家隐私)、合规审计(规划、建设、运营)、伦理监管(内容监管、舆情监管、公信监管)几方面的研究和设计,而且这些合规细则的推出已经到了的急迫程度。
从攻防的角度看,是通过防御和反制攻击来保护数据的安全性,其价值在于保护组织的敏感信息和知识产权,减少业务中断和损失,并维护组织的声誉。ChatGPT出现后,可以作为工具同时服务攻防两端,能够熟练使用ChatGPT的一方将对不掌握该技能的一方形成绝对优势,已知的使用Chat GPT进行数据安全类的攻击手段就有社会工程渗透、脱库撞库攻击、规模制造虚假信息(水军)、恶意收集凭证/密码等身份信息等,虽然这些手段在Chat GPT出现之前就已经存在,但是在使用Chat GPT后,攻击效率可大大提高。这些需求升级将导致数据安全的规划和建设在元数据的处置时就入局,如进行数据资产的盘点、数据的分级分类、数据脱敏、数据传输/存储加密等细分技术和方案的快速落地。
数据安全在业务支持方面主要是指为业务需求提供安全保障,以确保数据的保密性、完整性和可用性,价值在于支持业务的联结和增长,提高组织的效率和竞争力。主要应用于金融、电力、电子商务、医疗保健等对数据安全敏感的行业和场景。在Chat GPT的能力加持下数据安全在业务端的能力将更多的体现在在业务逻辑中对钓鱼检测、撞库检测、凭证伪造检测、弱密码检测、可疑身份检测等日常高发、高危类安全行为方面;
综上,合规、攻防和业务支持是数据安全的三个刚性需求,它们的价值和场景均以保护数据为核心,企业和组织需要在这三个方面进行整合,形成一个全面的数据安全策略。ChatGPT的可怕之处在于系统和平台会以“吸星大法”式的模式采集、分析和验证数据,在专业能力达到一定程度的问题处置上,先以“莫须有”的形式和逻辑给出自己一套答案,在一步一步的交互过程中验证AI的理解,而且整个过程中相关人员几乎不会有产生数据安全威胁的意识,这与传统的钓鱼网站、钓鱼邮件类的数据安全问题,对企业的数据安全破坏程度更高。因此,一方面需要数据安全合规、攻防和业务支撑方面做到位,另一方面还需结合专项的数据安全意识类培训,自上向下进行安全意识的培训,从数据安全管理的角度,多管齐下,提升效果。
0.4欧洲刑警组织:ChatGPT很有可能被滥用于网络犯罪
3月27日,欧洲刑警组织创新实验室与相关专家组织了一系列研讨会,探讨犯罪分子会如何滥用 ChatGPT 等大型语言模型,以及它如何协助调查人员的日常工作。会议报告名为“ChatGPT - the impact of Large Language Models on Law Enforcement(ChatGPT - 大型语言模型对执法的影响)”,该报告概述了 ChatGPT 的潜在滥用,并展望了未来可能发生的事情。
欧洲刑警组织的专家们指出,ChatGPT可能为以下三个犯罪领域提供了便利:
1、欺诈和社会工程:ChatGPT高度逼真的文本生成能力使其成为网络钓鱼的有力工具。LLMs语言模式再现能力可用于模仿特定个人或群体的说话风格。
2、假情报:AI擅长快速批量生成真假难辨的声音文本,用户能够借以生成及传播特定叙述的信息,这使其非常适合宣传虚假信息。
3、网络犯罪:只要提供明确的需求,ChatGPT 就能够使用多种不同的编程语言生成用户所需的代码。对于欠缺技术知识的潜在犯罪分子来说,它就是生成恶意代码的有力工具。
欧洲刑警组织的报告旨在提高人们对LLMs潜在滥用的认识,与人工智能公司开展对话,帮助他们建立更好的保障措施,并促进安全可靠的人工智能系统的发展。报告中特别强调了执法机构需要了解这些技术的积极和消极应用,以便应对未来的挑战。可以看到,尽管目前AI的发展未臻完美,但其能力与日俱进,任何人都十分有必要提高对其的认知。
1. 多GPU并行训练
- 有两种原因:第一种是模型在一块GPU上放不下,两块或多块GPU上就能运行完整的模型(如早期的AlexNet)。第二种是多块GPU并行计算可以达到加速训练的效果。想要成为“炼丹大师“,多GPU并行训练是不可或缺的技能。
1.1 大模型训练-多GPU训练方法种类
常见的多GPU训练方法:
1.模型并行方式:如果模型特别大,GPU显存不够,无法将一个显存放在GPU上,需要把网络的不同模块放在不同GPU上,这样可以训练比较大的网络。(下图左半部分)
2.数据并行方式:将整个模型放在一块GPU里,再复制到每一块GPU上,同时进行正向传播和反向误差传播。相当于加大了batch_size。
1.1.1 两种GPU训练方法:DataParallel 和 DistributedDataParallel:
- DataParallel是单进程多线程的,仅仅能工作在单机中。而DistributedDataParallel是多进程的,可以工作在单机或多机器中。
- DataParallel通常会慢于DistributedDataParallel。所以目前主流的方法是DistributedDataParallel。
1.2 误差梯度如何在不同设备之间通信?
在每个GPU训练step结束后,将每块GPU的损失梯度求平均,而不是每块GPU各计算各的。
1.3 BN如何在不同设备之间同步?
假设batch_size=2,每个GPU计算的均值和方差都针对这两个样本而言的。而BN的特性是:batch_size越大,均值和方差越接近与整个数据集的均值和方差,效果越好。使用多块GPU时,会计算每个BN层在所有设备上输入的均值和方差。如果GPU1和GPU2都分别得到两个特征层,那么两块GPU一共计算4个特征层的均值和方差,可以认为batch_size=4。注意:如果不用同步BN,而是每个设备计算自己的批次数据的均值方差,效果与单GPU一致,仅仅能提升训练速度;如果使用同步BN,效果会有一定提升,但是会损失一部分并行速度。
2 开源的大模型可以自己训练调优
BLOOMZ、Pythia、LLaMA 和 Vicuna 可根据其许可用于商业用途。OPT-IML 限制商业用途。
1. BLOOMZ
https://github.com/bigscience-workshop/xmtf
2. OPT-IML
https://github.com/facebookresearch/metaseq/tree/main/projects/OPT-IML
3. Pythia
https://github.com/EleutherAI/pythia
4. LLaMA
https://github.com/facebookresearch/llama
5. Vicuna
https://github.com/lm-sys/FastChat
6. LMFlow
项目地址:https://github.com/OptimalScale/LMFlow
-
该项目由香港科技大学统计和机器学习实验室团队发起,致力于建立一个全开放的大模型研究平台,支持有限机器资源下的各类实验,并且在平台上提升现有的数据利用方式和优化算法效率,让平台发展成一个比之前方法更高效的大模型训练系统。
-
此外,该项目的最终目的是帮助每个人都可以用尽量少的资源来训练一个专有领域的、个性化的大模型,以此来推进大模型的研究和应用落地。
-
在 LMFlow 的加持下,即便是有限的计算资源,也能让使用者针对专有领域支持个性化训练。基于 70 亿参数的 LLaMA,只需 1 张 3090、耗时 5 个小时,就可以训练一个专属于自己的个性化 GPT,并完成网页端部署。开源库作者们已经利用这个框架单机训练 330 亿参数的 LLaMA 中文版,并开源了模型权重用于学术研究。训练得到的模型权重可以通过该网页端即刻体验问答服务 (lmflow.com)。
-
效果
3. ChatGPT-5
- GPT-5计划于今年12月完成培训,并且OpenAI期望它实现AGI。它是否能实现AGI?毫无疑问,会发生一场激烈的讨论。
- Siqi Chen还透露,有部分OpenAI员工期望,GPT-5能与人类的能力对齐。
- 根据预测,GPT-5将在GPT-4的基础上,带来一系列令人兴奋的功能和增强的性能,比如在可靠性、创造力和适应复杂任务方面的全面超越。
- 个性化模板:根据用户的特定需求和输入变量进行定制,提供更个性化的体验。
- 允许用户调整AI的默认设置:包括专业性、幽默程度、说话语气等。
- 自动将文本转换成不同格式:如静态图像、短视频、音频和虚拟模拟。
- 高级数据管理:包括记录、跟踪、分析和共享数据,从而简化工作流程并提高生产力。
- 辅助决策:通过提供相关信息和见解,协助用户做出明智的决策。
- 更强的NLP能力:增强AI对自然语言的理解和响应,使其更接近人类。
- 集成机器学习:允许AI不断学习和改进,随着时间的推移适应用户需求和偏好。
GPT-3
Dalle2 :自动作画 https://github.com/lucidrains/DALLE2-pytorch
Awesome GPT-3
Awesome GPT-3 is a collection of demos and articles about the OpenAI GPT-3 API.
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ocRljUeS-1681529026927)(screenshot.png)]
Demos
App and layout tools
- HTML layout generator
- Creating app design from a description
- React todo list
- React component based on description
- React component based on variable name alone
- GPT-3 generating color scales from color name or emojis
- Website generation in Figma from a description
Search and data analysis
- Question answering and search engine
- Augmenting information in tables
- Creating charts from a description
- Natural-language interface to spreadsheet by generating code
- Generating and iteratively updating graphs
- Guessing the movie/tv show by a description
- LeetCode Search: GPT-3 powered search engine for LeetCode
Program generation and analysis
- Translating natural language into shell commmands
- Reading code and responding to questions about it
- Generating Latex from description
- Generating SQL code 1
- Generating SQL code 2
- Coding interview
- Generating python
- Generating database-specific SQL code
- AI Inceptiion: GPT-3 generating machine learning code
- Most Recommended Books: GPT-3 based book recommendations
- Extracting information from documents, powered by GPT-3
Text generation
- Translating into several languages
- Write this like an attorney
- Automatically generating Request for Admissions
- Writing full emails from key points
- Simplifying legal language
- Iteratively drafted non-literal poetry translation with annotations
- Rephrasing sentences to be more polite
- Summarizing famous people thoughts
- Priming GPT-3 to Speak like Any Big Five Personality
Content creation
- Content creation for marketing
- Generating memes
- Writing Google ads
- Generating presentations
- Food recipe maker
- “How to recruit board members”
- Shakespeare-style poetry generation
- Generate a quiz on any topic and evaluate students answers
- Generating history questions, with answers
- Text completion and style rewriting
General reasoning
- Physics questions
- GPT-3 doing math
- Responding medical questions
- Coping with non-sense questions
- Reasoning questions
- Working through questions in multiple steps
- Determining food ingredients and healthiness from a picture
- Psychology: neurotypical -> autistic translation
Game generation
- GPT-3 generating snake game
Other
- GPT-3 playing chess
- Designing an IVR flow using natural language
- Patient diagnosis from clinical vignettes
Articles
- Can GPT-3 Build a GPT-3 App?
- How GPT-3 works
- GPT-3 and A Typology of Hype
- GPT-3: A Hitchhiker’s Guide
- [Video] Paper explanation
- Tempering Expectations for GPT-3 and OpenAI’s API
- OpenAI’s GPT-3 Language Model: A Technical Overview
- GPT-3: An AI that’s eerily good at writing almost anything
- GPT-3 Creative Fiction by Gwern
- Giving GPT-3 a Turing Test
- OpenAI’s GPT-3 may be the biggest thing since bitcoin
- To what extent is GPT-3 capable of reasoning?
- Longevity, and resets.
Github
- GPT-3 Sandbox: Turn ideas into demos in a matter of minutes
- gpt-3-experiments by @minimaxir
- ChatGPT-wrapper: Use it in python and shell
Products
- Tailwind CSS code generator
- OthersideAI: Automatically write emails in your personal style by simply writing the key points you want to get across
- Debuild: Describe what your web app should do in plain English, then start using it within seconds.
- AI Dungeon: An AI generated text adventure that uses deep learning to create each adventure
- WWO A/B testing OpenAI’s GPT-3
- Presentations.ai Visually stunning presentations
that you can design instantly - Prompts AI: Advanced GPT-3 playground
- AirPaper: Automated document extraction powered by GPT-3