目录
- 1.丐版「大模型」,Proof of concept
- 2. LLM和AIGC的各种综述
- 3. 基于Embedding的应用,问答,AI编程
- 4. 评论区的AI助手
- 5. 结合AIGC的各种数据自动计算
- 6. 个性化推荐的系统重构
- 7. 基于AIGC的个性化博客创作鼓励
- 8. 博客质量分V5: 可解释性计算服务
- 9. CSDN统一标签的持续改进
- 小结
时隔6个月,做为一个技术站点的AI团队,我们能做些什么?大模型和AIGC如火如荼,这就是所有做技术的人等待的技术浪潮。不过这个技术浪潮对于一个小团队来说意味着什么,则是需要冷静的思考。我们看下我们做了哪些动作,解决了哪些问题。
1.丐版「大模型」,Proof of concept
我们很快意识到,生成式AI已经彻底崛起。作为AI团队,整个技术栈上需要扭转过来,只有掌握技术的原理,才能更好的使用技术。大模型从一开始就是大厂的战场,但是所有做AI研发的,都应该在原理上对其有深刻的一手理解才能立于不败之地。
我们用非常小的成本,挑选了RWKV模型做为基模型,验证了构建垂直大模型的主要技术栈并开源。
ChatCSDN基于RWKV1.5B基模型: https://gitcode.net/csdn/ai/chatcsdn
- 主要是在RWKV提供的1.5B参数的基础之上,使用CSDN的问答数据和博客数据进行增量预训练,经过指令微调,得到拥有IT行业知识体系的大语言模型。
- 原始模型参数地址:https://huggingface.co/BlinkDL/rwkv-4-pile-1b5
- 微调后的模型参数地址:https://huggingface.co/zxm2023/ChatCSDN
在这个基础上,团队有对应的原理和工程实践的博客介绍:
- 介绍博客地址:https://blog.csdn.net/zxm2015/article/details/130227450
- 人类反馈强化学习 (RLHF) 博客:https://blog.csdn.net/u010280923/article/details/130283628
从应用的角度。在实际验证了主要技术栈之后,我们就打破了对大模型的迷思。当有新的开源模型的时候,我们也能第一时间对其做评估和验证。符合条件的模型,则可以在被动式AI应用里做集成使用。
2. LLM和AIGC的各种综述
以应用为目标是AI团队的目标。但是在这个基础上,技术平台本身就应该能提供最前沿的技术博客。我们针对性的做了一组综述,包含这些博客:
- 10分钟了解向量数据库
- 事实上,我们在应用里已经有很多该技术的实战应用。
- 关于 ChatGPT 必看的 10 篇论文
- 从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型
- NLP 中语言表示 (向量化) 的基本原理和历史演变综述
- LLaMA及其子孙模型概述
- 用LangChain实现一个ChatBlog
3. 基于Embedding的应用,问答,AI编程
实际做AIGC的应用,有两个典型的用途:
- 回答技术问题
- AI编程
其中,基于Embedding的技术是其中的一个重要的模式。大概的示意图如下
其中,在CSDN问答上,我们做了许多不断改进的迭代,问答机器人在问答周采纳榜单上稳定进入前3.
这里有问答机器人研发介绍
而,AI编程,则在 https://inscode.csdn.net 上有很系统的集成。AI编程事实上已经改变了未来编程的基本粒度。机器做的更多,人的精力会被更多地解放出来。
4. 评论区的AI助手
如何做基于AIGC的产品功能,则是一个重要的课题。经过思考后的一个设计是:在离用户需求最近的地方支持AI,包含:
- CSDN 社区(bbs.csdn.net) 评论区支持 @ada 的会员权益功能。
- CSDN 问答(ask.csdn.net) 回答区支持 @ada 的会员权益功能。
对于@ada 机器人的能力是经过仔细思考的:
-
你自己可能不知道哪里是关键「问题」例如你仔细观察 https://bbs.csdn.net/topics/615834933,提问者自己是不知道「问题在哪」,而我「懒得打字」(GPT帮我打即可,但是我知道「问题在哪」),我的价值在于,我知道「问题在哪」。从前,答者重“答”,未来,答者重“另一个问”.
-
解决问题需要「多人」讨论,包括human1, human2, 中间可以夹杂ai1, ai2,AI的加持,人与人的讨论更能聊的下去。
-
好的问题,公开解决,可以帮助更多人。
有了这个功能,如果你希望在私密的地方使用生成式AI学习,也可以在个人的私密社区的评论区里使用。希望这个功能你会喜欢。
5. 结合AIGC的各种数据自动计算
技术站点可以做各种榜单。但是在AIGC时代,可以做的更好。我们在结合传统自动化大数据处理+部分AIGC的能力,不断迭代各种推送榜单。
- AI前沿社区
- 博客之星2023社区
- 用户的认可页面
- 将社区里,是“问题类型”的帖子,通过分类器识别后,分类出来并同步到问答。同时社区也支持一个「有问题」列表:
6. 个性化推荐的系统重构
个性化推荐对于内容社区起着举足轻重的作用。对此我们有一系列的研发博客介绍:
- [1] 《如何支持研发对CSDN个性化推荐系统重构》
- [2] 《CSDN个性化推荐系统的设计和演化》
- [3] 《CSDN 个性化推荐的数据治理》
- [4] 《CSDN个性化推荐系统-负反馈测试》
正确反馈的系统,才能有真实的数据,才能解决繁杂的用户和平台需求。
7. 基于AIGC的个性化博客创作鼓励
AIGC时代,我们可以为每个人做个性化的写作鼓励。每个用户写博客,无论是写笔记(学),还是写专栏(教)。都希望获得正向反馈。为此,我们通过一些列的实验为所有的技术写作者服务,这确实体现了成就一亿技术人的理念。
- 工作3年内博主写作的红包评论鼓励,结合AIGC自动摘要和写作建议。
- 新人博客前10-20篇博客的AIGC鼓励评论和建议。
- 资深老博主的AIGC鼓励和建议。
让所有人都自动地获得AIGC的服务,为技术写作者服务,你的技术写作再也不孤单。AIGC评论只是一个催化剂,让博主们更流畅的互相交流,通过写作获得成长是其核心目标。
8. 博客质量分V5: 可解释性计算服务
我们对博客质量分做了一系列的内部分析和实验,包含了:
- 影响博客质量分的因子的消融指标矩阵分析
- 影响博客质量分区间分布迁移的小规模和大规模试验分析
通过这些分析,我们改进了博客质量分的计算,近期推出了博客质量分V5,V5版本在解决博客质量可计算方面的能力基础上,进一步增加了可解释性,让博主们能在机器自动辅助建议的基础上持续获得写作质量的提升,这也是平台生态长期良性发展的基石。
我们的同事对此会有独立博客介绍:TODO
9. CSDN统一标签的持续改进
当然,我们在技术内容分类器上的传统强项也在持续改进。CSDN的技术分类:
- 能保持最新
- 准确性靠谱
作为一个技术站点,全的新的技术分类体系和准确性,是打底的能力。
小结
实际做的工作远不止这些,有重大技术突破的时代,是一个最好的时代,希望大家都能走的更远,创造更多好的技术和产品。Be greater than average! 希望能有这个勋章!
–end–