CSDN-AI小组2023-半年-研发总结

news2024/9/25 15:28:07

目录

    • 1.丐版「大模型」,Proof of concept
    • 2. LLM和AIGC的各种综述
    • 3. 基于Embedding的应用,问答,AI编程
    • 4. 评论区的AI助手
    • 5. 结合AIGC的各种数据自动计算
    • 6. 个性化推荐的系统重构
    • 7. 基于AIGC的个性化博客创作鼓励
    • 8. 博客质量分V5: 可解释性计算服务
    • 9. CSDN统一标签的持续改进
    • 小结

在这里插入图片描述

时隔6个月,做为一个技术站点的AI团队,我们能做些什么?大模型和AIGC如火如荼,这就是所有做技术的人等待的技术浪潮。不过这个技术浪潮对于一个小团队来说意味着什么,则是需要冷静的思考。我们看下我们做了哪些动作,解决了哪些问题。

1.丐版「大模型」,Proof of concept

我们很快意识到,生成式AI已经彻底崛起。作为AI团队,整个技术栈上需要扭转过来,只有掌握技术的原理,才能更好的使用技术。大模型从一开始就是大厂的战场,但是所有做AI研发的,都应该在原理上对其有深刻的一手理解才能立于不败之地。

我们用非常小的成本,挑选了RWKV模型做为基模型,验证了构建垂直大模型的主要技术栈并开源。

ChatCSDN基于RWKV1.5B基模型: https://gitcode.net/csdn/ai/chatcsdn

  • 主要是在RWKV提供的1.5B参数的基础之上,使用CSDN的问答数据和博客数据进行增量预训练,经过指令微调,得到拥有IT行业知识体系的大语言模型。
  • 原始模型参数地址:https://huggingface.co/BlinkDL/rwkv-4-pile-1b5
  • 微调后的模型参数地址:https://huggingface.co/zxm2023/ChatCSDN

在这个基础上,团队有对应的原理和工程实践的博客介绍:

  • 介绍博客地址:https://blog.csdn.net/zxm2015/article/details/130227450
  • 人类反馈强化学习 (RLHF) 博客:https://blog.csdn.net/u010280923/article/details/130283628

从应用的角度。在实际验证了主要技术栈之后,我们就打破了对大模型的迷思。当有新的开源模型的时候,我们也能第一时间对其做评估和验证。符合条件的模型,则可以在被动式AI应用里做集成使用。

2. LLM和AIGC的各种综述

在这里插入图片描述

以应用为目标是AI团队的目标。但是在这个基础上,技术平台本身就应该能提供最前沿的技术博客。我们针对性的做了一组综述,包含这些博客:

  • 10分钟了解向量数据库
    • 事实上,我们在应用里已经有很多该技术的实战应用。
  • 关于 ChatGPT 必看的 10 篇论文
  • 从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型
  • NLP 中语言表示 (向量化) 的基本原理和历史演变综述
  • LLaMA及其子孙模型概述
  • 用LangChain实现一个ChatBlog

3. 基于Embedding的应用,问答,AI编程

实际做AIGC的应用,有两个典型的用途:

  • 回答技术问题
  • AI编程

其中,基于Embedding的技术是其中的一个重要的模式。大概的示意图如下

在这里插入图片描述

其中,在CSDN问答上,我们做了许多不断改进的迭代,问答机器人在问答周采纳榜单上稳定进入前3.

这里有问答机器人研发介绍

而,AI编程,则在 https://inscode.csdn.net 上有很系统的集成。AI编程事实上已经改变了未来编程的基本粒度。机器做的更多,人的精力会被更多地解放出来。

4. 评论区的AI助手

如何做基于AIGC的产品功能,则是一个重要的课题。经过思考后的一个设计是:在离用户需求最近的地方支持AI,包含:

  • CSDN 社区(bbs.csdn.net) 评论区支持 @ada 的会员权益功能。
  • CSDN 问答(ask.csdn.net) 回答区支持 @ada 的会员权益功能。

对于@ada 机器人的能力是经过仔细思考的:

  1. 你自己可能不知道哪里是关键「问题」例如你仔细观察 https://bbs.csdn.net/topics/615834933,提问者自己是不知道「问题在哪」,而我「懒得打字」(GPT帮我打即可,但是我知道「问题在哪」),我的价值在于,我知道「问题在哪」。从前,答者重“答”,未来,答者重“另一个问”.

  2. 解决问题需要「多人」讨论,包括human1, human2, 中间可以夹杂ai1, ai2,AI的加持,人与人的讨论更能聊的下去。

  3. 好的问题,公开解决,可以帮助更多人。

有了这个功能,如果你希望在私密的地方使用生成式AI学习,也可以在个人的私密社区的评论区里使用。希望这个功能你会喜欢。

5. 结合AIGC的各种数据自动计算

技术站点可以做各种榜单。但是在AIGC时代,可以做的更好。我们在结合传统自动化大数据处理+部分AIGC的能力,不断迭代各种推送榜单。

  1. AI前沿社区
  2. 博客之星2023社区
  3. 用户的认可页面
  4. 将社区里,是“问题类型”的帖子,通过分类器识别后,分类出来并同步到问答。同时社区也支持一个「有问题」列表:
    在这里插入图片描述

6. 个性化推荐的系统重构

个性化推荐对于内容社区起着举足轻重的作用。对此我们有一系列的研发博客介绍:

  • [1] 《如何支持研发对CSDN个性化推荐系统重构》
  • [2] 《CSDN个性化推荐系统的设计和演化
  • [3] 《CSDN 个性化推荐的数据治理
  • [4] 《CSDN个性化推荐系统-负反馈测试

在这里插入图片描述

正确反馈的系统,才能有真实的数据,才能解决繁杂的用户和平台需求。

7. 基于AIGC的个性化博客创作鼓励

AIGC时代,我们可以为每个人做个性化的写作鼓励。每个用户写博客,无论是写笔记(学),还是写专栏(教)。都希望获得正向反馈。为此,我们通过一些列的实验为所有的技术写作者服务,这确实体现了成就一亿技术人的理念

  • 工作3年内博主写作的红包评论鼓励,结合AIGC自动摘要和写作建议。
  • 新人博客前10-20篇博客的AIGC鼓励评论和建议。
  • 资深老博主的AIGC鼓励和建议。

让所有人都自动地获得AIGC的服务,为技术写作者服务,你的技术写作再也不孤单。AIGC评论只是一个催化剂,让博主们更流畅的互相交流,通过写作获得成长是其核心目标。

8. 博客质量分V5: 可解释性计算服务

我们对博客质量分做了一系列的内部分析和实验,包含了:

  • 影响博客质量分的因子的消融指标矩阵分析
  • 影响博客质量分区间分布迁移的小规模和大规模试验分析

通过这些分析,我们改进了博客质量分的计算,近期推出了博客质量分V5,V5版本在解决博客质量可计算方面的能力基础上,进一步增加了可解释性,让博主们能在机器自动辅助建议的基础上持续获得写作质量的提升,这也是平台生态长期良性发展的基石。

我们的同事对此会有独立博客介绍:TODO

在这里插入图片描述

9. CSDN统一标签的持续改进

当然,我们在技术内容分类器上的传统强项也在持续改进。CSDN的技术分类:

  • 能保持最新
  • 准确性靠谱

作为一个技术站点,全的新的技术分类体系和准确性,是打底的能力。

小结

实际做的工作远不止这些,有重大技术突破的时代,是一个最好的时代,希望大家都能走的更远,创造更多好的技术和产品。Be greater than average! 希望能有这个勋章!

在这里插入图片描述

–end–

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/696301.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java基础之super

当父类拥有一个带参的构造方法时,子类要有一个带有相同类型参数的构造方法,并且第一行使用super(参数)来接受,否则会报错 上图是一个类 Two,拥有一个带String类型参数的构造方法。 上图是一个类One&#x…

Java数字图像处理教程

地址 Java DIP - GrayScale转换为了将彩色图像转换为灰度图像,您需要使用File和ImageIO对象读取图像的像素或数据,并将图像存储在BufferedImage对象中。其语法如下: File input new File("digital_image_processing.jpg"); Buffe…

PHP --- 登录界面构建与mysql交互

登录界面构建与mysql交互 环境准备 win2003server phpstudy2016 vscode &#xff08;1&#xff09;login.html 利用input表单就可构建简单登录界面<fieldset>标签&#xff1a;框住标签内容<legend>标签&#xff1a;为filedset标签添加标题<label>标签&am…

UE5.1.1 C++从0开始(15.作业4个人作业分享)

教程链接&#xff1a;https://www.bilibili.com/video/BV1nU4y1X7iQ 好吧这个作业应该是之前写的&#xff0c;但是我发现我没写&#xff0c;后面我又回去自己写了一遍再看代码&#xff0c;感觉上大差不差&#xff0c;各位可以看着我的和老师的还有自己的对比下。 SBTService_…

display:flex的用法

flex: 元素以弹性布局方式显示&#xff0c;可以通过设置父元素的 display: flex 属性来实现子元素的弹性布局。常用于实现响应式布局和灵活的元素排列。 当使用 display: flex; 将元素容器设置为弹性布局时&#xff0c;子元素会自动填充容器&#xff0c;并根据容器的宽度进行调…

python实现磨皮效果

主要是借鉴了这个文章&#xff0c;写的非常棒&#xff0c;会比直接使用保边滤波好很多&#xff0c;能够高保真&#xff0c;不会糊掉。 我使用python简单的实现了一下&#xff0c;看起来还不错 import time import numpy as np import cv2def mopi(src):high_pass src.copy()…

【Docker】Docker运行时间长,空间不足no space left on device: unknown

空间不足no space left on device: unknown问题解决 1.执行出错2.解决方法3.dump文件是否可以删除 1.执行出错 在运行 docker restart 容器Id查看磁盘空间占用 df -h2.解决方法 这个问题是由与 /run 的空间使用完了&#xff0c;清理/run的空间,经过查找使用最大的是 /run/u…

Linux 情景分析

系列文章目录 Linux 内核设计与实现 深入理解 Linux 内核 Linux 设备驱动程序 Linux设备驱动开发详解 深入理解Linux虚拟内存管理 Linux 情景分析 文章目录 系列文章目录一、存储管理1、外部设备存储空间的地址映射&#xff08;1&#xff09;ioremap&#xff08;2&#xff09;g…

力扣 513. 找树左下角的值

题目来源&#xff1a;https://leetcode.cn/problems/find-bottom-left-tree-value/description/ C题解1&#xff1a;是寻找最底层最左边的节点&#xff0c;不是最底层的左子树节点&#xff01; &#xff01; 使用层序遍历&#xff0c;判断左右子树是不是叶子节点&#xff0c;进…

snmp_exporter监控交换机网络流量

一.背景与需求 最近收到机房账单多出了将近70M下行带宽&#xff0c;多交了8K多的费用&#xff0c;很是蛋疼。IDC机房使用每月保底带宽模式, 例如保底100M带宽/月&#xff0c;如果利用955计费方式&#xff0c;没超出100M则只收机柜和保底带宽的费用&#xff0c;如果超出1M则按照…

资本和技术的两个死结

技术与资本的两个死结 资本从一开始就俘获了技术 没有资本主义 就没有科学和技术 以前肯定是科技的崇拜者 现在多了一个视角 趣讲大白话&#xff1a;自己给自己挖坟 【趣讲信息科技210期】 **************************** 搞科学的看不起搞技术的 科学和技术确实是两码事 但最后…

LabVIEW里计算当前时间起前几个月的时间段

在查询数据时&#xff0c;可能会用到从某个时间开始&#xff0c;前几个月的数据&#xff0c;这时就需要计算出查询的历史时间&#xff0c;该如何计算呢&#xff1f;如图&#xff1a; 注意点&#xff1a; 1、日应该是当前日期的后一天。 2、当前的月数与历史的月数相等时的处置…

使用shiro框架进行认证拦截

01.需要添加依赖 在springboot项目中&#xff0c;使用shiro框架需要在pom.xml文件中去添加依赖&#xff1a; org.apache.shiro shiro-spring 1.4.1 02.shiro核心对象配置 这里需要配置一个配置类&#xff0c;使用的注解是Configuration&#xff0c;这表示修饰的类会有多个注…

Nacos集群版本升级2.2.3

官方传送 官方文档传送门 记录日期 2023-06-28 背景简介 当前Nacos版本为2.1.0&#xff0c;集群部署与官方文档一致&#xff0c;通过阿里云负载均衡SLB服务挂载3台ECS提供服务&#xff0c;如图&#xff1a; 近期有漏洞Nacos 内网集群Raft 反序列化漏洞披露。 影响版本 …

leecode-寻找重复数字

题目 题目 分析 哇哦&#xff0c;原来vector可以这样初始化&#xff0c;学到了&#xff01;&#xff01; 不初始化会直接报错嘞&#xff01; 代码 class Solution { public:int findDuplicate(vector<int>& nums) {vector<bool> v(nums.size(),false);//…

解决vue3+vite项目中引入mockjs失败的问题--无法找到模块“mockjs”的声明文件

看到上面报错&#xff0c;根据提示 修改声明方式 declare module mockjs 我们修改一下引入的声明&#xff0c;发现修改之后仍然报错&#xff1b; 解决方法&#xff1a; 需要在vite-env.d.ts文件中&#xff0c;添加 declare module mockjs&#xff0c;保存即可 然后就可以正常使…

CI/CD持续测试的未来...

如果您想知道为什么持续测试如此重要&#xff0c;请考虑以下几点&#xff1a;在过去&#xff0c;软件测试通常是在编写代码并发送给 QA 部门进行独立测试之后进行的。当发现错误时&#xff0c;代码将返回给开发人员进行更正。虽然这种测试方法有效&#xff0c;但非常耗时。如今…

Java的||或者是什么意思?

1.|| a||b 短路或 ab 全为 false 时&#xff0c;计算结果为 false&#xff0c;否则为 true。 2<1||3>4 false 具体解释就是&#xff1a;||表示或&#xff0c;只要有一个为true&#xff0c;结果就为true&#xff0c;两个为false结果才为false 2.&& a&&b 短…

【算法题】动态规划基础阶段之三步问题、 连续数列、按摩师

动态规划基础阶段 前言一、三步问题1.1、思路1.2、代码实现 二、 连续数列2.1、思路2.2、代码实现 三、按摩师3.1、思路3.2、代码实现 总结 前言 动态规划&#xff08;Dynamic Programming&#xff0c;简称 DP&#xff09;是一种解决多阶段决策过程最优化问题的方法。它是一种…

python spider 爬虫 之 scrapy框架 企业级

Scrapy定义 它是一个为了爬取网站的数据&#xff0c;提取结构性数据而编写的应用框架。可以应用在包括数据挖掘信息处理或存储历史数据等一系列的程序中 Scrapy 安装 pip install scrapy 安装过程中可能出现的错误&#xff1a; 报错1&#xff1a;building ‘twisted.test.r…