十分钟揭秘DeepSeek原理,通俗易懂的大语言模型科普!_哔哩哔哩_bilibili
最基础原理,x是输入,y是输出。上百万和上百亿的参数
将一句话转化为数字向量
一句话就是向量矩阵
输入矩阵和参数矩阵进行计算得出输出矩阵,因为是并行计算,显卡的重要性大于cpu.
两个向量之间越接近,这两个词意思越接近
再反向返回误差,微调模型参数,使误差越来越小
训练三步骤,好的分数高,低的分数低,为追求高分数,越来越聪明。和婴儿的成长学会说话的训练差不多。
十分钟揭秘DeepSeek原理,通俗易懂的大语言模型科普!_哔哩哔哩_bilibili
最基础原理,x是输入,y是输出。上百万和上百亿的参数
将一句话转化为数字向量
一句话就是向量矩阵
输入矩阵和参数矩阵进行计算得出输出矩阵,因为是并行计算,显卡的重要性大于cpu.
两个向量之间越接近,这两个词意思越接近
再反向返回误差,微调模型参数,使误差越来越小
训练三步骤,好的分数高,低的分数低,为追求高分数,越来越聪明。和婴儿的成长学会说话的训练差不多。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2325284.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!