工作进入第八年，还在成长的一年

news2025/4/16 19:15:05

这一年没有写太多的技术博客，是因为工作内容发生了较大的改变，岗位也发生了调整。随着ChatGPT的爆火，无论从公司的领导层，还是从现场的用户，人工智能算是被彻底颠覆了，每个人对生成式人工智能的期待太高，胃口也被吊的太高。无论什么会议，哪怕一个技术讨论会，都会提ChatGPT。各种奇奇怪怪的需求层出不穷，搞得我这个门外汉一头雾水、抓痒挠腮。

既然入了人工智能的部门，没办法，只能按着领导的要求去研究。从最初的ChatGLM到Llama、Baichuan，再到现在的ChatGLM4,大模型的发展真的是日新月异，百花齐放。从6月份开始，集团成立了柔性的大模型研究小组，由公司副经理级别领导牵头（公司的副经理是副处级干部，虽然没有行政职位，但相当于一个县城的副县长，也终于让我体会到了一些人的阿谀奉承、溜须拍马），一开始2个月时间，还是在写汇报PPT，真的是各种PPT，集团领导的，总部领导的，两周一汇报，每次汇报都要加三四天的班，甚至有的时候要到凌晨两三点。对于一直奋战在一线写代码的我，这一次真的对写文档和汇报PPT有了新的认知和了解，其他同事真的是各种PPT模板，各种贴图，而我啥也没有，各种图都要自己去找和画，自己画出来的还非常丑，没有效果，甚至我的思路都是不清晰的。领导看在眼里，旁敲侧击的提了一些要求，虽然她没点我名，但我知道她说的是我。

有了6、7月份的初步探索，研究了模型的各种微调方式，但始终达不到满意的效果。到了8月份，开始走出去交流，先后找了阿里、华为、百度做了关于大模型构建的交流，其中给我印象最深刻的阿里，真佩服达摩院的技术研发能力，也明白了大模型的构建流程和效果。这里先列一些观点：

模型的微调并不能使模型能够很好的学习专业领域知识，模型的泛化能力并不会得到较好的扩展；
模型的思维链在参数量至少百亿级以上才能体现，在预训练阶段形成；
模型的微调效果仅对训练集数据有较好的效果；

基于上面的交流结果，领导意识到通用的开源大模型并不能满足具体的业务需求，所以开始思考大模型的整套构建流程，包括预训练、增量训练、微调、强化学习等。后来，领导决定先建立算力中心，小组就被拆成了2个部分，在很短的时间内，就完成了148张A800的采购，不得不佩服领导的决断力和眼界，因为后来美国发布了禁售令。当时大家都在开玩笑，做个中间商，这一批躺着赚钱啊。集团也开始扩充研究小组的人员，开展长期集中办公，由于我个人原因，想退出这个小组，结果惹的大领导一顿发火，最终，我的部门领导带着我和新补充的小伙子登门道歉解释。

在参与大模型研究小组工作的同时，部门另外一个图像组惹出了一些事情，部门同事对图形工作根本没有任何规划和想法，导致很多工作毫无进展，公司大领导又非常重视，无奈之下，领导让我过来做管理，把具体事情细化，要求件件有着落，就这样，我又被推进了图像组。这里真的要吐槽下在国企里躺平的一些人，有一件事从3月份就开始分配给一个人，直到10月份，快比赛的时候，一点事情没做，找一大堆理由和借口，害的我临时救急，拉着一帮小弟通宵干活，最后并没有好的结果，我只能说我尽力了。

这一年的工作难而杂，但我从中也学到了很多。比如如何和领导打交道，如何写汇报PPT,如何写汇报文档，技术能力上或许没有太大的提升，但文档能力有了一定的提高，也是一种经历，希望自己下一年再接再厉，也给出一点建议吧。

和大领导打交道，少说话，多做事。
和并不熟的合作关系同事打交道，分工明确，该拒绝拒绝。
和自己的直属领导打交道，把事情做好，不给领导惹麻烦，能解决的事情尽量自己解决。
工作上一定要自己有规划，能力其次，态度第一。
提升自己的文档能力和写文档的逻辑能力。

上面总结了工作，下面总结下生活。这一年主要的生活内容就是陪闺女成长，带她到处玩，陪她去了5次动物园，记不清次数的游乐场，当然还有几乎每月必去一次医院。带她去了杭州西湖、千岛湖、北京，她开心的不得了，本来计划在去趟上海，结果她又感冒了。我自己和同事去爬了趟黄山，可惜两天都大雨，幸运的是看到了极美的日落。对了，今年参加了一次半马，集团的篮球赛也获得了冠军。接下来的一年，也给自己定了几个目标，希望可以实现。