总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
Safe RLHF: Safe Reinforcement Learning from Human Feedback
安全 RLHF:通过人类反馈进行安全强化学习
https://arxiv.org/pdf/2310.12773
https://github.com/PKU-Alignment/safe-rlhf
https://www.doubao.com/chat/3556303170287106
文章目录
- 速览
- 论文阅读
-
- Abstract(摘要)
- 1 Introduction(引言)
- 5 Related Works(相关工作)
- 6 Limitations and Future Work(局限性与未来工作)
- 7 Ethic Discussion(伦理讨论)
- 8 Conclusion(结论)
- 论文内容翻译
-
- 摘要
- 1 引言
- 2 预备知识
- 3 方法:安全RLHF
-
- 3.1 无害性和有用性的人类偏好
- 3.2 偏好模型拟合:奖励模型和成本模型
- 3.3 安全强化学习
- 5 相关工作
速览
- 研究动机:大语言模型发展中,平衡性能与安全至关重要,现有方法在平衡有用和无害性上存在挑战。
- 研究问题:如何设计算法平衡大语言模型有用性和无害性