加载中...
文章
60
标签
31
分类
16
首页
分类
标签
归档
关于
一只大笨熊
一只大笨熊
搜索
首页
分类
标签
归档
关于
无标题
发表于
2025-06-19
|
更新于
2025-06-19
|
总字数:
29
|
阅读时长:
1分钟
|
浏览量:
3.2.1 RL基础概念
3.2.2 RLHF流程
3.2.3 PPO算法
3.2.4 LLM对齐中的RLHF+PPO
文章作者:
KK
文章链接:
https://kkblog.top/2025/06/19/%E5%A4%A7%E6%A8%A1%E5%9E%8B/3.Post-training%E6%A8%A1%E5%9E%8B%E5%90%8E%E8%AE%AD%E7%BB%83/3.2%20RLHF%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
版权声明:
本博客所有文章除特别声明外,均采用
CC BY-NC-SA 4.0
许可协议。转载请注明来源
一只大笨熊
!
评论
KK
做一名工程实践能力强的算法工程师
文章
60
标签
31
分类
16
关注
公告
记录一些有趣的人或事
最新文章
Linux面试八股文
2025-06-19
无标题
2025-06-19
无标题
2025-06-19
无标题
2025-06-19
无标题
2025-06-19
搜索