加载中...

无标题

发表于2025-06-19|更新于2025-06-19

|总字数:29|阅读时长:1分钟|浏览量:

3.2.1 RL基础概念
3.2.2 RLHF流程

3.2.3 PPO算法

3.2.4 LLM对齐中的RLHF+PPO

文章作者: KK

文章链接: https://kkblog.top/2025/06/19/%E5%A4%A7%E6%A8%A1%E5%9E%8B/3.Post-training%E6%A8%A1%E5%9E%8B%E5%90%8E%E8%AE%AD%E7%BB%83/3.2%20RLHF%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源一只大笨熊！

评论