3.2.1 RL基础概念
3.2.2 RLHF流程

3.2.3 PPO算法

3.2.4 LLM对齐中的RLHF+PPO