PIT模型是由 伊利诺伊大学厄巴纳-香槟分校和Google的研究人员提出的,被称为“Implicit Self-Improvement (PIT) framework”。这个框架的核心思想是利用人类偏好数据来训练奖励模型,而无需明确的评分标准。与传统的强化学习从人类反馈(RLHF)中最大化响应质量不同,PIT旨在最大化响应与参考响应之间的质量差距,更好地与人类偏好一致。