pit模型是哪里的

时间：2025-03-04 08:49:08 明星奇闻

PIT模型是由 伊利诺伊大学厄巴纳-香槟分校和Google的研究人员提出的，被称为“Implicit Self-Improvement （PIT） framework”。这个框架的核心思想是利用人类偏好数据来训练奖励模型，而无需明确的评分标准。与传统的强化学习从人类反馈（RLHF）中最大化响应质量不同，PIT旨在最大化响应与参考响应之间的质量差距，更好地与人类偏好一致。