Data Efficiency

We propose a prototypical reward network that enables data-efficient reinforcement learning from human feedback (RLHF) for large language models....

Jan 1, 2024