Preference-Based Learning

Thomas: Learning to Explore Human Preference via Probabilistic Reward Model

Recent breakthroughs in large language models and multimodal models underscore the impressive strides deep learning has made in …

Sang T. Truong, Duc Q. Nguyen, Tho Quan, Sanmi Koyejo