Reinforcement Learning

AbsoluteZero: Reinforced Self-play Reasoning with Zero Data

A seminar for discussing the recent AbsoluteZero paper.

May 31, 2025 2:00 PM — 3:30 PM Google Meet

Duc Q. Nguyen

AbsoluteZero: Reinforced Self-play Reasoning with Zero Data

Thomas: Learning to Explore Human Preference via Probabilistic Reward Model

Recent breakthroughs in large language models and multimodal models underscore the impressive strides deep learning has made in …

Sang T. Truong, Duc Q. Nguyen, Tho Quan, Sanmi Koyejo