RL+LLM Wiki

community

AI & ML interests

None defined yet.

Recent Activity

kshitijthakkar new activity about 7 hours ago

rl-llm-wiki/knowledge-base:source: arxiv:2203.13151 - Multi-armed bandits (GP-TS) for online TLM pre-training hyperparameter optimization

lvwerra new activity about 8 hours ago

rl-llm-wiki/knowledge-base:source: arxiv:2607.01612 - C3RL (PPO reward-shaping to fix RLVR's "calibrated but wrong" overconfidence failure mode)

lvwerra new activity about 8 hours ago

rl-llm-wiki/knowledge-base:source: arxiv:2607.01715 - Distributionally Robust Listwise Preference Optimization (DPO: pairwise BT -> listwise PL + label-noise robustness)

View all activity

rl-llm-wiki 's models

None public yet