Expert • Les 17

Reinforcement Learning voor robotica en spelomgevingen

Reinforcement Learning (RL) is het paradigma waarbij een agent leert door interactie met een omgeving: acties ondernemen, beloningen ontvangen en beleid verbeteren via trial-and-error. Van het meesterlijk spelen van Go tot het aansturen van robotarmen: RL produceert indrukwekkende resultaten in complexe taken.

Model-free versus model-based RL

Model-free RL (Q-learning, PPO, SAC) leert direct een beleid of Q-functie uit ervaring, zonder een expliciete omgevingsmodel. Model-based RL (Dreamer, MuZero) leert een intern model van de omgeving en plant daarmee vooruit. Model-based methoden zijn doorgaans sample-efficiënter maar vereisen een accuraat omgevingsmodel.

Proximal Policy Optimization (PPO)

PPO is de meest gebruikte policy gradient-methode voor praktische RL-toepassingen, inclusief RLHF voor taalmodellen. Het optimaliseert een geknipt surrogate-doelstelling die te grote beleidsveranderingen voorkomt (vandaar “proximal”). PPO balanceert stabiele training met goede sample-efficiëntie en is robuust over hyperparameter-keuzes.

AlphaZero en zelfspel

DeepMind’s AlphaZero leert perfect spelen van schaak, shogi en Go door puur zelfspel zonder menselijke kennis, gecombineerd met Monte Carlo Tree Search en een diep neuraal netwerk. De representatie van de spelstatus wordt volledig geleerd. AlphaZero bereikte superhumane prestaties in alle drie spellen na slechts enkele uren training op gespecialiseerde hardware.

RL voor robotica

RL in de echte wereld is lastiger: sparse beloningen, gevaarlijke exploratie en distributional shift tussen simulatie en realiteit (sim-to-real gap). Domain randomization (het variëren van simulatieparameters) en imitation learning (voor-trainen op menselijke demonstraties) zijn veelgebruikte technieken om de sim-to-real gap te overbruggen.