Zpětnovazební učení s využitím neuroevoluce

Deadline - 16. května 2024

Vyberte si pár (dvě až tři) prostředí z knihovny Gymnasium (tuto knihovnu jsme používali na druhých cvičeních) a vyřešte je za pomoci neuroevoluce. Vaším úkolem je tedy integrovat zpětnovazební učení a neuroevoluci a otestovat výsledek na zvolených prostředích.

Doporučuji vybrat některá prostředí z Classic Control nebo Toy Text skupin, ale pokud hledáte výzvu, můžete zkusit i některá prostředí ze skupiny Box2D nebo MuJoCo (např. prostředí LunarLander, Hopper a Swimmer by měla jít vyřešit, ale určitě nedoporučuji třeba prostředí Humanoid, či snad dokonce Humanoid Standup).

Co se volby algoritmu týče, můžete vyzkoušet NEAT (nebo libovolný podobný algoritmus, o kterém se někde dočtete), nebo klidně i jen vyvíjet vektor vah fixní topologie sítě, volba je na vás.

Řešení mi odevzdávejte mailem, ten by měl obsahovat:

  • Seznam prostředí, která jste vyzkoušeli
  • Popis algoritmu spolu s jeho nastavením (hyperparametry apod.)
  • Kód algoritmu pro případnou kontrolu
  • Grafy toho, jak se měnil výkon nejlepšího jedince v průběhu generací
  • (V - uznávám - nepravděpodobném případě, že byste se rozhodli vyzkoušet více přístupů, nezapomeňte poznamenat, kterých výsledků je dosaženo kterým algoritmem, a pochlubit se popisem a implementací všech těchto přístupů.)