Zpětnovazební učení s využitím neuroevoluce
Deadline - 16. května 2024
Vyberte si pár (dvě až tři) prostředí z knihovny Gymnasium (tuto knihovnu jsme používali na druhých cvičeních) a vyřešte je za pomoci neuroevoluce. Vaším úkolem je tedy integrovat zpětnovazební učení a neuroevoluci a otestovat výsledek na zvolených prostředích.
Doporučuji vybrat některá prostředí z Classic Control nebo Toy Text skupin, ale pokud hledáte výzvu, můžete zkusit i některá prostředí ze skupiny Box2D nebo MuJoCo (např. prostředí LunarLander, Hopper a Swimmer by měla jít vyřešit, ale určitě nedoporučuji třeba prostředí Humanoid, či snad dokonce Humanoid Standup).
Co se volby algoritmu týče, můžete vyzkoušet NEAT (nebo libovolný podobný algoritmus, o kterém se někde dočtete), nebo klidně i jen vyvíjet vektor vah fixní topologie sítě, volba je na vás.
Řešení mi odevzdávejte mailem, ten by měl obsahovat:
- Seznam prostředí, která jste vyzkoušeli
- Popis algoritmu spolu s jeho nastavením (hyperparametry apod.)
- Kód algoritmu pro případnou kontrolu
- Grafy toho, jak se měnil výkon nejlepšího jedince v průběhu generací
- (V - uznávám - nepravděpodobném případě, že byste se rozhodli vyzkoušet více přístupů, nezapomeňte poznamenat, kterých výsledků je dosaženo kterým algoritmem, a pochlubit se popisem a implementací všech těchto přístupů.)