Sügav õppimine tugevduste abil. AlphaGo ja teised tehnoloogiad
See raamat on põhjalik juhend uusimate sügava õppimise tugevduste tööriistade ja nende piirangute kohta. Me rakendame ja testime praktikas rist-entropia ja väärtuste iteratsioonide (Q-learning) meetodeid, samuti strateegiate gradientide meetodeid. Katsetamiseks kasutatakse erinevaid tugevdusõppe keskkondi (RL), alates klassikalistest CartPole ja GridWorld...
ning lõpetades Atari emulaatorite ja pideva juhtimise keskkondadega (PyBulleti ja RoboSchooli põhjal). Paljud näited põhinevad mittetraditsioonilistes keskkondades, kus me loome keskkonna mudeli nullist. selles raamatus - Sa õpid, millist kohta RL meetodid sügava õppimise kontekstis võtavad, rakendad keerulisi sügava õppimise mudeleid. - Uuri RL aluseid: Markovi otsustusprotsessid. - Vaata RL meetodite rakendamise näiteid: rist-entropia meetod, DQN, A3C, TRPO, PPO, DDPG, D4PG ja teised. - Uuri, kuidas töötada diskreetsete ja pidevate tegevuste ruumidega erinevates keskkondades. - Näe, kuidas välja töötada süsteem, mis õpib Atari mänge, kasutades tugevdusõpet. - Loo oma keskkond OpenAI Gym mudelil börsiagendi koolitamiseks. - Rakenda AlphaGo Zero meetod Connect4 mängimiseks. - Tutvu RL rakendamisega kõne töötlemises: õpid, kuidas koolitada dialooge suudlevat roboti filmide fraaside abil.
See raamat on põhjalik juhend uusimate sügava õppimise tugevduste tööriistade ja nende piirangute kohta. Me rakendame ja testime praktikas rist-entropia ja väärtuste iteratsioonide (Q-learning) meetodeid, samuti strateegiate gradientide meetodeid. Katsetamiseks kasutatakse erinevaid tugevdusõppe keskkondi (RL), alates klassikalistest CartPole ja GridWorld ning lõpetades Atari emulaatorite ja pideva juhtimise keskkondadega (PyBulleti ja RoboSchooli põhjal). Paljud näited põhinevad mittetraditsioonilistes keskkondades, kus me loome keskkonna mudeli nullist. selles raamatus - Sa õpid, millist kohta RL meetodid sügava õppimise kontekstis võtavad, rakendad keerulisi sügava õppimise mudeleid. - Uuri RL aluseid: Markovi otsustusprotsessid. - Vaata RL meetodite rakendamise näiteid: rist-entropia meetod, DQN, A3C, TRPO, PPO, DDPG, D4PG ja teised. - Uuri, kuidas töötada diskreetsete ja pidevate tegevuste ruumidega erinevates keskkondades. - Näe, kuidas välja töötada süsteem, mis õpib Atari mänge, kasutades tugevdusõpet. - Loo oma keskkond OpenAI Gym mudelil börsiagendi koolitamiseks. - Rakenda AlphaGo Zero meetod Connect4 mängimiseks. - Tutvu RL rakendamisega kõne töötlemises: õpid, kuidas koolitada dialooge suudlevat roboti filmide fraaside abil.