Analiza algorytmów uczenia przez wzmacnianie z zaimplementowanym algorytmem PPO (Proximal Policy Optimization)

Złotorowicz, Maciej

Analiza algorytmów uczenia przez wzmacnianie z zaimplementowanym algorytmem PPO (Proximal Policy Optimization)

Authors:

Maciej Złotorowicz

Abstract

W artykule dokonano szczegółowej analizy zagadnienia uczenia przez wzmacnianie (ang. Reinforcement Learning, RL) oraz jego praktycznych zastosowań, koncentrując się na kluczowych aspektach tego podejścia. Omówiono skuteczność algorytmów RL oraz wyzwania, z którymi się one zmagają. Następnie przedstawiono zrozumiałe wyjaśnienie mechanizmu działania tych algorytmów, uwzględniając koncepcje agenta, środowiska, stanów, akcji i nagród, a także ich główne cele. W pracy dokonano krótkiego porównania między uczeniem przez wzmacnianie a klasycznymi metodami uczenia maszynowego. Przedstawiono również osiągnięcia algorytmów RL, przywołując przykłady, takie jak współpraca i rywalizacja wielu agentów w kontekście OpenAI's hide-and-seek oraz wielkoskalowe uczenie modelu w przypadku DeepMind AlphaStar. Podkreślono znaczenie tych osiągnięć dla rozwoju RL oraz zdolność tych algorytmów do pokonywania różnorodnych wyzwań. Następnie przedstawiono kilka praktycznych przykładów z autorskiego doświadczenia, ilustrując realne zastosowania RL. Celem całości jest dostarczenie zrozumiałego i interesującego spojrzenia na potencjał oraz wyzwania związane z uczeniem przez wzmacnianie. Zwrócono uwagę, że głównym celem RL jest maksymalizacja nagród, a skutkiem tego procesu jest nie tylko opanowanie konkretnych ruchów, lecz także opracowanie strategii w interakcji ze środowiskiem. Praca ta stanowi wkład w poszerzenie wiedzy na temat RL oraz inspiruje do dalszych badań nad jego zastosowaniami i rozwojem.

Record ID

CUTb91a6b74ee7b4b5bae4c4367cfdb0489

Publication categories

scientific article/chapter; reviewed work; abstract

Author

Maciej Złotorowicz

Other contributor

Grzegorz Nowakowski - research tutor

Pages

61

Other elements of collation

Bibliografia (na s.) - 61

Substantive notes

Tyt. źródła częśc. wg okł.
Inf. na s. tyt. źródła: Materiały Ogólnopolskiej Konferencji Młodych Naukowców nt.: Nowe Wyzwania Dla Polskiej Nauki, 9-17.12.2023 Centrum konferencji: Kraków
Wydanie elektroniczne do czasowego pobrania ze strony www. creativetime.pl

Book

Kuczera Marcin (eds.): Nowe Wyzwania Dla Polskiej Nauki edycja XIV : materiały konferencyjne : streszczenia wystąpień, Ogólnopolska Konferencja Młodych Naukowców, 9-17.12.2023, 2023, Kraków, CREATIVETIME, ISBN 978-83-66772-31-1

Keywords in Polish

uczenie przez wzmacnianie, reinforcement learning, PPO, proximal policy optimization

URL

https://www.creativetime.pl/wydawca.html

Language

pol (pl) Polish

Score (nominal)

0

Cite

Uniform Resource Identifier: https://cris.pk.edu.pl/info/article/CUTb91a6b74ee7b4b5bae4c4367cfdb0489/

URN: urn:pkr-prod:CUTb91a6b74ee7b4b5bae4c4367cfdb0489

* presented citation count is obtained through Internet information analysis, and it is close to the number calculated by the Publish or PerishOpening in a new tab system.

Back

Knowledge base: Cracow University of Technology

Settings and your account