-
Q-러닝(Q-Learning): 강화 학습의 핵심 알고리즘
1. Q-러닝이란? Q-러닝은 강화 학습(Reinforcement Learning)의 대표적인 알고리즘으로, **에이전트(Agent)**가 환경(Environment)과 상호작용하며 최적의 행동(Action)을 학습하는 기법입니다. Q-러닝은 모델 프리(Model-Free) 알고리즘으로, 환경의 **모델(전이 확률 및 보상 함수)**을 사전에 알 필요 없이 학습할 수 있습니다. 1.1 목표 Q-러닝의 목표는 **최적의 정책(Policy)**을 학습하는 것입니다. 2. Q-러닝의 작동 원리 Q-러닝은 Q함수를 기반으로 학습합니다. Q함수는 상태(State)와 행동(Action)의 조합에 대해 미래의 보상…