강화학습을 위한 마르코프 결정 과정(MDP)과 벨만 기대 방정식

이번 글은 ‘파이썬과 케라스로 배우는 강화학습’ 책과 여러 포스트를 참고하여 강화학습의 기초가 되는 Markov Decision Process(MDP, 마르코프 결정 과정)와 Bellman 기대 방정식에 대해 정리한 내용을 담고 있다.



강화학습은 좋은 행동을 점점 더 많이 하게 하는 것 즉, 강화의 개념을 컴퓨터 학습에 적용시킨 것이다. 어떠한 환경 내에 주어진 에이전트(컴퓨터)는 현재 자신의 상태를 인식하여 선택 가능한 행동들 중에서 보상을 최대화하는 행동 혹은 적절한 행동 순서를 스스로 선택한다. 이를 통해 최적의 행동 방식 또는 정책을 찾아가는 것이 강화학습의 목적이라고 할 수 있다.

컴퓨터에게 어떤 문제를 풀게 하기 위해서는 해당 문제를 수학적으로 정의해야 하는데 일반적으로 강화학습이 풀고자 하는 순차적 행동 결정 문제는 MDP로 정의할 수 있다.



Markov Decision Process (MDP, 마르코프 결정 과정)

MDP는 순차적으로 행동을 결정해야 하는 문제를 풀기 위해 수학적으로 표현한 것으로, [그림 1]과 같이 상태, 행동, 상태 변환 확률, 보상 함수 그리고 감가율까지 총 5개의 요소들로 이루어져 있다.



[그림 1] 마르코프 결정 과정(MDP)의 구성 요소



자세히 보기

Machine Learning의 용어와 개념



머신러닝


  • Limitations of explicit programming(일반적인 소프트웨어)을 해결하고자 연구한 방법

  • 프로그램이지만 개발자가 일일이 어떤 현상에 대해 정하지 않고 프로그램 자체가 직접 데이터를 학습하는 능력을 갖게 하는 것



Supervised vs Unsupervised


  • Supervised: Learning with labeled examples (이미 있는 데이터를 제공하여 학습)

  • Unsupervised: Un-labeled data (미리 데이터를 정해주기 어려운 경우)



자세히 보기