[RL] 행위자, 환경, gym, 수익, 가치, 보상, 이득

    728x90
    반응형

    모형 붕괴

    - 모형에서 생성한 데이터를 다시 모형에 입력

    -  원래 데이터의 분포와 다른 분포로 수렴(+분산의 감소)

    -  원인 :
       생성된 데이터의 크기가 유한하여 확률이 낮은 사례가 누락

       모형이 표현하지 못하는 정보가 상실

       학습 과정에서 오류

     

     

    강화학습(Reinforcement Learning)

    - 행위자는 환경과 상호작용

    - 행위자의 행동에 따라 보상이 주어짐

    - 행위자는 현재 상태에서 앞으로 수익이 가장 큰 행동을 내는 정책을 찾아야함

     

    강화학습 예시

    - 게임 인공지능 : 게임 환경에서 스스로 학습하여 최적의 전략을 수행

    - 로봇 제어 : 로봇이 다양한 환경에서 최적의 행동을 학습

    - 자율 주행 : 자율 주행 차량이 주행 상황에 맞춰 최적의 경로를 선택

     

    지도 학습과 강화학습의 차이

    1) 지도학습

    - X에서 Y를 예측하는 문제

    - X와 Y가 모두 있는 데이터가 필요

    - Y에 대한 예측 오차를 줄이는 것이 목표

      ex. 이메일 내용 → 스팸 여부

     

    2) 강화학습

    - 데이터 대신 직접 시행 착오

    - 행동으로 인한 보상을 최대화하는 것이 목표

    - 바둑) 현재 상황에서 다음 수를 시행착오를 통해 학습

    - 투자) 기업의 정보에서 매수/매도/보유를 시행착오를 통해 학습

    -  AI가 알잘딱으로 해줌

    - 굉장히 많은 시행착오가 필요(물리적 시행이 어려움)

      알파고(바둑), ChatGPT(언어), 물리적 환경이 필요한 경우 시뮬레이션으로 대체

    - 보상/처벌을 어떻게 줄까?

     

    행위자와 환경

    강화학습을 구성하는 두개의 주요 구성요소

    1) 행위자(agent)

    - 결정을 내리는 주체

    - 문제에 대한 답을 제공

    - 행동을 통해서 환경에 영향

     

    2) 환경(environment)

    - 문제를 대표

    - 행위자의 행동에 반응

     

    행위자와 환경의 예시

    1) 주식투자

    - 행위자 : 투자자

    - 환경 : 주식 시장, 다른 투자자, 정치경제적 조건 등

    - 행동 : 매수, 매도 보유 등

     

    2) 운전

    - 행위자 : 운전자

    - 환경 : 도로, 날씨, 다른 운전자, 교통 상황 등

    - 행동 : 전진, 후진, 좌회전, 우회전, 유턴, 가속, 감속 등

     

    행위자

    - 상호작용을 통해 데이터를 수집

    - 현재 취하고 있는 행동을 평가

    - 성능을 개선

     

    행위자의 학습의 특성

    - 시행착오를 통해 학습

    - 보상 피드백의 특성

    1) 순차적(sequential) : 자료가 한방에 주어지지 않음 + 행동에 대한 보상이 여러 스텝 뒤에 나타날 수 있음

    2) 평가적(evaluative) : 좋은 행동인지는 알 수 있으나, 옳은 행동인지는 알 수 없음(지도 학습에는 정답이 제공됨)

    3) 표본 추출된(sampled) : 모든 상태와 행동을 다 해볼 수는 없음. 그 부분 집합인 표본만 접근 가능

     

    환경

    - 행위자를 둘러싼 모든 것

    -  문제와 관련된 변수들의 집합을 가짐

    -  상태 공간(state space): 변수들의 모든 값의 조합

    -  관찰: 행위자가 특정 시점에 얻을 수 있는 변수들의 집합

    -  관찰 공간: 관찰할 수 있는 변수들의 모든 값의 조합

    -  행동 공간: 행위자가 취할 수 있는 모든 상태의 집합

     

    gymnasium(gym)

    gym : 오픈AI가 개발한 강화학습 환경을 위한 라이브러리

    # gymnasium 설치 a.k.a. gym
    # !pip install gymnasium

     

     

    할인(discounting)

    동일한 보상이라도 나중에 받는 것보다 먼저 받는 것이 나음

    할인율(discount factor) : 한 스텝마다 할인하는 비율

    수익을 계산할 때도 할인을 적용

     

    긴급성

    할인은 긴급성에 대한 정보를 제공

    할인을 적게할 경우(감마가 클 경우) : 현재와 미래의 보상에 큰 차이가 없음 → 언제 해도 상관없음

    할인을 많이 할 경우(감마가 작을 경우) : 현재와 미래의 보상의 차이가 큼   보상을 빨리 얻는 것이 유리

    보상을 빨리 받는쪽을 선호하게 하려면 할인률을 많이하면 (할인률을 낮추는 것)된다. 

     

    수익(return)

     

     

    가치(value)

    기대하는 수익(=여러번의 수익의 평균)

    - 상태 가치: 현재 상태의 가치(앞으로 펼쳐질 모든 미래의 수익의 평균)

    - 행동가치: 현재 상태에서 내가 특정 행동을 할 때 가치

    - 상태 가치 = 정책(행동별 확률) * 행동가치

     

    보상(reward)

    action에 바로 직접 따라오는 것(매 step마다)

     

    이득(advantage)

    행동가치 - 상태가치

    Day1.ipynb
    0.06MB

    728x90
    반응형

    댓글