일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- heapq
- 프로세스
- 연결리스트
- 알고리즘
- 최소힙
- JVM
- 이분탐색이란
- 힙트리
- JPA
- Kruskal
- 백준장학금
- 백준 장학금
- SpringSecurity
- MSA
- jpa n+1 문제
- 강화학습
- 연결리스트 종류
- 점근적 표기법
- AVL트리
- 엔티티 그래프
- 최대 힙
- python
- 자료구조
- 완전이진트리
- 스케줄링
- HTTP
- 운영체제
- spring
- 멀티프로세서
- posix
- Today
- Total
목록강화학습 (4)
KKanging

Preview(이때까지 배운 것들)해결하고 싶은 문제의 도메인을 MDP 형식에 맞게 문제를 정의하는 법을 배웠다.벨만 기대 방정식과 벨만 최적 방정식을 이용하여 해당 상태와 행동에 대한 가치를 구할 수 있었다.MDP를 알고 문제의 size가 작은 문제를 해결하는 방법을 배웠다.벨류 평가하기 - 반복적 정책 평가최고의 정책 찾기정책 이터레이션벨류 이터레이션MDP를 알 때의 플래닝은 벨만 방정식 2단계를 사용해서 구할 수 있었다.MDP를 모를 때 밸류 평가하기모델 프리란MDP를 모른다는 것은 정확하게 보상함수와 전이 확률을 모른다는 의미이다. 이런 상황을 모델 프리라고 한다. -> 여기서 모델은 Agent 가 행동을 했을 때 환경이 어떻게 응답할지 알려주는 모든 것을 의미하는 model of environm..

Introduction이번 장은 다음과 같은 상황에서의 문제를 해결한다.작은 문제MDP를 알 때이처럼 MDP 에 대한 모든 정보를 알 때 이를 이용하여 정책을 개선해 나가는 과정을 넓게 가리켜 플래닝이라 한다.위와 같이 가장 쉬운 설정에서 정책(파이)가 주어졌을 때 각 상태의 밸류를 평가하는 Prediction 문제최적의 정책 함수를 찾는 Control 문제를 푸는 방법론에 대해 다룬다.내용은 주로 테이블 기반 방법론에 기반한다. 테이블 기반 방법론이란 모든 상태 s 혹은 상태와 액션의 페어(s,a)에 대한 테이블을 만들어서 값을 기록해 놓고 , 그 값을 조금씩 업데이트하는 방식을 의미한다. 작은 문제에서만 적용 가능하다. 4.1 벨류 평가하기 - 반복적 정책 평가(Prediction)가정MDP를 알 때..

벨만 방정식이란?2장에서 MDP 를 설계하는 방법을 배우고 다음이 강화학습의 목적이란 것을 배웠다. S : 상태의 집합 A : 는 액션의 집합 P : 어떤 상태 St 에서 a 행동을 했을 때 다음 상태 St+1로 전이할 전이 확률 행렬 R : MDP에서는 해당 s 에서 특정 행동 a를 했을 때의 보상 함수. 감쇠 인자 감마 정책 함수 : 어떤 상태 s에서 취할 수 있는 액션 중 어떤 액션을 선택할지 정해주는 함수 강화학습은 최종 보상을 최적화 하는 정책함수를 찾는 것이다. 정책함수를 찾기 위해서는 주어진 정책함수에서 상태별 벨류를 찾아야 한다. 벨류를 계산한다는 건 벨만 방정식을 이용해서 구한다로 변경해도 된다. 벨만 방정식이 무엇인지 알아보자 3.1 벨만 기대 방정식0 단계상태(St)에 대한 벨류..

1. 지도학습과 강화학습지도학습과 강화학습을 설명하는 예시이다.자전거 학습을 하는 어린이로 예를 들자면지도학습은 아버지가 자전거를 타는법을 지도해주는 것과 같고,강화학습은 혼자서 자전거를 넘어지기도 하면서 배우는 학습과 같다.즉 강화학습은 시행착오 (Trial & Error)를 통한 학습이라고 생각하면 된다.머신러닝/딥러닝과 달리 데이터가 많이 필요하지 않고,스스로 데이터를 만들어내는 효과ex)구글 딥 마인드 - 알파고, 눈스캔 질병 진단주식 트레이딩 봇 .. 등등더 자세한 지도학습과 강화학습 설명지도학습은 정답이 주어진 학습데이터(training data) 를 통해서 학습을 한다학습데이터의 정답을 추출하기 위해서 feature를 부여하고 학습을 한다요즘은 딥러닝이라는..