일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- posix
- 멀티프로세서
- python
- AVL트리
- 연결리스트
- spring
- HTTP
- 강화학습
- JVM
- 프로세스
- 점근적 표기법
- 알고리즘
- heapq
- Kruskal
- jpa n+1 문제
- MSA
- 엔티티 그래프
- 최소힙
- 자료구조
- 스케줄링
- JPA
- 힙트리
- 백준 장학금
- 완전이진트리
- 운영체제
- 백준장학금
- 이분탐색이란
- 연결리스트 종류
- 최대 힙
- SpringSecurity
- Today
- Total
목록인공지능 (5)
KKanging

Preview(이때까지 배운 것들)해결하고 싶은 문제의 도메인을 MDP 형식에 맞게 문제를 정의하는 법을 배웠다.벨만 기대 방정식과 벨만 최적 방정식을 이용하여 해당 상태와 행동에 대한 가치를 구할 수 있었다.MDP를 알고 문제의 size가 작은 문제를 해결하는 방법을 배웠다.벨류 평가하기 - 반복적 정책 평가최고의 정책 찾기정책 이터레이션벨류 이터레이션MDP를 알 때의 플래닝은 벨만 방정식 2단계를 사용해서 구할 수 있었다.MDP를 모를 때 밸류 평가하기모델 프리란MDP를 모른다는 것은 정확하게 보상함수와 전이 확률을 모른다는 의미이다. 이런 상황을 모델 프리라고 한다. -> 여기서 모델은 Agent 가 행동을 했을 때 환경이 어떻게 응답할지 알려주는 모든 것을 의미하는 model of environm..

Introduction이번 장은 다음과 같은 상황에서의 문제를 해결한다.작은 문제MDP를 알 때이처럼 MDP 에 대한 모든 정보를 알 때 이를 이용하여 정책을 개선해 나가는 과정을 넓게 가리켜 플래닝이라 한다.위와 같이 가장 쉬운 설정에서 정책(파이)가 주어졌을 때 각 상태의 밸류를 평가하는 Prediction 문제최적의 정책 함수를 찾는 Control 문제를 푸는 방법론에 대해 다룬다.내용은 주로 테이블 기반 방법론에 기반한다. 테이블 기반 방법론이란 모든 상태 s 혹은 상태와 액션의 페어(s,a)에 대한 테이블을 만들어서 값을 기록해 놓고 , 그 값을 조금씩 업데이트하는 방식을 의미한다. 작은 문제에서만 적용 가능하다. 4.1 벨류 평가하기 - 반복적 정책 평가(Prediction)가정MDP를 알 때..

벨만 방정식이란?2장에서 MDP 를 설계하는 방법을 배우고 다음이 강화학습의 목적이란 것을 배웠다. S : 상태의 집합 A : 는 액션의 집합 P : 어떤 상태 St 에서 a 행동을 했을 때 다음 상태 St+1로 전이할 전이 확률 행렬 R : MDP에서는 해당 s 에서 특정 행동 a를 했을 때의 보상 함수. 감쇠 인자 감마 정책 함수 : 어떤 상태 s에서 취할 수 있는 액션 중 어떤 액션을 선택할지 정해주는 함수 강화학습은 최종 보상을 최적화 하는 정책함수를 찾는 것이다. 정책함수를 찾기 위해서는 주어진 정책함수에서 상태별 벨류를 찾아야 한다. 벨류를 계산한다는 건 벨만 방정식을 이용해서 구한다로 변경해도 된다. 벨만 방정식이 무엇인지 알아보자 3.1 벨만 기대 방정식0 단계상태(St)에 대한 벨류..

이번 챕터는 강화학습이 풀고자 하는 문제에 대해 좀 더 자세하게 다뤄본다.강화 학습은 순차적 의사결정 문제를 푸는 방법론이라 얘기했지만, 아직은 추상적이다.좀 더 MDP 라는 개념을 통해 더 정확하게 표현해보겠다.1. 마르코프 프로세스 (Markov Process)위 예제는 아이가 잠이 드는 과정을 마르코프 프로세스로 모델링한 것이다.위에서 보듯이 각 상태(s)가 정의되어있고 각 상태에서 다른 상태로 전이 될 확률(p)가 있다.위 예제는 아이가 p 확률로 상태가 1분당 다음 상태로 상태 전이를 하는 예제이다.마르코프 프로세스를 식으로 표현하면 위와 같다.상태의 집합과 각 상태에서 다른 상태로 전이되는 확률 행렬로 표현한다.아이가 잠에 드는 마르코프 프로세스에 대한 S 및 P..

1. 지도학습과 강화학습지도학습과 강화학습을 설명하는 예시이다.자전거 학습을 하는 어린이로 예를 들자면지도학습은 아버지가 자전거를 타는법을 지도해주는 것과 같고,강화학습은 혼자서 자전거를 넘어지기도 하면서 배우는 학습과 같다.즉 강화학습은 시행착오 (Trial & Error)를 통한 학습이라고 생각하면 된다.머신러닝/딥러닝과 달리 데이터가 많이 필요하지 않고,스스로 데이터를 만들어내는 효과ex)구글 딥 마인드 - 알파고, 눈스캔 질병 진단주식 트레이딩 봇 .. 등등더 자세한 지도학습과 강화학습 설명지도학습은 정답이 주어진 학습데이터(training data) 를 통해서 학습을 한다학습데이터의 정답을 추출하기 위해서 feature를 부여하고 학습을 한다요즘은 딥러닝이라는..