Multi-Armed Bandit algorithm은 굉장히 Profitable한 모델이며 이해하기가 쉽다. 

카지노 게임장에서 가장 유리한 슬롯을 찾는것부터 시작됐으며, Arm은 슬롯에 잡아당기는 부분, Bandit(노상강도)는 슬롯, 그리고 여러개의 슬롯중 최적의 효율을 내는 것을 탐색하기 위해 Multi-Armed Bandit이 탄생했다. 

 

1. greedy: 한번씩 플레이후, 가장 많이 돈을 딴 슬롯머신에 모두 투자한다. 

 

문제: 탐험(Exploration)이 충분히 이루어지지 않음

 

 

2. e-greedy(입실론 그리디): 동전을 던져서 윗면이 나오면 점수 좋았던 슬롯머신, 뒷면 나오면 랜덤선택

 

동전의 확률은 50:50이다. 50%의 확률로 greedy알고리즘에서 가장 좋았던 슬롯머신을 선택하고, 50%확률로 동전 뒷면이 나오면 슬롯과 상관없이 랜덤하게 골라서 한다. 여기서, 입실론이 하이퍼파라메터이다. 

 

 

 

3. UCB(Upper-Confidence-Bound): 좋은 수익률을 보이며 최적의 선택이 될 가능성이 있는 슬롯머신을 선택

기존에 greedy알고리즘과 비교하면, 빨간 박스가 추가되었다. 해당 슬롯머신이 최적의 슬롯머신이 될 수 있는 가능성이다. 

 

 

출처: 멀티 암드 밴딧(Multi-Armed Bandits) (brunch.co.kr)

+ Recent posts