오늘은 MAB 알고리즘을 추천 시스템에 활용해 보는 방법에 대해 알아보겠습니다. 1. MAB란? 2. MAB 알고리즘 종류 2-1. epsilon greedy algorithm 2-2. UCB (Upper Confidence Bound) 2-3. Thompson Sampling 3. MAB를 이용한 추천 시스템 1. MAB란? MAB는 강화학습으로 분류되지는 않지만 해당 원리를 활용한 알고리즘으로 위의 그림과 같이 각 슬롯머신에서 얻을 수 있는 Reward의 확률이 모두 다른 여러 개의 슬롯머신을 의미합니다. MAB는 수익을 최대화하기 위해서 arm을 어떤 policy에 의해 당겨야 하는지를 결정하는 알고리즘입니다. MAB는 강화학습의 핵심 아이디어인 Exploitation(이용)과 Exploration..