오블완1 Imitation Learning 이란? (vs. SFT) 최근 MLLM 에 RLHF 와 같은 (비교적) 가벼운 Human Alignment 기법을 통해 Image Generation (T2I) 성능을 향상시키기 위한 방법론 (알고리즘) 을 연구하고 있다. 그 과정에서 Imitation learning 이라는 개념을 알게 되었다. Imitation Learning 은 강화 학습 (Reinforcement Learning) 에서 사용되는 개념으로서 크게는 아래의 것들을 포괄한다.- Behavioral cloning- Inverse RL 구체적인 설명은 아래 블로그들에서 잘 설명해두었더라.https://jhrobotics.tistory.com/37https://mech-literacy.tistory.com/24 내가 헷갈렸던 부분은, IR (Imitation Lea.. 2024. 11. 11. 이전 1 다음 반응형