본문 바로가기
daily./연구실 TIL

Imitation Learning 이란? (vs. SFT)

by 브라이티_ 2024. 11. 11.
반응형

최근 MLLM 에 RLHF 와 같은 (비교적) 가벼운 Human Alignment 기법을 통해 Image Generation (T2I) 성능을 향상시키기 위한 방법론 (알고리즘) 을 연구하고 있다. 그 과정에서 Imitation learning 이라는 개념을 알게 되었다.

 

Imitation Learning 은 강화 학습 (Reinforcement Learning) 에서 사용되는 개념으로서 크게는 아래의 것들을 포괄한다.

- Behavioral cloning

- Inverse RL

 

구체적인 설명은 아래 블로그들에서 잘 설명해두었더라.

https://jhrobotics.tistory.com/37

https://mech-literacy.tistory.com/24

 

내가 헷갈렸던 부분은, IR (Imitation Learning은) 얼핏 추상적인 알고리즘의 Concept 만 보면 SFT 와 굉장히 흡사하다는 것이었다.

전문가의 Demonstration, SFT 로 치면 Golden Label 과 같이, 정답지를 함께 보면서 학습하는 그런 형태가 거의 동일하다고 느껴졌다. 결론적으로 말하면, 둘은 큰 컨셉은 동일하지만, 구체적인 알고리즘과 그 학습방법이 다르다. (당연하게도...

 

먼저, IR 은 강화학습에서 나온 개념이기 때문에, 정확히 말하면 Expert 의 (정답지의) Policy 와 Reward Function, 그런 일련의 Actions 을 따라 보고 배우는 것이다. 그러나 SFT 는 NLP 에서 나온 개념으로 단순히 개별 개별의 Data instance Pair 단위에서 정답지를 보고 배우는 것이다. 훨씬 라이트한 학습 방법론이라고 볼 수 있다.

반응형