Imitation Learning 이란? (vs. SFT)

최근 MLLM 에 RLHF 와 같은 (비교적) 가벼운 Human Alignment 기법을 통해 Image Generation (T2I) 성능을 향상시키기 위한 방법론 (알고리즘) 을 연구하고 있다. 그 과정에서 Imitation learning 이라는 개념을 알게 되었다.

Imitation Learning 은 강화 학습 (Reinforcement Learning) 에서 사용되는 개념으로서 크게는 아래의 것들을 포괄한다.

- Behavioral cloning

- Inverse RL

구체적인 설명은 아래 블로그들에서 잘 설명해두었더라.

https://jhrobotics.tistory.com/37

https://mech-literacy.tistory.com/24

내가 헷갈렸던 부분은, IR (Imitation Learning은) 얼핏 추상적인 알고리즘의 Concept 만 보면 SFT 와 굉장히 흡사하다는 것이었다.

전문가의 Demonstration, SFT 로 치면 Golden Label 과 같이, 정답지를 함께 보면서 학습하는 그런 형태가 거의 동일하다고 느껴졌다. 결론적으로 말하면, 둘은 큰 컨셉은 동일하지만, 구체적인 알고리즘과 그 학습방법이 다르다. ~~(당연하게도...~~

먼저, IR 은 강화학습에서 나온 개념이기 때문에, 정확히 말하면 Expert 의 (정답지의) Policy 와 Reward Function, 그런 일련의 Actions 을 따라 보고 배우는 것이다. 그러나 SFT 는 NLP 에서 나온 개념으로 단순히 개별 개별의 Data instance Pair 단위에서 정답지를 보고 배우는 것이다. 훨씬 라이트한 학습 방법론이라고 볼 수 있다.

'daily. > 연구실 TIL' 카테고리의 다른 글

연구, 정말 어렵다. (0)	2025.01.23
우당탕탕 연구실 생활 - 4월/5월 회고 (1)	2024.07.03
[Onedrive] 원드라이브에서 대용량 데이터 다운로드 받는 방법 (1)	2024.06.01
[Kaggle] Kaggle Datasets linux 환경에서 다운로드 받는 방법 (NOT competition dataset) (0)	2024.05.31
연구실 사고뭉치 ep1. 서버를 다운시키다 (0)	2024.05.18

work hard, be kind

Imitation Learning 이란? (vs. SFT)

'daily. > 연구실 TIL' 카테고리의 다른 글

티스토리툴바

Imitation Learning 이란? (vs. SFT)

'daily. > 연구실 TIL' 카테고리의 다른 글

관련글

티스토리툴바