최근 MLLM 에 RLHF 와 같은 (비교적) 가벼운 Human Alignment 기법을 통해 Image Generation (T2I) 성능을 향상시키기 위한 방법론 (알고리즘) 을 연구하고 있다. 그 과정에서 Imitation learning 이라는 개념을 알게 되었다.
Imitation Learning 은 강화 학습 (Reinforcement Learning) 에서 사용되는 개념으로서 크게는 아래의 것들을 포괄한다.
- Behavioral cloning
- Inverse RL
구체적인 설명은 아래 블로그들에서 잘 설명해두었더라.
https://jhrobotics.tistory.com/37
https://mech-literacy.tistory.com/24
내가 헷갈렸던 부분은, IR (Imitation Learning은) 얼핏 추상적인 알고리즘의 Concept 만 보면 SFT 와 굉장히 흡사하다는 것이었다.
전문가의 Demonstration, SFT 로 치면 Golden Label 과 같이, 정답지를 함께 보면서 학습하는 그런 형태가 거의 동일하다고 느껴졌다. 결론적으로 말하면, 둘은 큰 컨셉은 동일하지만, 구체적인 알고리즘과 그 학습방법이 다르다. (당연하게도...
먼저, IR 은 강화학습에서 나온 개념이기 때문에, 정확히 말하면 Expert 의 (정답지의) Policy 와 Reward Function, 그런 일련의 Actions 을 따라 보고 배우는 것이다. 그러나 SFT 는 NLP 에서 나온 개념으로 단순히 개별 개별의 Data instance Pair 단위에서 정답지를 보고 배우는 것이다. 훨씬 라이트한 학습 방법론이라고 볼 수 있다.
'daily. > 연구실 TIL' 카테고리의 다른 글
연구, 정말 어렵다. (0) | 2025.01.23 |
---|---|
우당탕탕 연구실 생활 - 4월/5월 회고 (1) | 2024.07.03 |
[Onedrive] 원드라이브에서 대용량 데이터 다운로드 받는 방법 (1) | 2024.06.01 |
[Kaggle] Kaggle Datasets linux 환경에서 다운로드 받는 방법 (NOT competition dataset) (0) | 2024.05.31 |
연구실 사고뭉치 ep1. 서버를 다운시키다 (0) | 2024.05.18 |