daily./연구실 TIL11 연구, 정말 어렵다. 답이 없는 문제를 직접 해결해야한다는 것은 정말 어려운 과제다.시키는 일을 하는 것은, 크게 어렵지 않다. 이제는 나의 연구를 해야 할 때,문제는 명확히 발견한 것 같으나, 그것을 해결할 수 있는 접근법들이 쉽사리 정리되지 않는다.몇가지 어프로치(Approach)들이 피상적으로만 내 머리속 한 곳을 둥둥 떠다닌다.이것들에 지배당한 채로, 늘 생각하고 생각하는데, 아직은 잘 모르겠다. 2025. 1. 23. Imitation Learning 이란? (vs. SFT) 최근 MLLM 에 RLHF 와 같은 (비교적) 가벼운 Human Alignment 기법을 통해 Image Generation (T2I) 성능을 향상시키기 위한 방법론 (알고리즘) 을 연구하고 있다. 그 과정에서 Imitation learning 이라는 개념을 알게 되었다. Imitation Learning 은 강화 학습 (Reinforcement Learning) 에서 사용되는 개념으로서 크게는 아래의 것들을 포괄한다.- Behavioral cloning- Inverse RL 구체적인 설명은 아래 블로그들에서 잘 설명해두었더라.https://jhrobotics.tistory.com/37https://mech-literacy.tistory.com/24 내가 헷갈렸던 부분은, IR (Imitation Lea.. 2024. 11. 11. 우당탕탕 연구실 생활 - 4월/5월 회고 4월 회고를 작성해야지... 해야지... 하다가 어느덧 5월이 끝나버렸다. 글 한 편 작성하는 시간을 내는 것조차 버거운 나날들이다. 이렇게 된 김에 4월과 5월을 합쳐, 회고글을 작성하기로 마음먹었다. 크게 바라보면, 4월은 중간고사와 두 연구실의 일, 그리고 대학원 원서접수가 겹쳐 체력적으로 많이 힘들었던 한달, 5월은 파이토치 라이트닝 기반의 코드 리팩토링에 열중했던 한달로 요약해볼 수 있을 것 같다. 너무나 정신없이 한 학기를 보낸 나머지, 벌써 종강을 맞이하고 7월 3일이 되었다. 우선 4월달의 기억을 되짚어 보면, 두가지 사건이 강렬하게 뇌리에 스친다. 그 중 1) 첫번째는 연구실에 들어와 처음으로 모델 학습 띄우기를 성공한 사건이고, 2) 두번째는 연구실 메인 서버에 사고를 친 사건이다. .. 2024. 7. 3. [Onedrive] 원드라이브에서 대용량 데이터 다운로드 받는 방법 사실 anyone 이 access 가능한 데이터셋의 경우에는 다운로드 받는 것이 어렵지 않다. 구글링 조금만 해보면, 쉽게 나온다. 그런데 이제 문제는 (접근 권한을 받은) 특정 사용자만 access 가능한 데이터셋이다. 연구 데이터는 대부분 (상업적 목적이 아닌 경우) 오픈되어있긴한데, 그 중에서도 일부는 데이터셋 열람을 신청하는 구글폼을 작성해야 Access 가능한 구글 드라이브 링크를 보내주는 등, 제한적으로(귀찮게) 오픈되어있다. 이렇게 제한된 사용자만 접근 가능한 데이터셋은, 일반적인 구글드라이브/원드라이브 리눅스 다운로드 방법이 통하지 않는다. (&download=1 ... 하고 중간 중간 {fileID} 를 삽입해주는.... 구글링하면 많이 나오는 방법) 아래 사진처럼 FORBIDDEN 된.. 2024. 6. 1. [Kaggle] Kaggle Datasets linux 환경에서 다운로드 받는 방법 (NOT competition dataset) 로컬환경에서는 다운로드 '버튼' 하나만 딸깍 누르면 데이터 다운로드가 쉽게 되지만, 리눅스 환경에서 웹에 올라와 있는 데이터를 다운로드받기란 결코 쉽지 않다. 대표적으로, 구글 드라이브 또는 캐글에 업로드되어있는 데이터가 그렇다. 본 글에서는 캐글(Kaggle) 데이터셋을 리눅스 환경에서 커맨드로 다운로드 받는 방법에 대해 다룬다. (저는 conda 가상환경을 사용하기 때문에, conda 환경 세팅은 기본적으로 되어있다는 가정 하에 설명합니다.) 내가 다운로드 받고자 하는 데이터셋은 다음과 같았다. (https://www.kaggle.com/datasets/nyhuka/msrvtt) MSRVTT www.kaggle.com 1. kaggle 패키지 설치(data_down_copy) pip install .. 2024. 5. 31. 연구실 사고뭉치 ep1. 서버를 다운시키다 큰 모델과 큰 사이즈의 데이터를 다루면서 가장 어려운 일은, 이걸 내 손 안에서 쥐락펴락 컨트롤 하는 일이다. 사실 연구실 인턴 생활을 하기 전까지는, 원격 서버를 어렴풋이만 사용해봤지 제대로 사용해보는 것은 연구실 일 하는 것이 처음이었다. 벌써 3개월째 생활을 하고있는데, 달에 한 번은 내가 꼭 서버 사고를 일으키고 있다. 이번 달은 무난히 넘어가는가 했더니, 어제 오늘 또 사고를 쳐버렸다. 발생한 현상.데이터로더 코드 실행 중 (__iter__ 단계에서 추정) 갑작스러운 서버 끊김, 재접속 불가(직접적으로 터미널에 OOM 에러 메세지가 뜬 것은 아니나, 나중에 서버 에러 로그를 보니 OOM 타입의 에러라고 한다.) def __iter__(self): random.seed(self.. 2024. 5. 18. 이전 1 2 다음 반응형