본문 바로가기
daily./연구실 TIL

[Kaggle] Kaggle Datasets linux 환경에서 다운로드 받는 방법 (NOT competition dataset)

by 브라이티_ 2024. 5. 31.
반응형

로컬환경에서는 다운로드 '버튼' 하나만 딸깍 누르면 데이터 다운로드가 쉽게 되지만, 리눅스 환경에서 웹에 올라와 있는 데이터를 다운로드받기란 결코 쉽지 않다. 대표적으로, 구글 드라이브 또는 캐글에 업로드되어있는 데이터가 그렇다. 본 글에서는 캐글(Kaggle) 데이터셋을 리눅스 환경에서 커맨드로 다운로드 받는 방법에 대해 다룬다.

 

(저는 conda 가상환경을 사용하기 때문에, conda 환경 세팅은 기본적으로 되어있다는 가정 하에 설명합니다.) 내가 다운로드 받고자 하는 데이터셋은 다음과 같았다. (https://www.kaggle.com/datasets/nyhuka/msrvtt)

 

MSRVTT

 

www.kaggle.com

 

 


1. kaggle 패키지 설치

(data_down_copy) pip install kaggle
# (env 명) 커맨드

 

 

2. kaggle API key (json) 다운로드

오른쪽 상단 내 프로필을 클릭하고, 다시 Settings 메뉴를 클릭하면 위 사진과 같은 페이지에 접속할 수 있다. 아래로 스크롤하다보면 위와 같이 API 메뉴가 등장하고, 이때 Create New Token 버튼을 눌러주면 된다. 누르면, kaggle.json 이라는 이름의 파일이 하나 (로컬에) 다운로드 된다. 

 

 

3. (리눅스) 홈 디렉토리에 .kaggle 폴더 생성 및 API 파일 이동

다시 가상환경으로 돌아와, 다음의 커맨드들을 입력해준다.

# 폴더 생성, -p 는 permission 옵션
mkdir -p ~/.kaggle
mv kaggle.json ~/.kaggle/kaggle.json

 

+) 혹시 폴더가 잘 생성된 것이 맞는지 확인해보고 싶다면 다음의 커맨드를 입력해주면 된다.

ls -ld ~/.kaggle

 

 

4. .kaggle 폴더에 권한 부여

chmod 600 ~/.kaggle/kaggle.json

 

 

5. Dataset Card 의 (Download) API command 복사

 

Download (7GB) 버튼 옆 더보기 버튼을 눌러, Copy API command 를 클릭하면 클립보드에 다음과 같은 CLI 커맨드가 복사된다.

kaggle datasets download -d nyhuka/msrvtt
# kaggle datasets download -d {dataset owner}/{dataset name}

 

 

6. 다운로드 받고자 하는 폴더로 이동하여 해당 커맨드 붙여넣기

다운로드 진행중임을 보이는 progress bar 가 터미널에 나타나며 다운로드가 시작된다.

 

 


 

참고한 글.

https://velog.io/@skyepodium/Kaggle-API-%EC%82%AC%EC%9A%A9%EB%B2%95

https://blog.naver.com/dnjswns2280/222225952276

https://velog.io/@rivernine/Kaggle-api

반응형