최근 셋팅한 제 회사 컴퓨터에는 RTX-3090이 장착되어있습니다. 제 컴퓨터에서 딥러닝 모델을 학습하다보면 매번 학습 중에 GPU is lost. Reboot the system to recover this GPU
에러를 출력하면서 학습이 중단되었습니다. 이럴 때마다 매번 컴퓨터를 리부팅해야하는 상황이 반복되어 매우 불편했는데요. 이 에러에 대해서 제가 어떻게 작업했는지 공유합니다.
Alpine linux는 용량이 80MB이고, 컨테이너 이미지는 5MB밖에 안되는 초경량화된 리눅스 배포판입니다. alpine linux는 용량을 줄이기 위해 시스템의 기본 C runtime을 glibc 대신 musl libc 를 사용하는데요. 이로 인해 제가 즐겨쓰는 ubuntu기반의 작업들이 동작하지 않는 경우가 있습니다. 그 중 ubuntu에서의 locale 명령어가 대표적입니다. ubuntu의 locale은 glibc 기반으로 구현되어있기 때문에 alpine linux에서는 apk add locale
명령어로는 설치할 수 없습니다. 이번 포스팅은 alpine linux에서 locale을 설정하는 방법에 대해서 다룹니다.
2021.05.05 현재 RTX3090은 CUDA11 이상을 지원하는 딥러닝 프레임워크에 버전에서만 사용할 수 있습니다. 하지만 단순하게 pip install torch==1.7.1 torchvision==0.8.2
형태로 설치하면 CUDA error: no kernel image is available for execution on the device
에러를 마주할 수 있습니다. 이 때에는 반드시 pip install torch==1.7.1+cu110 torchvision==0.8.2+cu110 -f https://download.pytorch.org/whl/torch_stable.html
형태로 설치해주어야합니다.