최근 셋팅한 제 회사 컴퓨터에는 RTX-3090이 장착되어있습니다. 제 컴퓨터에서 딥러닝 모델을 학습하다보면 매번 학습 중에 GPU is lost. Reboot the system to recover this GPU 에러를 출력하면서 학습이 중단되었습니다. 이럴 때마다 매번 컴퓨터를 리부팅해야하는 상황이 반복되어 매우 불편했는데요. 이 에러에 대해서 제가 어떻게 작업했는지 공유합니다.

Continue reading

Alpine linux는 용량이 80MB이고, 컨테이너 이미지는 5MB밖에 안되는 초경량화된 리눅스 배포판입니다. alpine linux는 용량을 줄이기 위해 시스템의 기본 C runtime을 glibc 대신 musl libc 를 사용하는데요. 이로 인해 제가 즐겨쓰는 ubuntu기반의 작업들이 동작하지 않는 경우가 있습니다. 그 중 ubuntu에서의 locale 명령어가 대표적입니다. ubuntu의 locale은 glibc 기반으로 구현되어있기 때문에 alpine linux에서는 apk add locale 명령어로는 설치할 수 없습니다. 이번 포스팅은 alpine linux에서 locale을 설정하는 방법에 대해서 다룹니다.

Continue reading

2021.05.05 현재 RTX3090은 CUDA11 이상을 지원하는 딥러닝 프레임워크에 버전에서만 사용할 수 있습니다. 하지만 단순하게 pip install torch==1.7.1 torchvision==0.8.2 형태로 설치하면 CUDA error: no kernel image is available for execution on the device 에러를 마주할 수 있습니다. 이 때에는 반드시 pip install torch==1.7.1+cu110 torchvision==0.8.2+cu110 -f https://download.pytorch.org/whl/torch_stable.html 형태로 설치해주어야합니다.

Continue reading
  • page 1 of 1
Author's picture

Martin Hwang

Software Engineer in the field of AI, Infra structure


Research assistant in KETI


Seoul, South korea