쿠버네티스

GPU 파드 생성 시 겪었던 오류 (nvidia-container-runtime)

황동리 2024. 11. 11. 11:20
반응형
오류: DGX 서버를 워커 노드로 사용하여 GPU 카드를 할당하여 파드를 생성하는데, 아래와 같은 에러가 나오면서 파드가 정상적으로 생성이 되질 않았습니다.
failed to create containerd task: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 1, stdout: , stderr: Auto-detected mode as 'legacy'
nvidia-container-cli: device error: /var/run/nvidia-container-devices: unknown device: unknown

 

무엇이 문제인가 하고 알아보니,

 

파드가 생성되는 워커 노드의 nvidia-container-runtime과 호환이 되지 않아서 발생하는 문제였습니다.

 

그래서, /etc/nvidia-container-runtime/config.toml 파일의 내용을 수정하니 정상적으로 파드가 생성되었습니다.

 

config.toml 파일을 vi 편집기로 열어 아래 설정을 추가해주었습니다.

accept-nvidia-visible-devices-as-volume-mounts = true

 

해당 설정을 추가하니, 정상적으로 파드가 생성이 되었습니다.

반응형