唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

Ubuntuでディープラーニングを始めたけど数日経つとGPUが動かなくなった話

AWS EC2でUbuntuにGPUのドライバやらCUDAやらを入れてディープラーニングに触ってみていたのですが、久しぶりに起動したら動かなくなっていました。最初に断っておきますがかなりLinux初心者っぽい理由です

症状

環境を構築した直後は普通に動きましたが数日経って使ってみるとGPUが使えない状態になっていました。試しにnvidia-smiコマンドを打ってみるとNVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driverみたいな感じのメッセージがでてドライバが認識されていないようでした
ドライバを消して入れ直してみると普通に動きますが、また数日経つと動かなくなりました

対策

Ubuntuの自動アップデート(アップグレード?)が原因でドライバが読み込めなくなっていたっぽいので/etc/apt/apt.conf.d/20auto-upgradesの設定を"1"から"0"に変更して無効にしました

APT::Periodic::Update-Package-Lists "0";
APT::Periodic::Unattended-Upgrade "0";

参考

GPUのドライバのアンインストールした時のコマンドは一応この辺を参考にした。入れ方によって違うかもしれないし、そもそも打つ必要もないかも

Ubuntuのアップデートの設定周りの説明がいろいろ書いてあった