Apexのインストール?

別にどこぞのFPSの話ではないです。

R0:vsCUDA

まずはCUDAのインストールから。

今回

インストール

今回はtensorflowのversionは1.xなので、CUDAは1.10。
うん。前回の失敗の記憶が生きてるネ!記事に残しておいてよかったヨ!
じゃ、バージョンの確認を。

nvcc -v
nvcc fatal   : No input files specified; use option --help for more information

んえ?と思いましたが

nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Sat_Aug_25_21:08:04_Central_Daylight_Time_2018
Cuda compilation tools, release 10.0, V10.0.130

大文字と小文字の区別がついていないだけでした。

PyTorch

別にCUDA入れてはいおしまいではないです。
PyTorch1.7.1も必要です。
pytorchってどうやって入れるんだっけ????とか思いましたが過去に優秀な人が記事を残してくれています。
271108.hatenablog.com
入れたっけ???

と思ったけどコマンドを打ち込むだけだった。

R1

普通は

git clone https://github.com/NVIDIA/apex

して、

pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./

すればいいはず。

RuntimeError

 RuntimeError: Cuda extensions are being compiled with a version of Cuda that does not match the version used to compile Pytorch binaries.  Pytorch binaries were compiled with Cuda 11.0.

RuntimeError:Cuda拡張機能は、Pytorchバイナリのコンパイルに使用されたバージョンと一致しないバージョンのCudaでコンパイルされています。 PytorchバイナリはCuda11.0でコンパイルされました。
うん?Cudaのバージョンを変えなきゃいけないの?と思ったけど、そうでもないみたい。

cudaと互換性のあるpytorchのバージョンを確認しろ

これは10.0。

CUDAバージョンが10.0の場合は、cudaを使用してpytorchを再確認してください
https://pytorch.org/get-started/previous-versions/

pip install torch==1.2.0 torchvision==0.4.0

これかな?

ERROR: Could not find a version that satisfies the requirement torch==1.2.0 (from versions: 1.7.0, 1.7.1, 1.8.0, 1.8.1, 1.9.0, 1.9.1, 1.10.0, 1.10.1, 1.10.2, 1.11.0)
ERROR: No matching distribution found for torch==1.2.0

違うみたい。

参考になりそうな気がする。

https://github.com/NVIDIA/apex/issues/723

オチ

参考資料はCUDA11.0を使っていた。pytorchは1.7.1。

R2

気を取り直してもう一度。

アンインストール

CUDAのアンインストールはコントロールパネルから行うらしい。

11.0のインストール

これtensorflow動くのかなぁとか疑問に思いながらではあるけどまあ参考資料あるしその時考えましょう。考えてもわからないことはやってから考える。

それでも同じエラー

ここで記録途切れてるんだけどどうやってインストールしたの

最終的な環境確認

pytorch:1.7.1
CUDA:11.0