Python版のcuda対応に関すること #95

tuna2134 · 2024-10-18T15:47:36Z

機能追加の説明
GPUとかで動かしたいって方がいるので、その対応としてdynamicを提案する

メリット
dynamicにすることでcuda以外でも使える

デメリット
ユーザーの負担が増える

Mofa-Xingche · 2024-11-06T02:44:06Z

すみません失礼します
GPUで、もしonnx cudaのstyle ber vits2音声合成をしたら、GPUメモリは.safetensorの音声合成に比べて必要なGPUメモリはどれくらい節約できるとおもいますか？
onnx gpuのメモリ節約効果について

Googlefan256 · 2024-11-06T06:09:50Z

実際に計測しないことにはわかりませんが、動的にslotを読み込んだりアンロードする負荷は間違いなく低いため、slotの読み込み上限を付けることで結果的に複数モデル扱うときのVRAM節約をすることはできるはずです。

Googlefan256 · 2024-11-06T06:21:02Z

そこらへんの実装をすることにしました(python版ではなくdocker版に)
同時にGPUに読み込むモデルに上限を付けることでメモリを節約できる機能です。
公式版と比べてGPUとCPU間の転送コストが低いため、高速に行えるはずです。

Googlefan256 · 2024-11-06T06:30:54Z

そこらへんの実装をすることにしました(python版ではなくdocker版に) 同時にGPUに読み込むモデルに上限を付けることでメモリを節約できる機能です。公式版と比べてGPUとCPU間の転送コストが低いため、高速に行えるはずです。

python版にも実装できそうです

Mofa-Xingche · 2024-11-06T06:47:15Z

ありがとうございます。＞＜

tuna2134 added the enhancement New feature or request label Oct 18, 2024

Googlefan256 mentioned this issue Nov 6, 2024

wip: max loaded models #123

Merged

1 task

Provide feedback