Ошибка RuntimeError: No GPU found. A GPU is needed for quantization. python

я хочу скачать модель с huggingface Llama-2-7b-hf, но когда я указываю, что модель должна загружаться в 4-битном формате выдает ошибка: RuntimeError: No GPU found. A GPU is needed for quantization. Я переустанавливал и torch, и cuda(у меня стояла 12,6 поставил 12,1) c ней кстати тоже проблема nvidia-smi показывает что 12,6 хотя в установке и удаление программ вообще 12,6 нету, я ёё удалил, там токо 12,1. Вот так выглядит код:

from huggingface_hub import login
import torch
from transformers import BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)

# Логин в Hugging Face
login(token="hf")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-chat-hf")
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b-chat-hf", quantization_config=bnb_config,
    device_map="auto")

# Функция генерации текста
def generate_text(prompt, max_length=50):
    inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)  # Перемещение на устройство модели
    outputs = model.generate(inputs, max_length=max_length, num_return_sequences=1)
    text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return text

# Пример использования
prompt = "hello"
generated_text = generate_text(prompt)
print(generated_text)


  [1]: https://i.sstatic.net/BH9CtWjz.png
  [2]: https://i.sstatic.net/27TYREM6.png

Ответы (0 шт):