Библиотека llama-cpp-python

Хочу значит поговорить с локальной нейронкой через код(Python). Вроде скачал саму библиотеку, нашёл модель на сайте(https://huggingface.co/google/gemma-3-1b-it-qat-q4_0-gguf), сделал ключ, включил все разрешения для него. Короче, ошибок не пишет, сам код нравится.

from llama_cpp import Llama

llm = Llama.from_pretrained(
    repo_id="google/gemma-3-1b-it-qat-q4_0-gguf",
    filename="gemma-3-1b-it-q4_0.gguf",
)

llm.create_chat_completion(
    messages = [
        {
            "role": "user",
            "content": "What is the capital of France?"
        }
    ]
)

Код взят на том же сайте, где и найдена модель(https://huggingface.co/google/gemma-3-1b-it-qat-q4_0-gguf) - то есть рабочий. До этого, когда пытался запустить мне прям в консоли писали что нужно сделать. Сейчас же запускаю код - и ничего, ни ошибок, ни состояния работы - ничего.


Попробовал вот это:

llm = Llama(
      model_path="D:\\NN\Models\gemma-3-1b-it-q4_0.gguf",
      # n_gpu_layers=-1, # Uncomment to use GPU acceleration
      # seed=1337, # Uncomment to set a specific seed
      # n_ctx=2048, # Uncomment to increase the context window
)
output = llm(
      "Q: Name the planets in the solar system? A: ", # Prompt
      max_tokens=32, # Generate up to 32 tokens, set to None to generate up to the end of the context window
      stop=["Q:", "\n"], # Stop generating just before the model would generate a new question
      echo=True # Echo the prompt back in the output
) # Generate a completion, can also call create_completion
print(output)

Ошибку показать не получилось - оформил под код, но сайту что-то ещё нужно оформить по код, так-что хз.

Перевёл и похоже ему не нравится не код, а сама модель, потому что ругается либо на неправильное расширение(что невозможно), либо на повреждённый файл.

И правда еле-как скачал, гугл вообще не мог справиться, а файрфокс раза с 10ого. Ну походу недоскачал.


Ответы (1 шт):

Автор решения: CrazyElf

Ну вы хотя бы напечатайте полученный ответ то:

response = llm.create_chat_completion(...)
print(response)

Не знаю, почему они пропустили этап вывода результата почти во всех примерах, но в некоторых он всё-таки есть.

→ Ссылка