Тема

EXL2

1 материал по теме

Учебник · 5 июня 2026 г. · 7 мин

Большая нейросеть на своей видеокарте: GGUF, GPTQ, AWQ, EXL2

Модель Llama-3.3-70B в полном виде весит 140 ГБ - на одну карту не влезет. Квантование сжимает её до 40 ГБ, и она запускается на потребительской видеокарте. Разбираем четыре формата квантования: GGUF, GPTQ, AWQ, EXL2. Узнаете, какой выбрать под ваше железо и задачу, как сжать модель самому и не потерять качество. Без программиста - только практические шаги.