🌐 Detecting your location…
📢 Advertisement — Configure AdSense in Appearance → Customize → AdSense Settings

Como ajustar e executar LLMs localmente com Ollama em 2026

⏱️8 min read  ·  1,545 words

How to Fine-Tune and Run LLMs Locally with Ollama in 2026

A execução de um modelo de linguagem de peso aberto em seu próprio hardware passou de uma novidade de laboratório de pesquisa a um projeto de fim de semana. Este guia cobre o caminho completo em 2026: instalação do Ollama, escolha do tamanho de modelo certo para o seu hardware, personalização do comportamento com Modelfiles e ajuste leve de um modelo com LoRA quando você precisar realmente aprender algo novo.

Por que executar um LLM localmente

A inferência local resolve problemas que as APIs hospedadas estruturalmente não conseguem: os dados nunca saem da sua máquina, não há cobrança por token em escala e a versão do modelo que você testou é a versão do modelo que você executará no próximo mês, independentemente de qualquer cronograma de descontinuação upstream. A compensação é qualidade e conveniência – modelos de peso aberto na faixa 7B-70B são bons, mas geralmente ficam atrás dos modelos hospedados de fronteira em tarefas de raciocínio complexas.

Instalando o Ollama

Ollama fornece instaladores nativos para macOS, Windows e Linux e envolve llama.cpp para uma inferência quantizada eficiente.

terminais
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: download the installer from ollama.com/download

# Verify install
ollama --version

Hardware e tamanho do modelo

O tamanho do modelo nos parâmetros determina aproximadamente os requisitos de memória, uma vez quantizado. Como regra geral para quantização de 4 bits (o padrão Ollama para a maioria dos pulls):

  • Modelos 3B-4B— funcione perfeitamente com 8 GB de RAM, incluindo a maioria dos laptops modernos sem GPU discreta.
  • Modelos 7B-8B— precisa de aproximadamente 8 a 12 GB; um local confortável para bate-papo de uso geral e ajuda de codificação.
  • Modelos 13B-14B– precisa de 16 a 24 GB para um desempenho suave.
  • Modelos da classe 70B– precisa de 48 GB + VRAM para obter boa velocidade ou será executado lentamente dividido entre a RAM e a CPU do sistema.

Os Apple Silicon Macs superam seu peso aqui porque a memória unificada permite que a GPU acesse todo o pool de RAM do sistema, tornando-os surpreendentemente capazes para os modelos 13B-34B.

Seu primeiro modelo local

terminais
# Pull and run a general-purpose model
ollama run llama3.1:8b

# Pull a coding-focused model
ollama run qwen2.5-coder:7b

# List installed models
ollama list

# Remove a model to free disk space
ollama rm llama3.1:8b

O primeirorunO comando baixa o modelo (vários gigabytes) e leva você a um prompt de bate-papo interativo. Os modelos são armazenados em cache localmente, portanto, as execuções subsequentes começam instantaneamente.

Personalizando o comportamento com um arquivo de modelo

Um Modelfile permite colocar um prompt de sistema personalizado, temperatura e outros parâmetros sobre um modelo base sem tocar em seus pesos – conceitualmente semelhante a um Dockerfile para configuração LLM.

Arquivo de modelo
FROM qwen2.5-coder:7b

PARAMETER temperature 0.2
PARAMETER num_ctx 8192

SYSTEM """
You are a senior backend engineer. Answer concisely with working code.
Prefer Python and explain tradeoffs only when explicitly asked.
"""
terminais
ollama create backend-helper -f ./Modelfile
ollama run backend-helper

Chamando Ollama do Python

Ollama expõe uma API REST local na porta 11434, com um cliente Python oficial sobre ela – útil para conectar um modelo local a um script ou serviço de back-end.

chat.py
pip install ollama
chat.py
import ollama

response = ollama.chat(model="qwen2.5-coder:7b", messages=[
    {"role": "user", "content": "Write a Python function that flattens a nested list."}
])
print(response["message"]["content"])

# Streaming
for chunk in ollama.chat(model="llama3.1:8b", messages=[
    {"role": "user", "content": "Explain TCP vs UDP in two sentences."}
], stream=True):
    print(chunk["message"]["content"], end="", flush=True)

Ajuste fino com LoRA

Ollama em si é um tempo de execução de inferência, não uma ferramenta de treinamento – para ajuste fino, você treina um adaptador LoRA com uma biblioteca como a do Hugging Facepeftou Unsloth, então mescle o adaptador nos pesos base ou converta-o em GGUF e carregue-o através de um ModelfileADAPTERdirectiva.

train_lora.py
pip install unsloth peft transformers datasets trl
train_lora.py
from unsloth import FastLanguageModel
from trl import SFTTrainer
from transformers import TrainingArguments
from datasets import load_dataset

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/llama-3.1-8b-bnb-4bit",
    max_seq_length=2048,
    load_in_4bit=True,
)

model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_alpha=16,
    lora_dropout=0,
)

dataset = load_dataset("json", data_files="my_training_data.jsonl", split="train")

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=2048,
    args=TrainingArguments(
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        num_train_epochs=3,
        learning_rate=2e-4,
        output_dir="outputs",
    ),
)
trainer.train()
model.save_pretrained_gguf("my-finetuned-model", tokenizer, quantization_method="q4_k_m")

A abordagem QLoRA de 4 bits (carregar o modelo básico em 4 bits, treinar apenas as pequenas matrizes do adaptador LoRA) é o que torna isso viável em uma única GPU de consumidor com 12-24 GB de VRAM para modelos 7B-8B. Uma vez exportado para GGUF, aponte um arquivo de modeloFROMno arquivo local e carregue-o no Ollama como qualquer outro modelo.

Quando o local supera uma API hospedada

Os modelos locais fazem mais sentido para tarefas restritas e repetitivas nas quais você ajustou ou solicitou um modelo menor para corresponder à qualidade de um modelo hospedado naquela tarefa — classificação, extração estruturada, ferramentas internas com dados confidenciais ou implantações off-line/de borda. Para raciocínio aberto, uso complexo de ferramentas em várias etapas ou qualquer coisa em que a qualidade da saída afete diretamente o produto, um modelo hospedado de fronteira como Claude ainda vence; veja nossoTutorial da API Claudese você estiver avaliando essa rota para o mesmo projeto.

Perguntas Frequentes

Qual hardware eu preciso para executar um LLM local em 2026?

Para um modelo de parâmetros 7B-8B em quantização de 4 bits, 8-16 GB de RAM (ou VRAM em uma GPU discreta) são suficientes. Os modelos 13B precisam confortavelmente de 16 a 24 GB. Os modelos da classe 70B precisam de uma GPU de última geração com 48 GB + VRAM ou quantização pesada, além de muita RAM do sistema, e funcionarão visivelmente mais lento em configurações somente de CPU.

O uso do Ollama é gratuito?

Sim, Ollama é gratuito e de código aberto. É um tempo de execução local, não uma API hospedada, portanto não há cobrança por token – o custo é sua própria eletricidade e hardware. Alguns modelos distribuídos pela biblioteca do Ollama possuem licenças próprias (Llama, Gemma, Qwen, etc.) que regem o uso comercial.

Posso realmente ajustar um modelo em um laptop?

O ajuste fino completo de um modelo de vários bilhões de parâmetros não é realista em hardware de consumo. O ajuste fino de LoRA (Low-Rank Adaptation), no entanto, treina apenas um pequeno conjunto de pesos de adaptadores adicionais e é viável em uma única GPU de consumidor com 12-24 GB de VRAM para modelos de classe 7B, especialmente combinados com quantização (QLoRA).

Ollama suporta aceleração de GPU?

Sim. Ollama usa automaticamente a aceleração de GPU NVIDIA CUDA, AMD ROCm ou Apple Metal (em Macs da série M) disponível quando presente, caso contrário, recorrendo à inferência da CPU. Geralmente você não precisa configurar nada manualmente.

Qual a diferença entre um Modelfile e um ajuste fino?

Um Modelfile no Ollama personaliza o prompt do sistema, a temperatura e outros parâmetros de tempo de execução de um modelo sobre um modelo base existente – nenhum peso é alterado. Na verdade, o ajuste fino atualiza os pesos do modelo usando seu próprio conjunto de dados, o que requer mais computação, mas altera mais profundamente o comportamento subjacente do modelo.

Quando devo usar um LLM local em vez de uma API como Claude ou GPT?

Alcance um modelo local quando precisar de privacidade total dos dados (nenhum dado sai da sua máquina), custo marginal zero previsível em alto volume, disponibilidade off-line ou controle total sobre a versão exata do modelo. Procure uma API hospedada como a Claude quando precisar da melhor qualidade de raciocínio, dos recursos mais recentes ou não quiser gerenciar a infraestrutura.

Experimente neste fim de semana

Comece comollama run llama3.1:8b, sinta-se confortável com Modelfiles para personalização em nível de prompt e só faça o ajuste fino do LoRA depois de confirmar que o prompt por si só não consegue obter o comportamento que você precisa – geralmente leva você a 80% do caminho até lá de graça.

TechPulse Editorial Team

Equipe Editorial da TechPulse

Publicado em 1 de julho de 2026 · IA e ML

✍️ Leave a Comment

Your email address will not be published. Required fields are marked *

🌐 Read in:🇬🇧 English🇩🇪 Deutsch🇧🇷 Português🇸🇦 العربية🇮🇳 हिन्दी🇧🇩 বাংলা