What hardware do I need to run a local LLM in 2026?

For a 7B-8B parameter model in 4-bit quantization, 8-16GB of RAM (or VRAM on a discrete GPU) is enough. 13B models comfortably need 16-24GB. 70B-class models need either a high-end GPU with 48GB+ VRAM or heavy quantization plus a lot of system RAM, and will run noticeably slower on CPU-only setups.

Is Ollama free to use?

Yes, Ollama is free and open source. It is a local runtime, not a hosted API, so there is no per-token billing — the cost is your own electricity and hardware. Some models distributed through Ollama's library do have their own licenses (Llama, Gemma, Qwen, etc.) that govern commercial use.

Can I really fine-tune a model on a laptop?

Full fine-tuning of a multi-billion parameter model is not realistic on consumer hardware. LoRA (Low-Rank Adaptation) fine-tuning, however, only trains a small set of additional adapter weights and is feasible on a single consumer GPU with 12-24GB VRAM for 7B-class models, especially combined with quantization (QLoRA).

Does Ollama support GPU acceleration?

Yes. Ollama automatically uses available NVIDIA CUDA, AMD ROCm, or Apple Metal (on M-series Macs) GPU acceleration when present, falling back to CPU inference otherwise. You generally don't need to configure anything manually.

How is a Modelfile different from fine-tuning?

A Modelfile in Ollama customizes a model's system prompt, temperature, and other runtime parameters on top of an existing base model — no weights are changed. Fine-tuning actually updates the model's weights using your own dataset, which requires more compute but changes the model's underlying behavior more deeply.

When should I use a local LLM instead of an API like Claude or GPT?

Reach for a local model when you need full data privacy (no data leaves your machine), predictable zero marginal cost at high volume, offline availability, or full control over the exact model version. Reach for a hosted API like Claude when you need the strongest reasoning quality, the latest capabilities, or don't want to manage infrastructure.

So optimieren Sie LLMs und führen sie lokal mit Ollama im Jahr 2026 aus

⏱️7 min read · 1,401 words

How to Fine-Tune and Run LLMs Locally with Ollama in 2026

Das Ausführen eines Open-Weight-Sprachmodells auf Ihrer eigenen Hardware entwickelte sich von einer Neuheit im Forschungslabor zu einem Wochenendprojekt. Dieser Leitfaden deckt den gesamten Weg im Jahr 2026 ab: Installation von Ollama, Auswahl der richtigen Modellgröße für Ihre Hardware, Anpassung des Verhaltens mit Modelfiles und leichte Feinabstimmung eines Modells mit LoRA, wenn Sie es benötigen, um tatsächlich etwas Neues zu lernen.

📋 Table of Contents

Inhaltsverzeichnis
Warum ein LLM lokal ausführen
Ollama installieren
Hardware- und Modellgröße
Dein erstes lokales Model
Anpassen des Verhaltens mit einer Modelldatei
Aufruf von Ollama aus Python
Feinabstimmung mit LoRA
Wenn lokal eine gehostete API schlägt
Häufig gestellte Fragen
Verwandte Lektüre auf TechPulse
Probieren Sie es dieses Wochenende aus

Warum ein LLM lokal ausführen

Lokale Inferenz löst Probleme, die gehostete APIs strukturell nicht lösen können: Daten verlassen nie Ihren Computer, es gibt keine Abrechnung pro Token im Maßstab und die Modellversion, anhand derer Sie getestet haben, ist die Modellversion, die Sie nächsten Monat ausführen werden, unabhängig von einem Upstream-Abkündigungsplan. Der Kompromiss besteht in Qualität und Komfort – Modelle mit offenem Gewicht im 7B-70B-Bereich sind gut, aber bei komplexen Argumentationsaufgaben liegen sie im Allgemeinen hinter den gehosteten Frontmodellen zurück.

Ollama installieren

Ollama liefert native Installationsprogramme für macOS, Windows und Linux und packt llama.cpp unter die Haube, um eine effiziente quantisierte Inferenz zu ermöglichen.

Terminal

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: download the installer from ollama.com/download

# Verify install
ollama --version

Hardware- und Modellgröße

Die Modellgröße in Parametern bestimmt grob den Speicherbedarf, sobald er quantifiziert ist. Als Faustregel für die 4-Bit-Quantisierung (die Ollama-Standardeinstellung für die meisten Pulls):

3B-4B-Modelle– Läuft reibungslos auf 8 GB RAM, auch auf den meisten modernen Laptops ohne separate GPU.
7B-8B-Modelle— benötigen ungefähr 8-12 GB; ein komfortabler Sweet Spot für allgemeine Chat- und Codierungshilfe.
13B-14B-Modelle– Für eine reibungslose Leistung sind 16–24 GB erforderlich.
Modelle der 70B-Klasse– Für eine gute Geschwindigkeit sind mehr als 48 GB VRAM erforderlich, sonst läuft es langsam, aufgeteilt auf System-RAM und CPU.

Apple Silicon Macs übertreffen hier ihr Gewicht, da der GPU durch den einheitlichen Speicher auf den gesamten RAM-Pool des Systems zugreifen kann, was sie überraschend leistungsfähig für 13B-34B-Modelle macht.

Dein erstes lokales Model

Terminal

# Pull and run a general-purpose model
ollama run llama3.1:8b

# Pull a coding-focused model
ollama run qwen2.5-coder:7b

# List installed models
ollama list

# Remove a model to free disk space
ollama rm llama3.1:8b

Der ersterunDer Befehl lädt das Modell herunter (mehrere Gigabyte) und führt Sie zu einer interaktiven Chat-Eingabeaufforderung. Modelle werden lokal zwischengespeichert, sodass nachfolgende Ausführungen sofort beginnen.

Anpassen des Verhaltens mit einer Modelldatei

Mit einer Modelldatei können Sie eine benutzerdefinierte Systemeingabeaufforderung, Temperatur und andere Parameter über ein Basismodell legen, ohne dessen Gewichtungen zu berühren – konzeptionell ähnlich einer Docker-Datei für die LLM-Konfiguration.

Modelldatei

FROM qwen2.5-coder:7b

PARAMETER temperature 0.2
PARAMETER num_ctx 8192

SYSTEM """
You are a senior backend engineer. Answer concisely with working code.
Prefer Python and explain tradeoffs only when explicitly asked.
"""

Terminal

ollama create backend-helper -f ./Modelfile
ollama run backend-helper

Aufruf von Ollama aus Python

Ollama stellt eine lokale REST-API auf Port 11434 bereit, mit einem offiziellen Python-Client darüber – nützlich für die Verbindung eines lokalen Modells mit einem Skript oder Backend-Dienst.

chat.py

pip install ollama

chat.py

import ollama

response = ollama.chat(model="qwen2.5-coder:7b", messages=[
    {"role": "user", "content": "Write a Python function that flattens a nested list."}
])
print(response["message"]["content"])

# Streaming
for chunk in ollama.chat(model="llama3.1:8b", messages=[
    {"role": "user", "content": "Explain TCP vs UDP in two sentences."}
], stream=True):
    print(chunk["message"]["content"], end="", flush=True)

Feinabstimmung mit LoRA

Ollama selbst ist eine Inferenzlaufzeit und kein Trainingstool – zur Feinabstimmung trainieren Sie einen LoRA-Adapter mit einer Bibliothek wiepeftvon Hugging Face oder Unsloth, dann entweder den Adapter mit den Basisgewichten zusammenführen oder ihn in GGUF konvertieren und überADAPTEReiner Modeldatei laden Richtlinie.

train_lora.py

pip install unsloth peft transformers datasets trl

train_lora.py

from unsloth import FastLanguageModel
from trl import SFTTrainer
from transformers import TrainingArguments
from datasets import load_dataset

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/llama-3.1-8b-bnb-4bit",
    max_seq_length=2048,
    load_in_4bit=True,
)

model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_alpha=16,
    lora_dropout=0,
)

dataset = load_dataset("json", data_files="my_training_data.jsonl", split="train")

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=2048,
    args=TrainingArguments(
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        num_train_epochs=3,
        learning_rate=2e-4,
        output_dir="outputs",
    ),
)
trainer.train()
model.save_pretrained_gguf("my-finetuned-model", tokenizer, quantization_method="q4_k_m")

Der 4-Bit-QLoRA-Ansatz (Laden des Basismodells in 4-Bit, Training nur der kleinen LoRA-Adaptermatrizen) macht dies auf einer einzelnen Consumer-GPU mit 12–24 GB VRAM für 7B–8B-Modelle möglich. Zeigen Sie nach dem Export nach GGUF aufFROMeiner Modelldatei in der lokalen Datei und laden Sie sie wie jedes andere Modell in Ollama.

Wenn lokal eine gehostete API schlägt

Lokale Modelle sind am sinnvollsten für eng gefasste, sich wiederholende Aufgaben, bei denen Sie eine Feinabstimmung vorgenommen oder ein kleineres Modell dazu veranlasst haben, die Qualität eines gehosteten Modells für diese eine Aufgabe zu erreichen – Klassifizierung, strukturierte Extraktion, interne Tools mit sensiblen Daten oder Offline-/Edge-Bereitstellungen. Bei offenem Denken, komplexer mehrstufiger Werkzeugnutzung oder allem, wo sich die Ausgabequalität direkt auf das Produkt auswirkt, gewinnt ein Frontier-gehostetes Modell wie Claude immer noch; siehe unserClaude API-Tutorialwenn Sie diese Route für dasselbe Projekt abwägen.

Häufig gestellte Fragen

Welche Hardware benötige ich, um im Jahr 2026 ein lokales LLM zu betreiben?

Für ein 7B-8B-Parametermodell in 4-Bit-Quantisierung reichen 8-16 GB RAM (oder VRAM auf einer diskreten GPU) aus. 13B-Modelle benötigen bequem 16–24 GB. Modelle der 70B-Klasse benötigen entweder eine High-End-GPU mit mehr als 48 GB VRAM oder starke Quantisierung plus viel System-RAM und laufen bei reinen CPU-Setups deutlich langsamer.

Ist die Nutzung von Ollama kostenlos?

Ja, Ollama ist kostenlos und Open Source. Es handelt sich um eine lokale Laufzeit, nicht um eine gehostete API, daher erfolgt keine Abrechnung pro Token – die Kosten fallen für Ihren eigenen Strom und Ihre eigene Hardware an. Einige Modelle, die über die Ollama-Bibliothek vertrieben werden, verfügen über eigene Lizenzen (Llama, Gemma, Qwen usw.), die die kommerzielle Nutzung regeln.

Kann ich ein Modell wirklich auf einem Laptop optimieren?

Eine vollständige Feinabstimmung eines Modells mit mehreren Milliarden Parametern ist auf Verbraucherhardware nicht realistisch. Die Feinabstimmung von LoRA (Low-Rank Adaptation) trainiert jedoch nur einen kleinen Satz zusätzlicher Adaptergewichte und ist auf einer einzelnen Verbraucher-GPU mit 12–24 GB VRAM für Modelle der 7B-Klasse möglich, insbesondere in Kombination mit Quantisierung (QLoRA).

Unterstützt Ollama GPU-Beschleunigung?

Ja. Ollama nutzt automatisch die verfügbare GPU-Beschleunigung von NVIDIA CUDA, AMD ROCm oder Apple Metal (auf Macs der M-Serie), sofern vorhanden, und greift andernfalls auf die CPU-Inferenz zurück. Im Allgemeinen müssen Sie nichts manuell konfigurieren.

Wie unterscheidet sich ein Modelfile von der Feinabstimmung?

Eine Modelldatei in Ollama passt die Systemeingabeaufforderung, Temperatur und andere Laufzeitparameter eines Modells auf Basis eines vorhandenen Basismodells an – es werden keine Gewichtungen geändert. Durch die Feinabstimmung werden die Gewichte des Modells tatsächlich mithilfe Ihres eigenen Datensatzes aktualisiert, was mehr Rechenleistung erfordert, aber das zugrunde liegende Verhalten des Modells tiefgreifender verändert.

Wann sollte ich ein lokales LLM anstelle einer API wie Claude oder GPT verwenden?

Greifen Sie zu einem lokalen Modell, wenn Sie vollständigen Datenschutz (keine Daten verlassen Ihren Computer), vorhersehbare Null-Grenzkosten bei hohem Volumen, Offline-Verfügbarkeit oder vollständige Kontrolle über die genaue Modellversion benötigen. Greifen Sie zu einer gehosteten API wie Claude, wenn Sie die stärkste Argumentationsqualität oder die neuesten Funktionen benötigen oder die Infrastruktur nicht verwalten möchten.

Probieren Sie es dieses Wochenende aus

Beginnen Sie mitollama run llama3.1:8b, machen Sie sich mit Modelfiles für die Anpassung auf Eingabeaufforderungsebene vertraut und greifen Sie erst dann zur LoRA-Feinabstimmung, wenn Sie bestätigt haben, dass Eingabeaufforderungen allein nicht das gewünschte Verhalten erzielen können – normalerweise bringt es Ihnen 80 % des Weges dorthin kostenlos.

TechPulse-Redaktion

Veröffentlicht am 1. Juli 2026 · KI & ML

🔗 Share this article

X / Twitter Facebook WhatsApp LinkedIn Telegram

Warum ein LLM lokal ausführen

Ollama installieren

Hardware- und Modellgröße

Dein erstes lokales Model

Anpassen des Verhaltens mit einer Modelldatei

Aufruf von Ollama aus Python

Feinabstimmung mit LoRA

Wenn lokal eine gehostete API schlägt

Häufig gestellte Fragen

Verwandte Lektüre auf TechPulse

Probieren Sie es dieses Wochenende aus

✍️ Leave a Comment

Stay ahead of tech trends