🌐 Detecting your location…
📢 Advertisement — Configure AdSense in Appearance → Customize → AdSense Settings

So optimieren Sie LLMs und führen sie lokal mit Ollama im Jahr 2026 aus

⏱️7 min read  ·  1,401 words

How to Fine-Tune and Run LLMs Locally with Ollama in 2026

Das Ausführen eines Open-Weight-Sprachmodells auf Ihrer eigenen Hardware entwickelte sich von einer Neuheit im Forschungslabor zu einem Wochenendprojekt. Dieser Leitfaden deckt den gesamten Weg im Jahr 2026 ab: Installation von Ollama, Auswahl der richtigen Modellgröße für Ihre Hardware, Anpassung des Verhaltens mit Modelfiles und leichte Feinabstimmung eines Modells mit LoRA, wenn Sie es benötigen, um tatsächlich etwas Neues zu lernen.

Warum ein LLM lokal ausführen

Lokale Inferenz löst Probleme, die gehostete APIs strukturell nicht lösen können: Daten verlassen nie Ihren Computer, es gibt keine Abrechnung pro Token im Maßstab und die Modellversion, anhand derer Sie getestet haben, ist die Modellversion, die Sie nächsten Monat ausführen werden, unabhängig von einem Upstream-Abkündigungsplan. Der Kompromiss besteht in Qualität und Komfort – Modelle mit offenem Gewicht im 7B-70B-Bereich sind gut, aber bei komplexen Argumentationsaufgaben liegen sie im Allgemeinen hinter den gehosteten Frontmodellen zurück.

Ollama installieren

Ollama liefert native Installationsprogramme für macOS, Windows und Linux und packt llama.cpp unter die Haube, um eine effiziente quantisierte Inferenz zu ermöglichen.

Terminal
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: download the installer from ollama.com/download

# Verify install
ollama --version

Hardware- und Modellgröße

Die Modellgröße in Parametern bestimmt grob den Speicherbedarf, sobald er quantifiziert ist. Als Faustregel für die 4-Bit-Quantisierung (die Ollama-Standardeinstellung für die meisten Pulls):

  • 3B-4B-Modelle– Läuft reibungslos auf 8 GB RAM, auch auf den meisten modernen Laptops ohne separate GPU.
  • 7B-8B-Modelle— benötigen ungefähr 8-12 GB; ein komfortabler Sweet Spot für allgemeine Chat- und Codierungshilfe.
  • 13B-14B-Modelle– Für eine reibungslose Leistung sind 16–24 GB erforderlich.
  • Modelle der 70B-Klasse– Für eine gute Geschwindigkeit sind mehr als 48 GB VRAM erforderlich, sonst läuft es langsam, aufgeteilt auf System-RAM und CPU.

Apple Silicon Macs übertreffen hier ihr Gewicht, da der GPU durch den einheitlichen Speicher auf den gesamten RAM-Pool des Systems zugreifen kann, was sie überraschend leistungsfähig für 13B-34B-Modelle macht.

Dein erstes lokales Model

Terminal
# Pull and run a general-purpose model
ollama run llama3.1:8b

# Pull a coding-focused model
ollama run qwen2.5-coder:7b

# List installed models
ollama list

# Remove a model to free disk space
ollama rm llama3.1:8b

Der ersterunDer Befehl lädt das Modell herunter (mehrere Gigabyte) und führt Sie zu einer interaktiven Chat-Eingabeaufforderung. Modelle werden lokal zwischengespeichert, sodass nachfolgende Ausführungen sofort beginnen.

Anpassen des Verhaltens mit einer Modelldatei

Mit einer Modelldatei können Sie eine benutzerdefinierte Systemeingabeaufforderung, Temperatur und andere Parameter über ein Basismodell legen, ohne dessen Gewichtungen zu berühren – konzeptionell ähnlich einer Docker-Datei für die LLM-Konfiguration.

Modelldatei
FROM qwen2.5-coder:7b

PARAMETER temperature 0.2
PARAMETER num_ctx 8192

SYSTEM """
You are a senior backend engineer. Answer concisely with working code.
Prefer Python and explain tradeoffs only when explicitly asked.
"""
Terminal
ollama create backend-helper -f ./Modelfile
ollama run backend-helper

Aufruf von Ollama aus Python

Ollama stellt eine lokale REST-API auf Port 11434 bereit, mit einem offiziellen Python-Client darüber – nützlich für die Verbindung eines lokalen Modells mit einem Skript oder Backend-Dienst.

chat.py
pip install ollama
chat.py
import ollama

response = ollama.chat(model="qwen2.5-coder:7b", messages=[
    {"role": "user", "content": "Write a Python function that flattens a nested list."}
])
print(response["message"]["content"])

# Streaming
for chunk in ollama.chat(model="llama3.1:8b", messages=[
    {"role": "user", "content": "Explain TCP vs UDP in two sentences."}
], stream=True):
    print(chunk["message"]["content"], end="", flush=True)

Feinabstimmung mit LoRA

Ollama selbst ist eine Inferenzlaufzeit und kein Trainingstool – zur Feinabstimmung trainieren Sie einen LoRA-Adapter mit einer Bibliothek wiepeftvon Hugging Face oder Unsloth, dann entweder den Adapter mit den Basisgewichten zusammenführen oder ihn in GGUF konvertieren und überADAPTEReiner Modeldatei laden Richtlinie.

train_lora.py
pip install unsloth peft transformers datasets trl
train_lora.py
from unsloth import FastLanguageModel
from trl import SFTTrainer
from transformers import TrainingArguments
from datasets import load_dataset

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/llama-3.1-8b-bnb-4bit",
    max_seq_length=2048,
    load_in_4bit=True,
)

model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_alpha=16,
    lora_dropout=0,
)

dataset = load_dataset("json", data_files="my_training_data.jsonl", split="train")

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=2048,
    args=TrainingArguments(
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        num_train_epochs=3,
        learning_rate=2e-4,
        output_dir="outputs",
    ),
)
trainer.train()
model.save_pretrained_gguf("my-finetuned-model", tokenizer, quantization_method="q4_k_m")

Der 4-Bit-QLoRA-Ansatz (Laden des Basismodells in 4-Bit, Training nur der kleinen LoRA-Adaptermatrizen) macht dies auf einer einzelnen Consumer-GPU mit 12–24 GB VRAM für 7B–8B-Modelle möglich. Zeigen Sie nach dem Export nach GGUF aufFROMeiner Modelldatei in der lokalen Datei und laden Sie sie wie jedes andere Modell in Ollama.

Wenn lokal eine gehostete API schlägt

Lokale Modelle sind am sinnvollsten für eng gefasste, sich wiederholende Aufgaben, bei denen Sie eine Feinabstimmung vorgenommen oder ein kleineres Modell dazu veranlasst haben, die Qualität eines gehosteten Modells für diese eine Aufgabe zu erreichen – Klassifizierung, strukturierte Extraktion, interne Tools mit sensiblen Daten oder Offline-/Edge-Bereitstellungen. Bei offenem Denken, komplexer mehrstufiger Werkzeugnutzung oder allem, wo sich die Ausgabequalität direkt auf das Produkt auswirkt, gewinnt ein Frontier-gehostetes Modell wie Claude immer noch; siehe unserClaude API-Tutorialwenn Sie diese Route für dasselbe Projekt abwägen.

Häufig gestellte Fragen

Welche Hardware benötige ich, um im Jahr 2026 ein lokales LLM zu betreiben?

Für ein 7B-8B-Parametermodell in 4-Bit-Quantisierung reichen 8-16 GB RAM (oder VRAM auf einer diskreten GPU) aus. 13B-Modelle benötigen bequem 16–24 GB. Modelle der 70B-Klasse benötigen entweder eine High-End-GPU mit mehr als 48 GB VRAM oder starke Quantisierung plus viel System-RAM und laufen bei reinen CPU-Setups deutlich langsamer.

Ist die Nutzung von Ollama kostenlos?

Ja, Ollama ist kostenlos und Open Source. Es handelt sich um eine lokale Laufzeit, nicht um eine gehostete API, daher erfolgt keine Abrechnung pro Token – die Kosten fallen für Ihren eigenen Strom und Ihre eigene Hardware an. Einige Modelle, die über die Ollama-Bibliothek vertrieben werden, verfügen über eigene Lizenzen (Llama, Gemma, Qwen usw.), die die kommerzielle Nutzung regeln.

Kann ich ein Modell wirklich auf einem Laptop optimieren?

Eine vollständige Feinabstimmung eines Modells mit mehreren Milliarden Parametern ist auf Verbraucherhardware nicht realistisch. Die Feinabstimmung von LoRA (Low-Rank Adaptation) trainiert jedoch nur einen kleinen Satz zusätzlicher Adaptergewichte und ist auf einer einzelnen Verbraucher-GPU mit 12–24 GB VRAM für Modelle der 7B-Klasse möglich, insbesondere in Kombination mit Quantisierung (QLoRA).

Unterstützt Ollama GPU-Beschleunigung?

Ja. Ollama nutzt automatisch die verfügbare GPU-Beschleunigung von NVIDIA CUDA, AMD ROCm oder Apple Metal (auf Macs der M-Serie), sofern vorhanden, und greift andernfalls auf die CPU-Inferenz zurück. Im Allgemeinen müssen Sie nichts manuell konfigurieren.

Wie unterscheidet sich ein Modelfile von der Feinabstimmung?

Eine Modelldatei in Ollama passt die Systemeingabeaufforderung, Temperatur und andere Laufzeitparameter eines Modells auf Basis eines vorhandenen Basismodells an – es werden keine Gewichtungen geändert. Durch die Feinabstimmung werden die Gewichte des Modells tatsächlich mithilfe Ihres eigenen Datensatzes aktualisiert, was mehr Rechenleistung erfordert, aber das zugrunde liegende Verhalten des Modells tiefgreifender verändert.

Wann sollte ich ein lokales LLM anstelle einer API wie Claude oder GPT verwenden?

Greifen Sie zu einem lokalen Modell, wenn Sie vollständigen Datenschutz (keine Daten verlassen Ihren Computer), vorhersehbare Null-Grenzkosten bei hohem Volumen, Offline-Verfügbarkeit oder vollständige Kontrolle über die genaue Modellversion benötigen. Greifen Sie zu einer gehosteten API wie Claude, wenn Sie die stärkste Argumentationsqualität oder die neuesten Funktionen benötigen oder die Infrastruktur nicht verwalten möchten.

Probieren Sie es dieses Wochenende aus

Beginnen Sie mitollama run llama3.1:8b, machen Sie sich mit Modelfiles für die Anpassung auf Eingabeaufforderungsebene vertraut und greifen Sie erst dann zur LoRA-Feinabstimmung, wenn Sie bestätigt haben, dass Eingabeaufforderungen allein nicht das gewünschte Verhalten erzielen können – normalerweise bringt es Ihnen 80 % des Weges dorthin kostenlos.

TechPulse Editorial Team

TechPulse-Redaktion

Veröffentlicht am 1. Juli 2026 · KI & ML

✍️ Leave a Comment

Your email address will not be published. Required fields are marked *

🌐 Read in:🇬🇧 English🇩🇪 Deutsch🇧🇷 Português🇸🇦 العربية🇮🇳 हिन्दी🇧🇩 বাংলা