Das Ausführen eines Open-Weight-Sprachmodells auf Ihrer eigenen Hardware entwickelte sich von einer Neuheit im Forschungslabor zu einem Wochenendprojekt. Dieser Leitfaden deckt den gesamten Weg im Jahr 2026 ab: Installation von Ollama, Auswahl der richtigen Modellgröße für Ihre Hardware, Anpassung des Verhaltens mit Modelfiles und leichte Feinabstimmung eines Modells mit LoRA, wenn Sie es benötigen, um tatsächlich etwas Neues zu lernen.
📋 Table of Contents
- Inhaltsverzeichnis
- Warum ein LLM lokal ausführen
- Ollama installieren
- Hardware- und Modellgröße
- Dein erstes lokales Model
- Anpassen des Verhaltens mit einer Modelldatei
- Aufruf von Ollama aus Python
- Feinabstimmung mit LoRA
- Wenn lokal eine gehostete API schlägt
- Häufig gestellte Fragen
- Verwandte Lektüre auf TechPulse
- Probieren Sie es dieses Wochenende aus
Warum ein LLM lokal ausführen
Lokale Inferenz löst Probleme, die gehostete APIs strukturell nicht lösen können: Daten verlassen nie Ihren Computer, es gibt keine Abrechnung pro Token im Maßstab und die Modellversion, anhand derer Sie getestet haben, ist die Modellversion, die Sie nächsten Monat ausführen werden, unabhängig von einem Upstream-Abkündigungsplan. Der Kompromiss besteht in Qualität und Komfort – Modelle mit offenem Gewicht im 7B-70B-Bereich sind gut, aber bei komplexen Argumentationsaufgaben liegen sie im Allgemeinen hinter den gehosteten Frontmodellen zurück.
Ollama installieren
Ollama liefert native Installationsprogramme für macOS, Windows und Linux und packt llama.cpp unter die Haube, um eine effiziente quantisierte Inferenz zu ermöglichen.
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows: download the installer from ollama.com/download
# Verify install
ollama --version
Hardware- und Modellgröße
Die Modellgröße in Parametern bestimmt grob den Speicherbedarf, sobald er quantifiziert ist. Als Faustregel für die 4-Bit-Quantisierung (die Ollama-Standardeinstellung für die meisten Pulls):
- 3B-4B-Modelle– Läuft reibungslos auf 8 GB RAM, auch auf den meisten modernen Laptops ohne separate GPU.
- 7B-8B-Modelle— benötigen ungefähr 8-12 GB; ein komfortabler Sweet Spot für allgemeine Chat- und Codierungshilfe.
- 13B-14B-Modelle– Für eine reibungslose Leistung sind 16–24 GB erforderlich.
- Modelle der 70B-Klasse– Für eine gute Geschwindigkeit sind mehr als 48 GB VRAM erforderlich, sonst läuft es langsam, aufgeteilt auf System-RAM und CPU.
Apple Silicon Macs übertreffen hier ihr Gewicht, da der GPU durch den einheitlichen Speicher auf den gesamten RAM-Pool des Systems zugreifen kann, was sie überraschend leistungsfähig für 13B-34B-Modelle macht.
Dein erstes lokales Model
# Pull and run a general-purpose model
ollama run llama3.1:8b
# Pull a coding-focused model
ollama run qwen2.5-coder:7b
# List installed models
ollama list
# Remove a model to free disk space
ollama rm llama3.1:8b
Der ersterunDer Befehl lädt das Modell herunter (mehrere Gigabyte) und führt Sie zu einer interaktiven Chat-Eingabeaufforderung. Modelle werden lokal zwischengespeichert, sodass nachfolgende Ausführungen sofort beginnen.
Anpassen des Verhaltens mit einer Modelldatei
Mit einer Modelldatei können Sie eine benutzerdefinierte Systemeingabeaufforderung, Temperatur und andere Parameter über ein Basismodell legen, ohne dessen Gewichtungen zu berühren – konzeptionell ähnlich einer Docker-Datei für die LLM-Konfiguration.
FROM qwen2.5-coder:7b
PARAMETER temperature 0.2
PARAMETER num_ctx 8192
SYSTEM """
You are a senior backend engineer. Answer concisely with working code.
Prefer Python and explain tradeoffs only when explicitly asked.
"""
ollama create backend-helper -f ./Modelfile
ollama run backend-helper
Aufruf von Ollama aus Python
Ollama stellt eine lokale REST-API auf Port 11434 bereit, mit einem offiziellen Python-Client darüber – nützlich für die Verbindung eines lokalen Modells mit einem Skript oder Backend-Dienst.
pip install ollama
import ollama
response = ollama.chat(model="qwen2.5-coder:7b", messages=[
{"role": "user", "content": "Write a Python function that flattens a nested list."}
])
print(response["message"]["content"])
# Streaming
for chunk in ollama.chat(model="llama3.1:8b", messages=[
{"role": "user", "content": "Explain TCP vs UDP in two sentences."}
], stream=True):
print(chunk["message"]["content"], end="", flush=True)
Feinabstimmung mit LoRA
Ollama selbst ist eine Inferenzlaufzeit und kein Trainingstool – zur Feinabstimmung trainieren Sie einen LoRA-Adapter mit einer Bibliothek wiepeftvon Hugging Face oder Unsloth, dann entweder den Adapter mit den Basisgewichten zusammenführen oder ihn in GGUF konvertieren und überADAPTEReiner Modeldatei laden Richtlinie.
pip install unsloth peft transformers datasets trl
from unsloth import FastLanguageModel
from trl import SFTTrainer
from transformers import TrainingArguments
from datasets import load_dataset
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="unsloth/llama-3.1-8b-bnb-4bit",
max_seq_length=2048,
load_in_4bit=True,
)
model = FastLanguageModel.get_peft_model(
model,
r=16,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
lora_alpha=16,
lora_dropout=0,
)
dataset = load_dataset("json", data_files="my_training_data.jsonl", split="train")
trainer = SFTTrainer(
model=model,
tokenizer=tokenizer,
train_dataset=dataset,
dataset_text_field="text",
max_seq_length=2048,
args=TrainingArguments(
per_device_train_batch_size=2,
gradient_accumulation_steps=4,
num_train_epochs=3,
learning_rate=2e-4,
output_dir="outputs",
),
)
trainer.train()
model.save_pretrained_gguf("my-finetuned-model", tokenizer, quantization_method="q4_k_m")
Der 4-Bit-QLoRA-Ansatz (Laden des Basismodells in 4-Bit, Training nur der kleinen LoRA-Adaptermatrizen) macht dies auf einer einzelnen Consumer-GPU mit 12–24 GB VRAM für 7B–8B-Modelle möglich. Zeigen Sie nach dem Export nach GGUF aufFROMeiner Modelldatei in der lokalen Datei und laden Sie sie wie jedes andere Modell in Ollama.
Wenn lokal eine gehostete API schlägt
Lokale Modelle sind am sinnvollsten für eng gefasste, sich wiederholende Aufgaben, bei denen Sie eine Feinabstimmung vorgenommen oder ein kleineres Modell dazu veranlasst haben, die Qualität eines gehosteten Modells für diese eine Aufgabe zu erreichen – Klassifizierung, strukturierte Extraktion, interne Tools mit sensiblen Daten oder Offline-/Edge-Bereitstellungen. Bei offenem Denken, komplexer mehrstufiger Werkzeugnutzung oder allem, wo sich die Ausgabequalität direkt auf das Produkt auswirkt, gewinnt ein Frontier-gehostetes Modell wie Claude immer noch; siehe unserClaude API-Tutorialwenn Sie diese Route für dasselbe Projekt abwägen.
Häufig gestellte Fragen
Welche Hardware benötige ich, um im Jahr 2026 ein lokales LLM zu betreiben?
Für ein 7B-8B-Parametermodell in 4-Bit-Quantisierung reichen 8-16 GB RAM (oder VRAM auf einer diskreten GPU) aus. 13B-Modelle benötigen bequem 16–24 GB. Modelle der 70B-Klasse benötigen entweder eine High-End-GPU mit mehr als 48 GB VRAM oder starke Quantisierung plus viel System-RAM und laufen bei reinen CPU-Setups deutlich langsamer.
Ist die Nutzung von Ollama kostenlos?
Ja, Ollama ist kostenlos und Open Source. Es handelt sich um eine lokale Laufzeit, nicht um eine gehostete API, daher erfolgt keine Abrechnung pro Token – die Kosten fallen für Ihren eigenen Strom und Ihre eigene Hardware an. Einige Modelle, die über die Ollama-Bibliothek vertrieben werden, verfügen über eigene Lizenzen (Llama, Gemma, Qwen usw.), die die kommerzielle Nutzung regeln.
Kann ich ein Modell wirklich auf einem Laptop optimieren?
Eine vollständige Feinabstimmung eines Modells mit mehreren Milliarden Parametern ist auf Verbraucherhardware nicht realistisch. Die Feinabstimmung von LoRA (Low-Rank Adaptation) trainiert jedoch nur einen kleinen Satz zusätzlicher Adaptergewichte und ist auf einer einzelnen Verbraucher-GPU mit 12–24 GB VRAM für Modelle der 7B-Klasse möglich, insbesondere in Kombination mit Quantisierung (QLoRA).
Unterstützt Ollama GPU-Beschleunigung?
Ja. Ollama nutzt automatisch die verfügbare GPU-Beschleunigung von NVIDIA CUDA, AMD ROCm oder Apple Metal (auf Macs der M-Serie), sofern vorhanden, und greift andernfalls auf die CPU-Inferenz zurück. Im Allgemeinen müssen Sie nichts manuell konfigurieren.
Wie unterscheidet sich ein Modelfile von der Feinabstimmung?
Eine Modelldatei in Ollama passt die Systemeingabeaufforderung, Temperatur und andere Laufzeitparameter eines Modells auf Basis eines vorhandenen Basismodells an – es werden keine Gewichtungen geändert. Durch die Feinabstimmung werden die Gewichte des Modells tatsächlich mithilfe Ihres eigenen Datensatzes aktualisiert, was mehr Rechenleistung erfordert, aber das zugrunde liegende Verhalten des Modells tiefgreifender verändert.
Wann sollte ich ein lokales LLM anstelle einer API wie Claude oder GPT verwenden?
Greifen Sie zu einem lokalen Modell, wenn Sie vollständigen Datenschutz (keine Daten verlassen Ihren Computer), vorhersehbare Null-Grenzkosten bei hohem Volumen, Offline-Verfügbarkeit oder vollständige Kontrolle über die genaue Modellversion benötigen. Greifen Sie zu einer gehosteten API wie Claude, wenn Sie die stärkste Argumentationsqualität oder die neuesten Funktionen benötigen oder die Infrastruktur nicht verwalten möchten.
Probieren Sie es dieses Wochenende aus
Beginnen Sie mitollama run llama3.1:8b, machen Sie sich mit Modelfiles für die Anpassung auf Eingabeaufforderungsebene vertraut und greifen Sie erst dann zur LoRA-Feinabstimmung, wenn Sie bestätigt haben, dass Eingabeaufforderungen allein nicht das gewünschte Verhalten erzielen können – normalerweise bringt es Ihnen 80 % des Weges dorthin kostenlos.
🔗 Share this article
✍️ Leave a Comment