अपने स्वयं के हार्डवेयर पर एक ओपन-वेट भाषा मॉडल चलाना एक शोध-प्रयोगशाला की नवीनता से एक सप्ताहांत परियोजना में बदल गया। यह मार्गदर्शिका 2026 में पूर्ण पथ को कवर करती है: ओलामा को स्थापित करना, अपने हार्डवेयर के लिए सही मॉडल आकार चुनना, मॉडलफाइल्स के साथ व्यवहार को अनुकूलित करना, और जब आपको वास्तव में कुछ नया सीखने की आवश्यकता होती है तो लोरा के साथ एक मॉडल को हल्के ढंग से ठीक करना।
📋 Table of Contents
- सामग्री तालिका
- स्थानीय स्तर पर एलएलएम क्यों चलाएं
- ओलामा स्थापित करना
- हार्डवेयर और मॉडल आकार
- आपका पहला स्थानीय मॉडल
- मॉडलफाइल के साथ व्यवहार को अनुकूलित करना
- पायथन से ओलामा को कॉल करना
- लोरा के साथ फाइन-ट्यूनिंग
- जब लोकल होस्टेड एपीआई को मात देता है
- अक्सर पूछे जाने वाले प्रश्न
- TechPulse पर संबंधित पढ़ना
- इस सप्ताहांत इसे आज़माएँ
स्थानीय स्तर पर एलएलएम क्यों चलाएं
स्थानीय अनुमान उन समस्याओं को हल करता है जो होस्ट किए गए एपीआई संरचनात्मक रूप से नहीं कर सकते हैं: डेटा आपकी मशीन को कभी नहीं छोड़ता है, पैमाने पर कोई प्रति-टोकन बिल नहीं है, और जिस मॉडल संस्करण के खिलाफ आपने परीक्षण किया है वह मॉडल संस्करण है जिसे आप अगले महीने चलाएंगे, किसी भी अपस्ट्रीम डिप्रेशन शेड्यूल की परवाह किए बिना। ट्रेडऑफ़ गुणवत्ता और सुविधा है – 7B-70B रेंज में ओपन-वेट मॉडल अच्छे हैं, लेकिन वे आम तौर पर जटिल तर्क कार्यों पर सीमांत होस्ट किए गए मॉडल से पीछे रह जाते हैं।
ओलामा स्थापित करना
ओलामा मैकओएस, विंडोज और लिनक्स के लिए मूल इंस्टॉलर भेजता है, और कुशल मात्रात्मक अनुमान के लिए हुड के नीचे llama.cpp को लपेटता है।
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows: download the installer from ollama.com/download
# Verify install
ollama --version
हार्डवेयर और मॉडल आकार
मापदंडों में मॉडल का आकार एक बार मात्रा निर्धारित करने के बाद मोटे तौर पर मेमोरी आवश्यकताओं को निर्धारित करता है। 4-बिट परिमाणीकरण के लिए सामान्य नियम के रूप में (अधिकांश पुलों के लिए ओलामा डिफ़ॉल्ट):
- 3बी-4बी मॉडल– 8 जीबी रैम पर आसानी से चलाएं, जिसमें बिना किसी अलग जीपीयू वाले अधिकांश आधुनिक लैपटॉप भी शामिल हैं।
- 7बी-8बी मॉडल– लगभग 8-12GB की आवश्यकता है; सामान्य प्रयोजन की चैट और कोडिंग सहायता के लिए एक आरामदायक मधुर स्थान।
- 13बी-14बी मॉडल– सुचारू प्रदर्शन के लिए 16-24GB की आवश्यकता है।
- 70बी-क्लास मॉडल– अच्छी गति के लिए 48 जीबी + वीआरएएम की आवश्यकता है, या सिस्टम रैम और सीपीयू में विभाजित होकर धीरे-धीरे चलेगा।
ऐप्पल सिलिकॉन मैक यहां अपने वजन से ऊपर हैं क्योंकि एकीकृत मेमोरी जीपीयू को पूर्ण सिस्टम रैम पूल तक पहुंचने देती है, जिससे वे 13बी-34बी मॉडल के लिए आश्चर्यजनक रूप से सक्षम हो जाते हैं।
आपका पहला स्थानीय मॉडल
# Pull and run a general-purpose model
ollama run llama3.1:8b
# Pull a coding-focused model
ollama run qwen2.5-coder:7b
# List installed models
ollama list
# Remove a model to free disk space
ollama rm llama3.1:8b
पहलाrunकमांड मॉडल (कई गीगाबाइट) डाउनलोड करता है और आपको एक इंटरैक्टिव चैट प्रॉम्प्ट में छोड़ देता है। मॉडल स्थानीय रूप से कैश किए जाते हैं, इसलिए बाद के रन तुरंत शुरू हो जाते हैं।
मॉडलफाइल के साथ व्यवहार को अनुकूलित करना
एक मॉडलफाइल आपको बेस मॉडल के वजन को छुए बिना उसके शीर्ष पर एक कस्टम सिस्टम प्रॉम्प्ट, तापमान और अन्य मापदंडों को परत करने की सुविधा देता है – वैचारिक रूप से एलएलएम कॉन्फ़िगरेशन के लिए डॉकरफाइल के समान।
FROM qwen2.5-coder:7b
PARAMETER temperature 0.2
PARAMETER num_ctx 8192
SYSTEM """
You are a senior backend engineer. Answer concisely with working code.
Prefer Python and explain tradeoffs only when explicitly asked.
"""
ollama create backend-helper -f ./Modelfile
ollama run backend-helper
पायथन से ओलामा को कॉल करना
ओलामा ने पोर्ट 11434 पर एक स्थानीय आरईएसटी एपीआई को उजागर किया है, जिसके शीर्ष पर एक आधिकारिक पायथन क्लाइंट है – जो स्थानीय मॉडल को स्क्रिप्ट या बैकएंड सेवा में जोड़ने के लिए उपयोगी है।
pip install ollama
import ollama
response = ollama.chat(model="qwen2.5-coder:7b", messages=[
{"role": "user", "content": "Write a Python function that flattens a nested list."}
])
print(response["message"]["content"])
# Streaming
for chunk in ollama.chat(model="llama3.1:8b", messages=[
{"role": "user", "content": "Explain TCP vs UDP in two sentences."}
], stream=True):
print(chunk["message"]["content"], end="", flush=True)
लोरा के साथ फाइन-ट्यूनिंग
ओलामा स्वयं एक अनुमान रनटाइम है, प्रशिक्षण उपकरण नहीं – फाइन-ट्यूनिंग के लिए, आप हगिंग फेस जैसी लाइब्रेरी के साथ एक लोरा एडाप्टर को प्रशिक्षित करते हैंpeftया अनस्लोथ, फिर या तो एडॉप्टर को बेस वेट में मर्ज करें या इसे जीजीयूएफ में परिवर्तित करें और इसे मॉडलफाइल के माध्यम से लोड करेंADAPTERनिर्देश.
pip install unsloth peft transformers datasets trl
from unsloth import FastLanguageModel
from trl import SFTTrainer
from transformers import TrainingArguments
from datasets import load_dataset
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="unsloth/llama-3.1-8b-bnb-4bit",
max_seq_length=2048,
load_in_4bit=True,
)
model = FastLanguageModel.get_peft_model(
model,
r=16,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
lora_alpha=16,
lora_dropout=0,
)
dataset = load_dataset("json", data_files="my_training_data.jsonl", split="train")
trainer = SFTTrainer(
model=model,
tokenizer=tokenizer,
train_dataset=dataset,
dataset_text_field="text",
max_seq_length=2048,
args=TrainingArguments(
per_device_train_batch_size=2,
gradient_accumulation_steps=4,
num_train_epochs=3,
learning_rate=2e-4,
output_dir="outputs",
),
)
trainer.train()
model.save_pretrained_gguf("my-finetuned-model", tokenizer, quantization_method="q4_k_m")
4-बिट QLoRA दृष्टिकोण (बेस मॉडल को 4-बिट में लोड करना, केवल छोटे LoRA एडाप्टर मैट्रिसेस को प्रशिक्षित करना) 7B-8B मॉडल के लिए 12-24GB VRAM के साथ एकल उपभोक्ता GPU पर इसे संभव बनाता है। एक बार जीजीयूएफ को निर्यात करने के बाद, एक मॉडलफाइल को इंगित करेंFROMस्थानीय फ़ाइल पर और इसे किसी अन्य मॉडल की तरह ओलामा में लोड करें।
जब लोकल होस्टेड एपीआई को मात देता है
स्थानीय मॉडल संकीर्ण, दोहराव वाले कार्यों के लिए सबसे अधिक उपयोगी होते हैं, जहां आपने उस एक कार्य पर होस्ट किए गए मॉडल की गुणवत्ता से मेल खाने के लिए एक छोटे मॉडल को ठीक किया है या प्रेरित किया है – वर्गीकरण, संरचित निष्कर्षण, संवेदनशील डेटा के साथ आंतरिक टूलींग, या ऑफ़लाइन/एज तैनाती। ओपन-एंडेड तर्क, जटिल मल्टी-स्टेप टूल उपयोग, या ऐसी किसी भी चीज़ के लिए जहां आउटपुट गुणवत्ता सीधे उत्पाद को प्रभावित करती है, क्लाउड जैसा फ्रंटियर होस्टेड मॉडल अभी भी जीतता है; हमारा देखेंक्लाउड एपीआई ट्यूटोरियलयदि आप उसी प्रोजेक्ट के लिए उस मार्ग पर विचार कर रहे हैं।
अक्सर पूछे जाने वाले प्रश्न
2026 में स्थानीय एलएलएम चलाने के लिए मुझे किस हार्डवेयर की आवश्यकता होगी?
4-बिट परिमाणीकरण में 7B-8B पैरामीटर मॉडल के लिए, 8-16GB RAM (या असतत GPU पर VRAM) पर्याप्त है। 13B मॉडल को आराम से 16-24GB की आवश्यकता होती है। 70बी-श्रेणी के मॉडल को या तो 48 जीबी + वीआरएएम के साथ एक उच्च-स्तरीय जीपीयू या भारी परिमाणीकरण और बहुत अधिक सिस्टम रैम की आवश्यकता होती है, और केवल सीपीयू सेटअप पर यह काफी धीमी गति से चलेगा।
क्या ओलामा का उपयोग मुफ़्त है?
हाँ, ओलामा मुफ़्त और खुला स्रोत है। यह एक स्थानीय रनटाइम है, होस्टेड एपीआई नहीं, इसलिए कोई प्रति-टोकन बिलिंग नहीं है – लागत आपकी अपनी बिजली और हार्डवेयर है। ओलामा की लाइब्रेरी के माध्यम से वितरित कुछ मॉडलों के पास अपने स्वयं के लाइसेंस (लामा, जेम्मा, क्वेन, आदि) होते हैं जो व्यावसायिक उपयोग को नियंत्रित करते हैं।
क्या मैं वास्तव में लैपटॉप पर किसी मॉडल को फाइन-ट्यून कर सकता हूँ?
मल्टी-बिलियन पैरामीटर मॉडल की पूर्ण फाइन-ट्यूनिंग उपभोक्ता हार्डवेयर पर यथार्थवादी नहीं है। लोरा (लो-रैंक एडेप्टेशन) फाइन-ट्यूनिंग, हालांकि, केवल अतिरिक्त एडाप्टर भार के एक छोटे सेट को प्रशिक्षित करता है और 7बी-श्रेणी मॉडल के लिए 12-24 जीबी वीआरएएम के साथ एकल उपभोक्ता जीपीयू पर संभव है, विशेष रूप से क्वांटाइजेशन (क्यूएलओआरए) के साथ संयुक्त।
क्या ओलामा GPU त्वरण का समर्थन करता है?
हाँ। ओलामा मौजूद होने पर स्वचालित रूप से उपलब्ध एनवीडिया सीयूडीए, एएमडी आरओसीएम, या ऐप्पल मेटल (एम-सीरीज़ मैक पर) जीपीयू त्वरण का उपयोग करता है, अन्यथा सीपीयू अनुमान पर वापस आ जाता है। आपको आम तौर पर मैन्युअल रूप से कुछ भी कॉन्फ़िगर करने की आवश्यकता नहीं होती है।
मॉडलफ़ाइल फ़ाइन-ट्यूनिंग से किस प्रकार भिन्न है?
ओलामा में एक मॉडलफाइल मौजूदा बेस मॉडल के शीर्ष पर एक मॉडल के सिस्टम प्रॉम्प्ट, तापमान और अन्य रनटाइम मापदंडों को अनुकूलित करता है – कोई वजन नहीं बदला जाता है। फाइन-ट्यूनिंग वास्तव में आपके स्वयं के डेटासेट का उपयोग करके मॉडल के वजन को अपडेट करता है, जिसके लिए अधिक गणना की आवश्यकता होती है लेकिन मॉडल के अंतर्निहित व्यवहार को अधिक गहराई से बदल देता है।
मुझे क्लाउड या जीपीटी जैसे एपीआई के बजाय स्थानीय एलएलएम का उपयोग कब करना चाहिए?
जब आपको पूर्ण डेटा गोपनीयता (कोई डेटा आपकी मशीन नहीं छोड़ता), उच्च मात्रा में अनुमानित शून्य सीमांत लागत, ऑफ़लाइन उपलब्धता, या सटीक मॉडल संस्करण पर पूर्ण नियंत्रण की आवश्यकता हो तो स्थानीय मॉडल तक पहुंचें। जब आपको सबसे मजबूत तर्क गुणवत्ता, नवीनतम क्षमताओं की आवश्यकता हो, या आप बुनियादी ढांचे का प्रबंधन नहीं करना चाहते हों, तो क्लाउड जैसे होस्टेड एपीआई तक पहुंचें।
इस सप्ताहांत इसे आज़माएँ
|||| से प्रारंभ करें , प्रॉम्प्ट-स्तरीय अनुकूलन के लिए मॉडलफाइल्स के साथ सहज हो जाएं, और LoRA फाइन-ट्यूनिंग के लिए केवल तभी पहुंचें जब आप यह पुष्टि कर लें कि अकेले प्रॉम्प्ट करने से आपको वह व्यवहार नहीं मिल सकता जिसकी आपको आवश्यकता है – यह आमतौर पर आपको वहां का 80% रास्ता मुफ्त में मिलता है।ollama run llama3.1:8bटेकपल्स संपादकीय टीम
🔗 Share this article
✍️ Leave a Comment