LLM Nedir? Büyük Dil Modellerinin Tüm Aşamaları: Pre-training'den RAG'a Tam Rehber

Q: LLM (Büyük Dil Modeli) nedir ve nasıl çalışır?

LLM (Large Language Model), trilyonlarca kelimelik veri üzerinde eğitilmiş, Transformer mimarisini kullanan derin sinir ağı tabanlı bir yapay zeka modelidir. Temel çalışma prensibi, verilen bir metin bağlamında bir sonraki en olası token'ı tahmin etmektir.

Q: Pre-training ile Fine-Tuning arasındaki fark nedir?

Pre-training, modelin internet verisi üzerinde dili ve genel bilgiyi öğrendiği ilk aşamadır (sonucu: Foundation Model). Fine-Tuning ise bu genel modeli belirli bir alan için özelleştirme sürecidir. Pre-training yüzlerce milyon dolara mal olabilirken, LoRA/QLoRA ile Fine-Tuning bir tüketici GPU'sunda yapılabilir.

Q: LoRA ve QLoRA arasındaki fark nedir?

LoRA, modelin orijinal ağırlıklarını dondurup küçük adaptör matrisleri eğiterek düşük maliyetli fine-tuning sağlar. QLoRA ise LoRA'nın üzerine Quantization ekler; ana modeli 4-bit hassasiyete sıkıştırır. Bu sayede büyük modeller tüketici GPU'larında eğitilebilir.

Q: RAG nedir ve neden önemlidir?

RAG (Retrieval-Augmented Generation), LLM'e harici bilgi kaynaklarına erişim sağlayan bir mimari yaklaşımdır. Araştırmalar, doğru yapılandırılmış RAG sistemlerinin halüsinasyon oranını %30-70 oranında azaltabildiğini göstermektedir.

Q: Foundation Model ile Instruct Model arasındaki fark nedir?

Foundation Model, yalnızca pre-training geçirmiş ham modeldir. Instruct Model ise Instruction Tuning ve RLHF süreçlerinden geçmiş, kullanıcı komutlarına uygun ve güvenli yanıtlar üretmek üzere hizalanmış modeldir. ChatGPT ve Claude Instruct Model kategorisinde yer alır.

LLM Nedir? Büyük Dil Modellerinin Yaşam Döngüsü

Büyük Dil Modelleri (LLM - Large Language Models), internet üzerindeki trilyonlarca kelimeyi okuyarak dil kalıplarını, mantığı ve bilgiyi özümseyen derin sinir ağı tabanlı yapay zeka sistemleridir. ChatGPT (OpenAI), Gemini (Google) ve Claude (Anthropic) gibi modeller bu kategori altında yer alır. Bir LLM'in pre-training'den inference'a (çıkarım) uzanan yaşam döngüsü; Transformer mimarisi, tokenization, Fine-Tuning, LoRA, QLoRA, RAG ve Vektör Veritabanları gibi kritik teknolojiler üzerine kuruludur.

İçindekiler

Temel Mimari: Transformer ve Self-Attention

Dilin Sayısallaştırılması: Tokenization ve Embeddings

Modelin Zekası: Parametreler, Ağırlıklar ve Sayısal Temsil

Eğitim Aşamaları: Ham Bilgiden Uzmanlığa

Verimlilik: LoRA ve QLoRA ile Düşük Maliyetli Fine-Tuning

Harici Bellek: Vektör Veritabanları ve RAG

Uygulama: Inference (Çıkarım) Aşaması

Kapsamlı Karşılaştırma Tablosu

Sıkça Sorulan Sorular (SSS)

1. Temel Mimari: Transformer ve Self-Attention

Transformer mimarisi, modern Büyük Dil Modellerinin temel yapı taşıdır. 2017 yılında Google araştırmacıları tarafından yayınlanan "Attention Is All You Need" (Vaswani et al., 2017) makalesiyle hayatımıza girmiş ve bugün GPT-4, LLaMA, Mistral gibi tüm önemli modellerin mimarisi bu temele dayanmaktadır.

Transformer mimarisinin en güçlü özelliği Self-Attention (Öz-Dikkat) mekanizmasıdır. Bu mekanizma sayesinde model, bir cümledeki kelimelerin uzaklıklarından bağımsız olarak birbirleriyle olan anlamsal ilişkilerini eş zamanlı biçimde hesaplar.

"The combination of self-attention and feed-forward layers in Transformers has proven to be an incredibly powerful and general computational primitive."
— Andrej Karpathy

, OpenAI'nin eski Kıdemli Araştırma Direktörü.

Transformer'ın Klasik Mimarisi

Encoder: Girdi metnini anlamlandıran ve bağlamsal temsiller oluşturan katman.
Decoder: Bu temsilleri kullanarak çıktı üretme (token tahmin etme) görevi.

GPT serisi modeller yalnızca Decoder tabanlıdır; BERT ise yalnızca Encoder kullanır.

2. Dilin Sayısallaştırılması: Tokenization ve Embeddings

LLM'ler kelimeleri değil, sayıları işler. Bu süreç iki kritik adımdan oluşur: Tokenization ve Embedding.

Tokenization Nedir?

Tokenization, ham metnin modelin anlayabileceği sayısal birimlere (token'lara) bölünmesi işlemidir. Modelin sahip olduğu tüm benzersiz token'ların listesine Vocabulary (Kelime Dağarcığı) denir.

GPT-4'ün vocabularysi yaklaşık 100.000+ benzersiz token içermektedir.

"Yapay zeka" kelimesi tokenizer'a bağlı olarak 2-4 token'a bölünebilir.

Yaygın kullanılan tokenization yöntemi: Byte Pair Encoding (BPE).

Embeddings Nedir?

Her token, çok boyutlu matematisel bir uzayda bir vektöre (koordinat dizisine) dönüştürülür. Bu adıma Embedding denir.

"Kral" ve "Kraliçe" kelimeleri bu uzayda birbirine yakın koordinatlarda yer alır.

"Kral - Erkek + Kadın ≈ Kraliçe" gibi analojik hesaplamalar bu matematiksel uzayda mümkün olur.

GPT-3'te her token yaklaşık 12.288 boyutlu bir vektörle temsil edilir.

3. Modelin Zekası: Parametreler, Ağırlıklar ve Sayısal Temsil

Bir LLM'in zeka kapasitesi büyük ölçüde parametre sayısıyla ilişkilidir. Parametreler, modelin içindeki devasa matrislerden oluşur ve bu matrislerdeki sayılara ağırlıklar (weights) denir.

Parametre Ölçeği

Model	Parametre Sayısı	Yayınlanma Yılı
GPT-2	1.5 Milyar (1.5B)	2019
GPT-3	175 Milyar (175B)	2020
LLaMA 2	7B / 13B / 70B	2023
GPT-4 (tahmini)	~1+ Trilyon	2023
Llama 3.1	405B	2024

Ağırlıklar Nasıl Çalışır?

Eğitim sürecinde, modelin tahmin ettiği ile doğru cevap arasındaki fark bir Loss Function (Kayıp Fonksiyonu) ile ölçülür. Bu farkı azaltmak için Backpropagation (Geri Yayılım) algoritmasıyla her ağırlık güncellenir.

Bir modelde 7 milyar parametre varsa, eğitim sırasında 7 milyar sayı aynı anda güncellenmektedir.

Hassasiyet Formatları: FP16, BF16, INT4

Ağırlıkların bellekte nasıl saklandığı da kritik önemdedir:

FP32: 32-bit tam hassasiyet (en doğru, en ağır)

BF16/FP16: 16-bit yarı hassasiyet (yaygın eğitim formatı)

INT4/INT8: 4 veya 8-bit tamsayı (Quantization için kullanılır)

4. Eğitim Aşamaları: Ham Bilgiden Uzmanlığa

Pre-training (Ön Eğitim) — Foundation Model'in Doğuşu

Pre-training, bir LLM'in internet verisi üzerinde milyarlarca token gezinerek dilin yapısını ve genel bilgiyi öğrendiği ilk ve en pahalı eğitim aşamasıdır. Bu aşamanın çıktısına Foundation Model (Temel Model) denir.

GPT-4'ün pre-training aşamasının yalnızca hesaplama maliyetinin 63 milyon ile 100+ milyon dolar arasında olduğu tahmin edilmektedir. (Medium, 2024)
Söz konusu eğitim yaklaşık 25.000 NVIDIA A100 GPU ile tahminen 90-100 gün sürmüştür.
Toplam işlem kapasitesi: 50-60 milyon GPU saati.

Foundation Model bu aşamadan sonra çok şey "bilir" ancak kullanıcıyla konuşmayı, komut almayı veya güvenli davranmayı henüz öğrenmemiştir.

Fine-Tuning (İnce Ayar) — Uzmanlık Kazanımı

Fine-tuning, genel amaçlı bir Foundation Model'in belirli bir alan veya görev için özelleştirilmesidir. Tıp, hukuk, kodlama veya belirli bir dil için daha küçük ve kaliteli veri setleriyle yeniden eğitim yapılır.

Instruction Tuning — Komut Anlama

Instruction Tuning, modele "Şunu özetle", "Bana bir şiir yaz" gibi kullanıcı komutlarına nasıl cevap vereceğini öğretir. Bu aşamadan geçen modeller Instruct Model veya Chat Model olarak adlandırılır.

RLHF — İnsan Geri Bildiriminden Öğrenme

RLHF (Reinforcement Learning from Human Feedback - İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme), modelin ürettiği çıktıların gerçek insanlar tarafından puanlandığı ve bu puanlara göre modelin "faydalı, dürüst ve zararsız" bir kimlik kazandığı hizalama sürecidir.

"RLHF is arguably one of the most important techniques we've developed for making language models both safer and more capable at the same time."
— Paul Christiano

, Alignment Research Center kurucusu.

5. Verimlilik: LoRA ve QLoRA ile Düşük Maliyetli Fine-Tuning

PEFT (Parameter-Efficient Fine-Tuning), modelin tüm parametrelerini güncellemek yerine küçük bir alt kümesini güncelleyerek eğitim maliyetini dramatik biçimde düşürür.

LoRA (Low-Rank Adaptation) Nedir?

LoRA, modelin orijinal ağırlık matrislerini dondurarak yanlarına çok daha küçük "adaptör matrisleri" ekler. Yalnızca bu küçük matrisler eğitilir.

LoRA ile modelin %1'inden az parametresini eğiterek neredeyse tam fine-tuning performansı elde edilebilir.

Araştırmalar, LoRA'nın full fine-tuning'e kıyasla çoğu görevde %95-99+ doğruluk düzeyine ulaştığını gösteriyor. (Medium, 2024)

Bellek kullanımı full fine-tuning'e göre %80 daha azdır.

QLoRA (Quantized LoRA) Nedir?

QLoRA, LoRA'nın bir adım ötesidir. Ana modeli 4-bit hassasiyete sıkıştırır (Quantization), ardından üzerine LoRA adaptörleri uygular.

Bu teknik sayesinde 70 milyar parametreli modeller, tüketici segmentindeki bir ekran kartında (RTX 4060 gibi) eğitilebilir hale gelir.

Bellek kullanımı full fine-tuning'e göre %70-90 oranında azalır.

LoRA / QLoRA / Full Fine-tuning Karşılaştırması

Özellik	Full Fine-Tuning	LoRA	QLoRA
Doğruluk	En Yüksek (referans)	%95-99+	LoRA ile neredeyse eşdeğer
VRAM Kullanımı	Çok Yüksek (referans)	%80 daha az	%70-90 daha az
Eğitim Hızı	En Yavaş	Hızlı	LoRA'dan biraz yavaş
Donanım Gereksinimi	Veri merkezi GPU'su	24GB+ VRAM	Tüketici GPU'su
En İyi Kullanım Senaryosu	Kritik, maksimum hassasiyet	Çok amaçlı denemeler	Kısıtlı donanım / edge cihazlar

6. Harici Bellek: Vektör Veritabanları ve RAG

RAG (Retrieval-Augmented Generation), Büyük Dil Modellerine gerçek zamanlı ve güncel bilgi erişimi sağlayan, modelin "bilgi kesim tarihi" (training cutoff) sorununu çözen en yaygın mimari yaklaşımdır.

Vektör Veritabanları Nasıl Çalışır?

Dokümanlar, PDF'ler veya şirket içi belgeler Embedding işlemiyle vektöre çevrilir ve Pinecone, Weaviate, Chroma veya Qdrant gibi Vektör Veritabanlarında saklanır. Bu veritabanları, anlamsal benzerliğe göre hızlı arama (nearest neighbor search) yapar.

RAG Mimarisi Adım Adım

Kullanıcı bir soru sorar.

Soru da vektöre çevrilir.

Vektör veritabanında anlamsal olarak en yakın belgeler bulunur.

Model, bu belgeler bağlamıyla birlikte soruyu yanıtlar.

RAG'ın Etkinliği

Araştırmalar, doğru yapılandırılmış RAG sistemlerinin LLM'lerdeki halüsinasyon (uydurma) oranını %30 ile %70 oranında azaltabildiğini ortaya koymuştur. (SQ Magazine, 2024)

Ayala & Bechard (2024, NAACL) çalışması: Yapılandırılmış çıktı görevlerinde RAG, halüsinasyonları %1-2 düzeyine kadar düşürülmüştür. (ACL Anthology)

NIH destekli sağlık araştırmaları: Özel RAG çerçeveleri, tıbbi sorularda halüsinasyon oranını %40'tan fazla azaltmıştır.

Önemli Not:

RAG, halüsinasyonları tamamen ortadan kaldırmaz. Retrieval kalitesi düşükse veya alınan belge bağlamla ilgisizse model yine de hata yapabilir. (Stanford HAI)

7. Uygulama: Inference (Çıkarım) Aşaması

Inference (Çıkarım), eğitilmiş bir LLM'in gerçek dünyada son kullanıcıların sorularını yanıtladığı canlı uygulama aşamasıdır. Bu aşamada model yeni bir bilgi öğrenmez; mevcut ağırlıklarını ve olasılık dağılımlarını kullanarak bir sonraki en muhtemel token'ı tahmin eder.

Inference, uzun vadede pre-training'den daha pahalı olabilir. Popüler modellerin günlük milyonlarca kullanıcıya hizmet verdiği düşünüldüğünde, inference altyapı maliyetleri toplam model maliyetini çok geçer.

Inference Optimizasyon Teknikleri

Quantization: Ağırlıkları INT8/INT4'e sıkıştırarak inference hızını artırma.

Pruning (Budama): Düşük etkili ağırlıkları kaldırma.

Knowledge Distillation: Büyük bir "öğretmen" modelden küçük bir "öğrenci" modele bilgi aktarımı.

DeepSpeed & FSDP: Parametreleri, gradyanları ve optimizer durumlarını birden fazla GPU'ya dağıtarak büyük modellerin eğitimini ve çalıştırılmasını mümkün kılan çerçeveler.

8. Kapsamlı Karşılaştırma Tablosu

Aşama / Alan	Teknik / Kavram	Ne İşe Yarar?	Anahtar Metrik
Mimari	Transformer + Self-Attention	Metin içi anlam ilişkilerini eş zamanlı hesaplar	Katman sayısı, Attention Head sayısı
Ön İşleme	Tokenization + Embeddings	Dili matematiksel vektörlere dönüştürür	Vocabulary boyutu (~100K+)
Ana Eğitim	Pre-training	Genel dünya bilgisi ve dil mantığını kazandırır	Milyarlarca token, 25.000+ GPU
Hizalama	Instruction Tuning + RLHF	Komutlara uymayı ve zararsız olmayı öğretir	İnsan puanlaması, preference dataset
Verimlilik	LoRA / QLoRA	Değiştirilen param. <%1 ile tam modele yakın doğruluk	%80-90 VRAM tasarrufu
Harici Hafıza	Vector DB + RAG	Hallüsinasyonu %30-70 azaltır, güncel bilgi sağlar	Retrieval doğruluğu, K değeri
Uygulama	Inference	Canlı ortamda kullanıcı sorusuna cevap üretir	Gecikme (ms), Token/sn

9. Sıkça Sorulan Sorular (SSS)

LLM (Büyük Dil Modeli) nedir ve nasıl çalışır?

LLM (Large Language Model), trilyonlarca kelimelik veri üzerinde eğitilmiş, Transformer mimarisini kullanan derin sinir ağı tabanlı bir yapay zeka modelidir. Temel çalışma prensibi, verilen bir metin bağlamında bir sonraki en olası token'ı tahmin etmektir. Bu tahmin sürecine "Inference" (çıkarım) denir.

Pre-training ile Fine-Tuning arasındaki fark nedir?

Pre-training, modelin internet verisi üzerinde dili ve genel bilgiyi öğrendiği ilk aşamadır (sonucu: Foundation Model). Fine-Tuning ise bu genel modeli belirli bir alan veya görev için özelleştirme sürecidir. Pre-training yüzlerce milyon dolara mal olabilirken, LoRA/QLoRA ile Fine-Tuning bir tüketici GPU'sunda yapılabilir.

LoRA ve QLoRA arasındaki fark nedir?

LoRA, modelin orijinal ağırlıklarını dondurup küçük adaptör matrisleri eğiterek düşük maliyetli fine-tuning sağlar. QLoRA ise LoRA'nın üzerine Quantization ekler; ana modeli 4-bit hassasiyete sıkıştırır. QLoRA, LoRA'ya kıyasla daha az bellek kullanır ve tüketici GPU'larında büyük modelleri eğitmeyi mümkün kılar.

RAG nedir ve neden önemlidir?

RAG (Retrieval-Augmented Generation), LLM'e harici bilgi kaynaklarına erişim sağlayan bir mimari yaklaşımdır. Model yalnızca eğitim verisiyle sınırlı kalmaz; soruya ilgili belgeler gerçek zamanlı olarak bulunup model bağlamına eklenir. Bu, modelin güncel ve doğru bilgi üretmesini sağlar, halüsinasyon oranını %30-70 oranında azaltır.

Foundation Model ile Instruct Model arasındaki fark nedir?

Foundation Model (Temel Model), yalnızca pre-training geçirmiş ham modeldir; dili anlar ama kullanıcı komutlarına uygun yanıt vermez. Instruct Model ise Instruction Tuning ve RLHF süreçlerinden geçmiş, kullanıcı yönergelerine uyum sağlayan ve güvenli yanıtlar üretmek üzere hizalanmış modeldir. ChatGPT ve Claude bu kategoride yer alır.

Bu rehber, LLM ekosistemini teknik bir bütünlük içinde kavramak isteyen geliştiriciler, araştırmacılar ve yapay zeka meraklıları için hazırlanmıştır.