LLM Nedir? Büyük Dil Modellerinin Tüm Aşamaları: Pre-training'den RAG'a Tam Rehber
Büyük Dil Modelleri (LLM - Large Language Models), internet üzerindeki trilyonlarca kelimeyi okuyarak dil kalıplarını, mantığı ve bilgiyi özümseyen derin sinir ağı tabanlı yapay zeka sistemleridir. ChatGPT (OpenAI), Gemini (Google) ve Claude (Anthropic) gibi modeller bu kategori altında yer alır. Bir LLM'in pre-training'den inference'a (çıkarım) uzanan yaşam döngüsü; Transformer mimarisi, tokenization, Fine-Tuning, LoRA, QLoRA, RAG ve Vektör Veritabanları gibi kritik teknolojiler üzerine kuruludur.
İçindekiler
1. Temel Mimari: Transformer ve Self-Attention
Transformer mimarisi, modern Büyük Dil Modellerinin temel yapı taşıdır. 2017 yılında Google araştırmacıları tarafından yayınlanan "Attention Is All You Need" (Vaswani et al., 2017) makalesiyle hayatımıza girmiş ve bugün GPT-4, LLaMA, Mistral gibi tüm önemli modellerin mimarisi bu temele dayanmaktadır.
Transformer mimarisinin en güçlü özelliği Self-Attention (Öz-Dikkat) mekanizmasıdır. Bu mekanizma sayesinde model, bir cümledeki kelimelerin uzaklıklarından bağımsız olarak birbirleriyle olan anlamsal ilişkilerini eş zamanlı biçimde hesaplar.
, OpenAI'nin eski Kıdemli Araştırma Direktörü."The combination of self-attention and feed-forward layers in Transformers has proven to be an incredibly powerful and general computational primitive."
— Andrej Karpathy
Transformer'ın Klasik Mimarisi
- Bir Transformer iki ana bloktan oluşur:
- Encoder: Girdi metnini anlamlandıran ve bağlamsal temsiller oluşturan katman.
- Decoder: Bu temsilleri kullanarak çıktı üretme (token tahmin etme) görevi.
GPT serisi modeller yalnızca Decoder tabanlıdır; BERT ise yalnızca Encoder kullanır.
2. Dilin Sayısallaştırılması: Tokenization ve Embeddings
LLM'ler kelimeleri değil, sayıları işler. Bu süreç iki kritik adımdan oluşur: Tokenization ve Embedding.
Tokenization Nedir?
Tokenization, ham metnin modelin anlayabileceği sayısal birimlere (token'lara) bölünmesi işlemidir. Modelin sahip olduğu tüm benzersiz token'ların listesine Vocabulary (Kelime Dağarcığı) denir.
Embeddings Nedir?
Her token, çok boyutlu matematisel bir uzayda bir vektöre (koordinat dizisine) dönüştürülür. Bu adıma Embedding denir.
3. Modelin Zekası: Parametreler, Ağırlıklar ve Sayısal Temsil
Bir LLM'in zeka kapasitesi büyük ölçüde parametre sayısıyla ilişkilidir. Parametreler, modelin içindeki devasa matrislerden oluşur ve bu matrislerdeki sayılara ağırlıklar (weights) denir.
Parametre Ölçeği
| Model | Parametre Sayısı | Yayınlanma Yılı |
|---|---|---|
| GPT-2 | 1.5 Milyar (1.5B) | 2019 |
| GPT-3 | 175 Milyar (175B) | 2020 |
| LLaMA 2 | 7B / 13B / 70B | 2023 |
| GPT-4 (tahmini) | ~1+ Trilyon | 2023 |
| Llama 3.1 | 405B | 2024 |
Ağırlıklar Nasıl Çalışır?
Eğitim sürecinde, modelin tahmin ettiği ile doğru cevap arasındaki fark bir Loss Function (Kayıp Fonksiyonu) ile ölçülür. Bu farkı azaltmak için Backpropagation (Geri Yayılım) algoritmasıyla her ağırlık güncellenir.
Bir modelde 7 milyar parametre varsa, eğitim sırasında 7 milyar sayı aynı anda güncellenmektedir.
Hassasiyet Formatları: FP16, BF16, INT4
Ağırlıkların bellekte nasıl saklandığı da kritik önemdedir:
4. Eğitim Aşamaları: Ham Bilgiden Uzmanlığa
Pre-training (Ön Eğitim) — Foundation Model'in Doğuşu
Pre-training, bir LLM'in internet verisi üzerinde milyarlarca token gezinerek dilin yapısını ve genel bilgiyi öğrendiği ilk ve en pahalı eğitim aşamasıdır. Bu aşamanın çıktısına Foundation Model (Temel Model) denir.
- Eğitim maliyetleri muazzamdır:
- GPT-4'ün pre-training aşamasının yalnızca hesaplama maliyetinin 63 milyon ile 100+ milyon dolar arasında olduğu tahmin edilmektedir. (Medium, 2024)
- Söz konusu eğitim yaklaşık 25.000 NVIDIA A100 GPU ile tahminen 90-100 gün sürmüştür.
- Toplam işlem kapasitesi: 50-60 milyon GPU saati.
Foundation Model bu aşamadan sonra çok şey "bilir" ancak kullanıcıyla konuşmayı, komut almayı veya güvenli davranmayı henüz öğrenmemiştir.
Fine-Tuning (İnce Ayar) — Uzmanlık Kazanımı
Fine-tuning, genel amaçlı bir Foundation Model'in belirli bir alan veya görev için özelleştirilmesidir. Tıp, hukuk, kodlama veya belirli bir dil için daha küçük ve kaliteli veri setleriyle yeniden eğitim yapılır.
Instruction Tuning — Komut Anlama
Instruction Tuning, modele "Şunu özetle", "Bana bir şiir yaz" gibi kullanıcı komutlarına nasıl cevap vereceğini öğretir. Bu aşamadan geçen modeller Instruct Model veya Chat Model olarak adlandırılır.
RLHF — İnsan Geri Bildiriminden Öğrenme
RLHF (Reinforcement Learning from Human Feedback - İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme), modelin ürettiği çıktıların gerçek insanlar tarafından puanlandığı ve bu puanlara göre modelin "faydalı, dürüst ve zararsız" bir kimlik kazandığı hizalama sürecidir.
, Alignment Research Center kurucusu."RLHF is arguably one of the most important techniques we've developed for making language models both safer and more capable at the same time."
— Paul Christiano
5. Verimlilik: LoRA ve QLoRA ile Düşük Maliyetli Fine-Tuning
PEFT (Parameter-Efficient Fine-Tuning), modelin tüm parametrelerini güncellemek yerine küçük bir alt kümesini güncelleyerek eğitim maliyetini dramatik biçimde düşürür.
LoRA (Low-Rank Adaptation) Nedir?
LoRA, modelin orijinal ağırlık matrislerini dondurarak yanlarına çok daha küçük "adaptör matrisleri" ekler. Yalnızca bu küçük matrisler eğitilir.
QLoRA (Quantized LoRA) Nedir?
QLoRA, LoRA'nın bir adım ötesidir. Ana modeli 4-bit hassasiyete sıkıştırır (Quantization), ardından üzerine LoRA adaptörleri uygular.
LoRA / QLoRA / Full Fine-tuning Karşılaştırması
| Özellik | Full Fine-Tuning | LoRA | QLoRA |
|---|---|---|---|
| Doğruluk | En Yüksek (referans) | %95-99+ | LoRA ile neredeyse eşdeğer |
| VRAM Kullanımı | Çok Yüksek (referans) | %80 daha az | %70-90 daha az |
| Eğitim Hızı | En Yavaş | Hızlı | LoRA'dan biraz yavaş |
| Donanım Gereksinimi | Veri merkezi GPU'su | 24GB+ VRAM | Tüketici GPU'su |
| En İyi Kullanım Senaryosu | Kritik, maksimum hassasiyet | Çok amaçlı denemeler | Kısıtlı donanım / edge cihazlar |
6. Harici Bellek: Vektör Veritabanları ve RAG
RAG (Retrieval-Augmented Generation), Büyük Dil Modellerine gerçek zamanlı ve güncel bilgi erişimi sağlayan, modelin "bilgi kesim tarihi" (training cutoff) sorununu çözen en yaygın mimari yaklaşımdır.
Vektör Veritabanları Nasıl Çalışır?
Dokümanlar, PDF'ler veya şirket içi belgeler Embedding işlemiyle vektöre çevrilir ve Pinecone, Weaviate, Chroma veya Qdrant gibi Vektör Veritabanlarında saklanır. Bu veritabanları, anlamsal benzerliğe göre hızlı arama (nearest neighbor search) yapar.
RAG Mimarisi Adım Adım
RAG'ın Etkinliği
Araştırmalar, doğru yapılandırılmış RAG sistemlerinin LLM'lerdeki halüsinasyon (uydurma) oranını %30 ile %70 oranında azaltabildiğini ortaya koymuştur. (SQ Magazine, 2024)
RAG, halüsinasyonları tamamen ortadan kaldırmaz. Retrieval kalitesi düşükse veya alınan belge bağlamla ilgisizse model yine de hata yapabilir. (Stanford HAI)Önemli Not:
7. Uygulama: Inference (Çıkarım) Aşaması
Inference (Çıkarım), eğitilmiş bir LLM'in gerçek dünyada son kullanıcıların sorularını yanıtladığı canlı uygulama aşamasıdır. Bu aşamada model yeni bir bilgi öğrenmez; mevcut ağırlıklarını ve olasılık dağılımlarını kullanarak bir sonraki en muhtemel token'ı tahmin eder.
Inference, uzun vadede pre-training'den daha pahalı olabilir. Popüler modellerin günlük milyonlarca kullanıcıya hizmet verdiği düşünüldüğünde, inference altyapı maliyetleri toplam model maliyetini çok geçer.
Inference Optimizasyon Teknikleri
8. Kapsamlı Karşılaştırma Tablosu
| Aşama / Alan | Teknik / Kavram | Ne İşe Yarar? | Anahtar Metrik |
|---|---|---|---|
| Mimari | Transformer + Self-Attention | Metin içi anlam ilişkilerini eş zamanlı hesaplar | Katman sayısı, Attention Head sayısı |
| Ön İşleme | Tokenization + Embeddings | Dili matematiksel vektörlere dönüştürür | Vocabulary boyutu (~100K+) |
| Ana Eğitim | Pre-training | Genel dünya bilgisi ve dil mantığını kazandırır | Milyarlarca token, 25.000+ GPU |
| Hizalama | Instruction Tuning + RLHF | Komutlara uymayı ve zararsız olmayı öğretir | İnsan puanlaması, preference dataset |
| Verimlilik | LoRA / QLoRA | Değiştirilen param. <%1 ile tam modele yakın doğruluk | %80-90 VRAM tasarrufu |
| Harici Hafıza | Vector DB + RAG | Hallüsinasyonu %30-70 azaltır, güncel bilgi sağlar | Retrieval doğruluğu, K değeri |
| Uygulama | Inference | Canlı ortamda kullanıcı sorusuna cevap üretir | Gecikme (ms), Token/sn |
9. Sıkça Sorulan Sorular (SSS)
LLM (Büyük Dil Modeli) nedir ve nasıl çalışır?
LLM (Large Language Model), trilyonlarca kelimelik veri üzerinde eğitilmiş, Transformer mimarisini kullanan derin sinir ağı tabanlı bir yapay zeka modelidir. Temel çalışma prensibi, verilen bir metin bağlamında bir sonraki en olası token'ı tahmin etmektir. Bu tahmin sürecine "Inference" (çıkarım) denir.
Pre-training ile Fine-Tuning arasındaki fark nedir?
Pre-training, modelin internet verisi üzerinde dili ve genel bilgiyi öğrendiği ilk aşamadır (sonucu: Foundation Model). Fine-Tuning ise bu genel modeli belirli bir alan veya görev için özelleştirme sürecidir. Pre-training yüzlerce milyon dolara mal olabilirken, LoRA/QLoRA ile Fine-Tuning bir tüketici GPU'sunda yapılabilir.
LoRA ve QLoRA arasındaki fark nedir?
LoRA, modelin orijinal ağırlıklarını dondurup küçük adaptör matrisleri eğiterek düşük maliyetli fine-tuning sağlar. QLoRA ise LoRA'nın üzerine Quantization ekler; ana modeli 4-bit hassasiyete sıkıştırır. QLoRA, LoRA'ya kıyasla daha az bellek kullanır ve tüketici GPU'larında büyük modelleri eğitmeyi mümkün kılar.
RAG nedir ve neden önemlidir?
RAG (Retrieval-Augmented Generation), LLM'e harici bilgi kaynaklarına erişim sağlayan bir mimari yaklaşımdır. Model yalnızca eğitim verisiyle sınırlı kalmaz; soruya ilgili belgeler gerçek zamanlı olarak bulunup model bağlamına eklenir. Bu, modelin güncel ve doğru bilgi üretmesini sağlar, halüsinasyon oranını %30-70 oranında azaltır.
Foundation Model ile Instruct Model arasındaki fark nedir?
Foundation Model (Temel Model), yalnızca pre-training geçirmiş ham modeldir; dili anlar ama kullanıcı komutlarına uygun yanıt vermez. Instruct Model ise Instruction Tuning ve RLHF süreçlerinden geçmiş, kullanıcı yönergelerine uyum sağlayan ve güvenli yanıtlar üretmek üzere hizalanmış modeldir. ChatGPT ve Claude bu kategoride yer alır.
Bu rehber, LLM ekosistemini teknik bir bütünlük içinde kavramak isteyen geliştiriciler, araştırmacılar ve yapay zeka meraklıları için hazırlanmıştır.