← Ana Sayfa

LLM Nedir? Büyük Dil Modellerinin Tüm Aşamaları: Pre-training'den RAG'a Tam Rehber

3 görüntülenme
yapay zeka
LLM Nedir? Büyük Dil Modellerinin Yaşam Döngüsü

Büyük Dil Modelleri (LLM - Large Language Models), internet üzerindeki trilyonlarca kelimeyi okuyarak dil kalıplarını, mantığı ve bilgiyi özümseyen derin sinir ağı tabanlı yapay zeka sistemleridir. ChatGPT (OpenAI), Gemini (Google) ve Claude (Anthropic) gibi modeller bu kategori altında yer alır. Bir LLM'in pre-training'den inference'a (çıkarım) uzanan yaşam döngüsü; Transformer mimarisi, tokenization, Fine-Tuning, LoRA, QLoRA, RAG ve Vektör Veritabanları gibi kritik teknolojiler üzerine kuruludur.


İçindekiler

  • Temel Mimari: Transformer ve Self-Attention
  • Dilin Sayısallaştırılması: Tokenization ve Embeddings
  • Modelin Zekası: Parametreler, Ağırlıklar ve Sayısal Temsil
  • Eğitim Aşamaları: Ham Bilgiden Uzmanlığa
  • Verimlilik: LoRA ve QLoRA ile Düşük Maliyetli Fine-Tuning
  • Harici Bellek: Vektör Veritabanları ve RAG
  • Uygulama: Inference (Çıkarım) Aşaması
  • Kapsamlı Karşılaştırma Tablosu
  • Sıkça Sorulan Sorular (SSS)

  • 1. Temel Mimari: Transformer ve Self-Attention

    Transformer mimarisi, modern Büyük Dil Modellerinin temel yapı taşıdır. 2017 yılında Google araştırmacıları tarafından yayınlanan "Attention Is All You Need" (Vaswani et al., 2017) makalesiyle hayatımıza girmiş ve bugün GPT-4, LLaMA, Mistral gibi tüm önemli modellerin mimarisi bu temele dayanmaktadır.

    Transformer mimarisinin en güçlü özelliği Self-Attention (Öz-Dikkat) mekanizmasıdır. Bu mekanizma sayesinde model, bir cümledeki kelimelerin uzaklıklarından bağımsız olarak birbirleriyle olan anlamsal ilişkilerini eş zamanlı biçimde hesaplar.

    "The combination of self-attention and feed-forward layers in Transformers has proven to be an incredibly powerful and general computational primitive."

    — Andrej Karpathy
    , OpenAI'nin eski Kıdemli Araştırma Direktörü.

    Transformer'ın Klasik Mimarisi

      Bir Transformer iki ana bloktan oluşur:
    • Encoder: Girdi metnini anlamlandıran ve bağlamsal temsiller oluşturan katman.
    • Decoder: Bu temsilleri kullanarak çıktı üretme (token tahmin etme) görevi.

    GPT serisi modeller yalnızca Decoder tabanlıdır; BERT ise yalnızca Encoder kullanır.


    2. Dilin Sayısallaştırılması: Tokenization ve Embeddings

    LLM'ler kelimeleri değil, sayıları işler. Bu süreç iki kritik adımdan oluşur: Tokenization ve Embedding.

    Tokenization Nedir?

    Tokenization, ham metnin modelin anlayabileceği sayısal birimlere (token'lara) bölünmesi işlemidir. Modelin sahip olduğu tüm benzersiz token'ların listesine Vocabulary (Kelime Dağarcığı) denir.

  • GPT-4'ün vocabularysi yaklaşık 100.000+ benzersiz token içermektedir.
  • "Yapay zeka" kelimesi tokenizer'a bağlı olarak 2-4 token'a bölünebilir.
  • Yaygın kullanılan tokenization yöntemi: Byte Pair Encoding (BPE).
  • Embeddings Nedir?

    Her token, çok boyutlu matematisel bir uzayda bir vektöre (koordinat dizisine) dönüştürülür. Bu adıma Embedding denir.

  • "Kral" ve "Kraliçe" kelimeleri bu uzayda birbirine yakın koordinatlarda yer alır.
  • "Kral - Erkek + Kadın ≈ Kraliçe" gibi analojik hesaplamalar bu matematiksel uzayda mümkün olur.
  • GPT-3'te her token yaklaşık 12.288 boyutlu bir vektörle temsil edilir.

  • 3. Modelin Zekası: Parametreler, Ağırlıklar ve Sayısal Temsil

    Bir LLM'in zeka kapasitesi büyük ölçüde parametre sayısıyla ilişkilidir. Parametreler, modelin içindeki devasa matrislerden oluşur ve bu matrislerdeki sayılara ağırlıklar (weights) denir.

    Parametre Ölçeği

    ModelParametre SayısıYayınlanma Yılı
    GPT-21.5 Milyar (1.5B)2019
    GPT-3175 Milyar (175B)2020
    LLaMA 27B / 13B / 70B2023
    GPT-4 (tahmini)~1+ Trilyon2023
    Llama 3.1405B2024

    Ağırlıklar Nasıl Çalışır?

    Eğitim sürecinde, modelin tahmin ettiği ile doğru cevap arasındaki fark bir Loss Function (Kayıp Fonksiyonu) ile ölçülür. Bu farkı azaltmak için Backpropagation (Geri Yayılım) algoritmasıyla her ağırlık güncellenir.

    Bir modelde 7 milyar parametre varsa, eğitim sırasında 7 milyar sayı aynı anda güncellenmektedir.

    Hassasiyet Formatları: FP16, BF16, INT4

    Ağırlıkların bellekte nasıl saklandığı da kritik önemdedir:

  • FP32: 32-bit tam hassasiyet (en doğru, en ağır)
  • BF16/FP16: 16-bit yarı hassasiyet (yaygın eğitim formatı)
  • INT4/INT8: 4 veya 8-bit tamsayı (Quantization için kullanılır)

  • 4. Eğitim Aşamaları: Ham Bilgiden Uzmanlığa

    Pre-training (Ön Eğitim) — Foundation Model'in Doğuşu

    Pre-training, bir LLM'in internet verisi üzerinde milyarlarca token gezinerek dilin yapısını ve genel bilgiyi öğrendiği ilk ve en pahalı eğitim aşamasıdır. Bu aşamanın çıktısına Foundation Model (Temel Model) denir.

      Eğitim maliyetleri muazzamdır:
    • GPT-4'ün pre-training aşamasının yalnızca hesaplama maliyetinin 63 milyon ile 100+ milyon dolar arasında olduğu tahmin edilmektedir. (Medium, 2024)
    • Söz konusu eğitim yaklaşık 25.000 NVIDIA A100 GPU ile tahminen 90-100 gün sürmüştür.
    • Toplam işlem kapasitesi: 50-60 milyon GPU saati.

    Foundation Model bu aşamadan sonra çok şey "bilir" ancak kullanıcıyla konuşmayı, komut almayı veya güvenli davranmayı henüz öğrenmemiştir.

    Fine-Tuning (İnce Ayar) — Uzmanlık Kazanımı

    Fine-tuning, genel amaçlı bir Foundation Model'in belirli bir alan veya görev için özelleştirilmesidir. Tıp, hukuk, kodlama veya belirli bir dil için daha küçük ve kaliteli veri setleriyle yeniden eğitim yapılır.

    Instruction Tuning — Komut Anlama

    Instruction Tuning, modele "Şunu özetle", "Bana bir şiir yaz" gibi kullanıcı komutlarına nasıl cevap vereceğini öğretir. Bu aşamadan geçen modeller Instruct Model veya Chat Model olarak adlandırılır.

    RLHF — İnsan Geri Bildiriminden Öğrenme

    RLHF (Reinforcement Learning from Human Feedback - İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme), modelin ürettiği çıktıların gerçek insanlar tarafından puanlandığı ve bu puanlara göre modelin "faydalı, dürüst ve zararsız" bir kimlik kazandığı hizalama sürecidir.

    "RLHF is arguably one of the most important techniques we've developed for making language models both safer and more capable at the same time."

    — Paul Christiano
    , Alignment Research Center kurucusu.

    5. Verimlilik: LoRA ve QLoRA ile Düşük Maliyetli Fine-Tuning

    PEFT (Parameter-Efficient Fine-Tuning), modelin tüm parametrelerini güncellemek yerine küçük bir alt kümesini güncelleyerek eğitim maliyetini dramatik biçimde düşürür.

    LoRA (Low-Rank Adaptation) Nedir?

    LoRA, modelin orijinal ağırlık matrislerini dondurarak yanlarına çok daha küçük "adaptör matrisleri" ekler. Yalnızca bu küçük matrisler eğitilir.

  • LoRA ile modelin %1'inden az parametresini eğiterek neredeyse tam fine-tuning performansı elde edilebilir.
  • Araştırmalar, LoRA'nın full fine-tuning'e kıyasla çoğu görevde %95-99+ doğruluk düzeyine ulaştığını gösteriyor. (Medium, 2024)
  • Bellek kullanımı full fine-tuning'e göre %80 daha azdır.
  • QLoRA (Quantized LoRA) Nedir?

    QLoRA, LoRA'nın bir adım ötesidir. Ana modeli 4-bit hassasiyete sıkıştırır (Quantization), ardından üzerine LoRA adaptörleri uygular.

  • Bu teknik sayesinde 70 milyar parametreli modeller, tüketici segmentindeki bir ekran kartında (RTX 4060 gibi) eğitilebilir hale gelir.
  • Bellek kullanımı full fine-tuning'e göre %70-90 oranında azalır.
  • LoRA / QLoRA / Full Fine-tuning Karşılaştırması

    ÖzellikFull Fine-TuningLoRAQLoRA
    DoğrulukEn Yüksek (referans)%95-99+LoRA ile neredeyse eşdeğer
    VRAM KullanımıÇok Yüksek (referans)%80 daha az%70-90 daha az
    Eğitim HızıEn YavaşHızlıLoRA'dan biraz yavaş
    Donanım GereksinimiVeri merkezi GPU'su24GB+ VRAMTüketici GPU'su
    En İyi Kullanım SenaryosuKritik, maksimum hassasiyetÇok amaçlı denemelerKısıtlı donanım / edge cihazlar

    6. Harici Bellek: Vektör Veritabanları ve RAG

    RAG (Retrieval-Augmented Generation), Büyük Dil Modellerine gerçek zamanlı ve güncel bilgi erişimi sağlayan, modelin "bilgi kesim tarihi" (training cutoff) sorununu çözen en yaygın mimari yaklaşımdır.

    Vektör Veritabanları Nasıl Çalışır?

    Dokümanlar, PDF'ler veya şirket içi belgeler Embedding işlemiyle vektöre çevrilir ve Pinecone, Weaviate, Chroma veya Qdrant gibi Vektör Veritabanlarında saklanır. Bu veritabanları, anlamsal benzerliğe göre hızlı arama (nearest neighbor search) yapar.

    RAG Mimarisi Adım Adım

  • Kullanıcı bir soru sorar.
  • Soru da vektöre çevrilir.
  • Vektör veritabanında anlamsal olarak en yakın belgeler bulunur.
  • Model, bu belgeler bağlamıyla birlikte soruyu yanıtlar.
  • RAG'ın Etkinliği

    Araştırmalar, doğru yapılandırılmış RAG sistemlerinin LLM'lerdeki halüsinasyon (uydurma) oranını %30 ile %70 oranında azaltabildiğini ortaya koymuştur. (SQ Magazine, 2024)

  • Ayala & Bechard (2024, NAACL) çalışması: Yapılandırılmış çıktı görevlerinde RAG, halüsinasyonları %1-2 düzeyine kadar düşürülmüştür. (ACL Anthology)
  • NIH destekli sağlık araştırmaları: Özel RAG çerçeveleri, tıbbi sorularda halüsinasyon oranını %40'tan fazla azaltmıştır.
  • Önemli Not:

    RAG, halüsinasyonları tamamen ortadan kaldırmaz. Retrieval kalitesi düşükse veya alınan belge bağlamla ilgisizse model yine de hata yapabilir. (Stanford HAI)

    7. Uygulama: Inference (Çıkarım) Aşaması

    Inference (Çıkarım), eğitilmiş bir LLM'in gerçek dünyada son kullanıcıların sorularını yanıtladığı canlı uygulama aşamasıdır. Bu aşamada model yeni bir bilgi öğrenmez; mevcut ağırlıklarını ve olasılık dağılımlarını kullanarak bir sonraki en muhtemel token'ı tahmin eder.

    Inference, uzun vadede pre-training'den daha pahalı olabilir. Popüler modellerin günlük milyonlarca kullanıcıya hizmet verdiği düşünüldüğünde, inference altyapı maliyetleri toplam model maliyetini çok geçer.

    Inference Optimizasyon Teknikleri

  • Quantization: Ağırlıkları INT8/INT4'e sıkıştırarak inference hızını artırma.
  • Pruning (Budama): Düşük etkili ağırlıkları kaldırma.
  • Knowledge Distillation: Büyük bir "öğretmen" modelden küçük bir "öğrenci" modele bilgi aktarımı.
  • DeepSpeed & FSDP: Parametreleri, gradyanları ve optimizer durumlarını birden fazla GPU'ya dağıtarak büyük modellerin eğitimini ve çalıştırılmasını mümkün kılan çerçeveler.

  • 8. Kapsamlı Karşılaştırma Tablosu

    Aşama / AlanTeknik / KavramNe İşe Yarar?Anahtar Metrik
    MimariTransformer + Self-AttentionMetin içi anlam ilişkilerini eş zamanlı hesaplarKatman sayısı, Attention Head sayısı
    Ön İşlemeTokenization + EmbeddingsDili matematiksel vektörlere dönüştürürVocabulary boyutu (~100K+)
    Ana EğitimPre-trainingGenel dünya bilgisi ve dil mantığını kazandırırMilyarlarca token, 25.000+ GPU
    HizalamaInstruction Tuning + RLHFKomutlara uymayı ve zararsız olmayı öğretirİnsan puanlaması, preference dataset
    VerimlilikLoRA / QLoRADeğiştirilen param. <%1 ile tam modele yakın doğruluk%80-90 VRAM tasarrufu
    Harici HafızaVector DB + RAGHallüsinasyonu %30-70 azaltır, güncel bilgi sağlarRetrieval doğruluğu, K değeri
    UygulamaInferenceCanlı ortamda kullanıcı sorusuna cevap üretirGecikme (ms), Token/sn

    9. Sıkça Sorulan Sorular (SSS)

    LLM (Büyük Dil Modeli) nedir ve nasıl çalışır?

    LLM (Large Language Model), trilyonlarca kelimelik veri üzerinde eğitilmiş, Transformer mimarisini kullanan derin sinir ağı tabanlı bir yapay zeka modelidir. Temel çalışma prensibi, verilen bir metin bağlamında bir sonraki en olası token'ı tahmin etmektir. Bu tahmin sürecine "Inference" (çıkarım) denir.

    Pre-training ile Fine-Tuning arasındaki fark nedir?

    Pre-training, modelin internet verisi üzerinde dili ve genel bilgiyi öğrendiği ilk aşamadır (sonucu: Foundation Model). Fine-Tuning ise bu genel modeli belirli bir alan veya görev için özelleştirme sürecidir. Pre-training yüzlerce milyon dolara mal olabilirken, LoRA/QLoRA ile Fine-Tuning bir tüketici GPU'sunda yapılabilir.

    LoRA ve QLoRA arasındaki fark nedir?

    LoRA, modelin orijinal ağırlıklarını dondurup küçük adaptör matrisleri eğiterek düşük maliyetli fine-tuning sağlar. QLoRA ise LoRA'nın üzerine Quantization ekler; ana modeli 4-bit hassasiyete sıkıştırır. QLoRA, LoRA'ya kıyasla daha az bellek kullanır ve tüketici GPU'larında büyük modelleri eğitmeyi mümkün kılar.

    RAG nedir ve neden önemlidir?

    RAG (Retrieval-Augmented Generation), LLM'e harici bilgi kaynaklarına erişim sağlayan bir mimari yaklaşımdır. Model yalnızca eğitim verisiyle sınırlı kalmaz; soruya ilgili belgeler gerçek zamanlı olarak bulunup model bağlamına eklenir. Bu, modelin güncel ve doğru bilgi üretmesini sağlar, halüsinasyon oranını %30-70 oranında azaltır.

    Foundation Model ile Instruct Model arasındaki fark nedir?

    Foundation Model (Temel Model), yalnızca pre-training geçirmiş ham modeldir; dili anlar ama kullanıcı komutlarına uygun yanıt vermez. Instruct Model ise Instruction Tuning ve RLHF süreçlerinden geçmiş, kullanıcı yönergelerine uyum sağlayan ve güvenli yanıtlar üretmek üzere hizalanmış modeldir. ChatGPT ve Claude bu kategoride yer alır.


    Bu rehber, LLM ekosistemini teknik bir bütünlük içinde kavramak isteyen geliştiriciler, araştırmacılar ve yapay zeka meraklıları için hazırlanmıştır.