LLM Nasıl Çalışır? Adım Adım Teknik Rehber

LLM nasil calisir kapak gorseli

Güncelleme notu: Bu GEO sürümü 18 Mart 2026 tarihinde answer-first yapı, daha net varlık tanımları ve daha kolay alıntılanabilir bölümlerle yeniden düzenlendi.

Kısa cevap: LLM, önce metni tokenlara ayırır, sonra bu tokenları embedding vektörlerine çevirir, transformer katmanları ve self-attention ile bağlamı hesaplar ve en olası sonraki tokeni seçerek cevabı üretir. Context window modelin görebildiği bağlam sınırını, temperature ve Top-P ise üretim davranışını belirler.

Hızlı Özet

Tokenization: Ham metni modelin işleyebileceği parçalara ayırır.
Embeddings: Her tokeni sayısal bir temsile dönüştürür.
Transformer: Bağlam ilişkilerini katman katman hesaplar.
Self-attention: Hangi tokenin hangisine daha çok dikkat edeceğini belirler.
Context window: Tek seferde görülebilen bağlam miktarını tanımlar.
Temperature ve Top-P: Çıktının ne kadar deterministik ya da çeşitli olacağını etkiler.

Büyük dil modelleri, dışarıdan bakıldığında tek hamlede cevap veren bir kara kutu gibi görünür. Gerçekte ise süreç daha mekaniktir: metin küçük parçalara ayrılır, bu parçalar sayısal vektörlere dönüştürülür, transformer katmanları bağlam ilişkilerini hesaplar ve model her adımda sıradaki en olası tokeni seçerek cevabı inşa eder.

Bu rehberin amacı, "LLM nasıl çalışır?" sorusuna hem teknik olarak doğru hem de takip etmesi kolay bir yanıt vermektir. Eğer siz de LLM nasıl çalışır diye merak ediyor ve bu süreci temel kavramları kaçırmadan anlamak istiyorsanız, aşağıdaki akış bunu sadeleştirir.

LLM Nedir?
Sürecin Büyük Resmi
Tokenization: Metin Neden Parçalanır?
Embeddings: Tokenlar Anlamı Nasıl Taşır?
Transformer Mimarisi Nedir?
Self-Attention Nasıl Çalışır?
Context Window: Modelin Kısa Süreli Hafızası
Temperature ve Top-P
FAQ

LLM Nedir?

LLM, yani Large Language Model, çok büyük ölçekli metin veri kümeleri üzerinde eğitilmiş bir olasılık modelidir. Temel görevi dili "anlamak" gibi görünse de çekirdekte yaptığı iş, verilen bağlama göre bir sonraki tokenin olasılık dağılımını hesaplamaktır.

Bu tanım önemlidir çünkü modelin çalışma mantığını romantikleştirmek yerine matematiksel çekirdeği gösterir. Bir LLM:

Metni tokenlara ayırır
Her tokeni vektör olarak temsil eder
Tokenler arası ilişkileri katman katman hesaplar
Her adımda sıradaki token için olasılık üretir
Sampling ayarlarıyla bu olasılıklardan seçim yapar

Kısacası model, "cevabı ezbere bilen bir sistem" gibi değil, bağlam içinden olasılık çıkaran dev bir fonksiyon gibi davranır.

Sürecin Büyük Resmi

Bir LLM'nin cevap üretme akışı birkaç ana aşamadan oluşur. LLM nasıl çalışır sorusunun kısa cevabı şudur: sistem ham metni sayısal uzaya taşır, her katmanda bağlam ilişkilerini tekrar hesaplar ve en olası devamı adım adım üretir.

Kullanıcı sisteme bir girdi verir.
Tokenizer metni tokenlara ayırır.
Model tokenları embedding vektörlerine çevirir.
Sistem pozisyon bilgisini ekler.
Transformer katmanları self-attention ve feed-forward adımlarıyla temsili işler.
Son katman her olası token için skor üretir.
Sampling ayarları yeni tokeni seçer.
Model yeni tokeni bağlama ekler ve döngüyü yeniden başlatır.

LLM'yi anlamanın en iyi yolu, bu zincirde hiçbir adımı sihir gibi görmemektir. Her kavram bir sonraki adımın zeminini hazırlar.

Tokenization: Metin Neden Parçalanır?

LLM, kelimeleri insan gibi "okumaz". Bunun yerine tokenizer metni token adı verilen küçük parçalara ayırır. Bir token bazen tek bir kelime, bazen kelimenin bir bölümü, bazen de noktalama işareti olabilir. LLM nasıl çalışır diye bakan biri için ilk kırılma noktası tam olarak buradadır.

Bu yaklaşımın nedeni verimlilik ve esnekliktir. Doğal dilde milyonlarca farklı kelime formu bulunur. Türkçe gibi eklemeli dillerde bu sayı daha da artar. Modelin her kelime formu için ayrı bir birim tutması yerine alt parçalardan oluşan bir sözlük kullanması daha pratiktir.

Örneğin "öğrenebileceklerimizden" gibi uzun bir Türkçe kelime, tek parça kalmak yerine birden fazla tokene bölünebilir. Bu sayede model:

Daha sınırlı bir token sözlüğüyle çalışır
Nadir kelimeleri tamamen yabancı görmez
Benzer kökleri ve ek yapılarını daha iyi genelleyebilir

Buradaki kritik nokta şudur: modelin gördüğü temel birim harf ya da tam kelime değil, tokenizer'ın kurduğu token dizisidir. Bu yüzden aynı cümle farklı tokenizer'larda farklı uzunlukta temsil alabilir.

Embeddings: Tokenlar Anlamı Nasıl Taşır?

Embedding, bir tokenin sabit uzunlukta bir sayısal vektör olarak aldığı temsildir. Bu vektörler, kelimenin sözlük anlamını tek başına taşımaz; modelin eğitim sırasında öğrendiği ilişkisel konumu gösterir.

Basit anlatımla embedding alanı, benzer kullanıma sahip tokenleri birbirine daha yakın konumlandırmaya çalışır. "doktor" ve "hastane" gibi kavramlar bu uzayda tamamen rastgele dağılmaz. Eğitim ilerledikçe model, hangi tokenlerin hangi bağlamlarda birlikte göründüğünü öğrenir.

Ancak embedding tek başına yeterli değildir. Çünkü aynı kelime farklı cümlelerde farklı rol oynayabilir. "Banka" kelimesi finans kurumu da olabilir, nehir kıyısı da. Bu ayrımı model, statik embedding ile değil, transformer katmanları içindeki bağlamsal temsillerle çözer.

Özetle embedding:

Tokeni sayısal hale getirir
Benzerlik ilişkileri için başlangıç noktası sağlar
Ama nihai anlamı tek başına belirlemez

Pozisyon Bilgisi: Sıra Neden Ayrı Bir Sinyaldir?

Transformer mimarisi aynı anda birçok tokene baktığı için, kelimelerin sıradaki yerini ayrıca bilmek zorundadır. Aksi halde "Ali Ayşe'yi gördü" ile "Ayşe Ali'yi gördü" benzer bileşenler içerdiği için birbirine fazla benzeyebilir.

Bu yüzden model, tokenin içerik bilgisinin yanına pozisyon bilgisini de alır. Bu bilgi sinüzoidal kodlama ya da öğrenilebilir positional embeddings gibi yöntemlerle gelebilir. Amaç aynıdır: model sadece hangi tokenlerin var olduğunu değil, hangi sırada geldiklerini de bilsin.

Doğal dilde anlam, çoğu zaman kelime varlığından çok kelime sırasına bağlıdır. Pozisyon sinyali bu yüzden kritik bir yapı taşıdır.

Transformer Mimarisi Nedir?

Modern LLM'lerin kalbinde transformer mimarisi bulunur. 2017 tarihli "Attention Is All You Need" makalesiyle yaygınlaşan bu yaklaşım, tekrarlayan ağlara göre çok daha paralel çalışabildiği ve uzun menzilli ilişkileri daha etkili modelleyebildiği için dil modellerinde baskın hale gelmiştir.

Bir transformer bloğu genellikle iki ana bölüm içerir:

Self-attention katmanı
Feed-forward sinir ağı

Bu iki bölümün etrafında residual bağlantılar ve normalization adımları bulunur. Pratikte model onlarca, bazen yüzlerce bu tür katmanı üst üste koyar. Her katman, token temsilini biraz daha bağlamsal ve görev açısından kullanışlı hale getirir.

Transformer'ın başarısı, dili tek yönlü bir akış gibi ele almak yerine, tokenler arasındaki ilişki ağını doğrudan hesaplamasından gelir.

Self-Attention Nasıl Çalışır?

Self-attention, her tokenin bağlamdaki diğer tokenlere ne kadar dikkat etmesi gerektiğini hesaplayan mekanizmadır. Bu yüzden LLM'nin "bağlamı anlama" kabiliyetinin çekirdeği burada yer alır.

Temel fikir şudur: Model her token için query, key ve value adı verilen üç farklı temsil üretir. Ardından bir tokenin query vektörü, diğer tokenlerin key vektörleriyle karşılaştırılır. Benzerlik arttıkça attention ağırlığı yükselir. Sonuçta model, hangi tokenlerden ne kadar bilgi toplayacağını belirler.

Bu mekanizma sayesinde model:

Zamirlerin hangi varlığa işaret ettiğini daha iyi çözer
Uzak kelimeler arasındaki ilişkiyi izleyebilir
Cümle içi vurgu ve bağlam kaymalarını yakalayabilir

Örneğin "Merve sunumu bitirdikten sonra dosyayı Elif'e gönderdi çünkü o son kontrolü yapacaktı" cümlesinde "o" zamirinin kime gittiği ancak bağlamsal ilişkiyle anlaşılır. Self-attention, bu tür çözümlemelerde belirleyici rol oynar.

Multi-Head Attention Neden Kullanılır?

Tek bir attention hesabı, bağlamın yalnızca bir tür ilişkisini yakalayabilir. Multi-head attention ise aynı anda birden fazla ilişki türünü izlemesine izin verir. Bir head sözdizimsel bağıntıyı takip ederken, başka bir head özne-eylem ilişkisine, bir diğeri uzun menzilli semantik bağa odaklanabilir.

Bu yapı, modelin bağlamı tek bir mercekten değil, paralel bakış açılarından işlemesini sağlar. Bu nedenle modern transformer'larda attention yalnızca "bir skor matrisi" değil, çok kanallı bir bağlam çözümleme mekanizmasıdır.

Katmanlar ve Parametreler Ne Anlama Gelir?

Katman, modelin girdiyi dönüştürdüğü hesaplama aşamalarından biridir. Parametre ise bu dönüşümlerde öğrenilen ağırlıklardır. Basitçe söylersek katman yapıyı, parametre ise modelin öğrendiği bilgiyi taşır.

Bir modelin milyarlarca parametreye sahip olması, çok geniş bir fonksiyon ailesini temsil edebildiği anlamına gelir. Ancak daha fazla parametre her zaman otomatik olarak daha iyi sonuç demek değildir. Eğitim verisi, veri kalitesi, mimari tercihler, hesaplama bütçesi ve ince ayar yöntemi de en az parametre sayısı kadar önemlidir.

Pratik bir ayrım yapmak gerekirse:

Katman sayısı derinliği etkiler
Gizli boyut genişliği temsil kapasitesini etkiler
Parametre sayısı modelin toplam öğrenme kapasitesine işaret eder

Yine de parametreyi "hafıza kapasitesi" gibi düşünmek yanıltıcı olur. Model veriyi veritabanı gibi geri çağırmaz; öğrendiği istatistiksel örüntülerle üretim yapar.

Eğitim Süreci: Model Bu Yeteneği Nasıl Kazanır?

LLM eğitiminin ana hedefi çoğu durumda bir sonraki token tahminidir. Eğitim sistemi modeli devasa bir metin korpusu üzerinde tekrar tekrar çalıştırır ve gerçek sonraki token ile kendi tahmini arasındaki fark üzerinden ağırlıkları günceller.

Bu süreçte eğitim hattı çapraz entropi kaybı gibi ölçümler kullanır. Geri yayılım ve gradyan inişi parametreleri küçük adımlarla optimize eder. Yeterince büyük veri, yeterince güçlü hesaplama ve iyi ayarlanmış eğitim süreci birleştiğinde model dil örüntülerini etkileyici ölçüde genelleyebilir.

Modern sistemlerde kaba akış genelde üç katmandan oluşur:

Temel ön eğitim
Talimat takibi için ince ayar
İnsan tercihlerine veya ödül modellerine göre hizalama

Bu yüzden bugün kullandığımız sohbet tabanlı modeller yalnızca "metin tamamlayan modeller" değildir; aynı zamanda davranışı ek aşamalarla şekillendirilmiş sistemlerdir.

Inference: Cevap Üretimi Anında Ne Olur?

Inference, eğitilmiş modelin yeni bir girdi için çıktı ürettiği aşamadır. Sistem kullanıcı promptunu tokenlara ayırır, modeli katmanlardan geçirir ve son pozisyonda sıradaki token için bir olasılık dağılımı hesaplar.

Burada önemli nokta şudur: model genellikle tek seferde tüm cevabı üretmez. Bunun yerine bir token seçer, bu tokeni bağlama ekler ve yeni bağlamla tekrar hesaplama yapar. Yani cevap, art arda gelen birçok küçük tahmin adımının ürünüdür.

Bu döngü, durma koşulu sağlanana kadar sürer:

Maksimum token sınırına ulaşılması
Stop sequence görülmesi
Modelin doğal kapanış tokeni üretmesi

Dolayısıyla akıcı görünen bir paragraf bile, aslında yüzlerce ardışık olasılık seçiminin sonucudur.

Context Window: Modelin Kısa Süreli Hafızası

Context window, modelin tek seferde görebildiği token miktarını ifade eder. LLM nasıl çalışır sorusunun ürün tarafındaki en kritik cevabı burada saklıdır; çünkü model yalnızca mevcut bağlam penceresi içindeki bilgileri dikkate alabilir.

Eğer konuşma uzadıkça eski bölümler pencerenin dışına taşarsa model o bilgileri aktif olarak kullanamaz. Bu yüzden uzun doküman özetleme, çok adımlı ajan görevleri veya uzun sohbetlerde context window kritik hale gelir.

Context window için akılda tutulması gereken üç gerçek vardır:

Büyük pencere, daha uzun bağlam tutmayı mümkün kılar
Ama daha uzun pencere her token için daha fazla hesaplama maliyeti doğurabilir
Pencere içine sığan her bilgi eşit ağırlıkta kullanılmaz

Yani modelin "her şeyi hatırladığı" izlenimi çoğu zaman yanlıştır. Daha doğru ifade, modelin o anda görünür olan bağlam üzerinde hesap yaptığıdır.

Temperature ve Top-P: Yaratıcılık Ayarları mı, Olasılık Kontrolleri mi?

Temperature ve Top-P genellikle yaratıcılık ayarı olarak anlatılır, fakat teknik olarak bunlar çıktı dağılımından nasıl örnekleme yapılacağını belirleyen kontrol mekanizmalarıdır. LLM nasıl çalışır sorusuna uygulama gözüyle bakınca bu iki ayar cevap stilini doğrudan değiştirir.

Temperature, olasılık dağılımını daha keskin ya da daha yayvan hale getirir. Düşük temperature daha öngörülebilir ve tekrarlı sonuçlar üretirken, yüksek temperature daha çeşitli ama bazen daha riskli cevaplara yol açar.

Top-P ise tüm token adaylarını değil, toplam olasılığı belirli bir eşiğe ulaşan en olası token kümesini dikkate alır. Örneğin Top-P değeri 0.9 olduğunda model, kümülatif olasılığı yüzde 90'a ulaşan çekirdek aday havuzundan seçim yapar.

Bu iki ayarın pratik etkisi şöyledir:

Ayar	Düşük Değer	Yüksek Değer
Temperature	Daha deterministik, daha tutarlı	Daha çeşitli, daha yaratıcı
Top-P	Daha dar aday havuzu	Daha geniş aday havuzu

Kod üretimi, teknik özet veya hassas bilgi aktarımı gibi işlerde genellikle daha düşük sampling tercih edilir. Beyin fırtınası, yaratıcı yazım veya alternatif fikir üretimi gibi işlerde daha yüksek çeşitlilik faydalı olabilir.

LLM'ler Gerçekten "Anlıyor" mu?

Kısa yanıt: işlevsel olarak güçlü bağlam modelleme yapıyorlar, ancak bu insan benzeri bilinçli anlayışla aynı şey değildir. LLM'ler istatistiksel örüntülerden anlamlı görünen çıktı üretir; bu yüzden bazı görevlerde çok güçlü performans gösterebilirken bazı durumlarda güvenle yanlış da üretebilirler.

Bu noktada iki aşırı uçtan da kaçınmak gerekir. Modeli ne yalnızca "otomatik tamamlama" seviyesine indirgemek doğrudur ne de onu bilinçli bir akıl gibi görmek. Daha isabetli yaklaşım, LLM'yi çok yüksek boyutlu örüntü öğrenicisi ve bağlam koşullu üretici olarak tanımlamaktır.

Halüsinasyon ve Sınırlar Neden Ortaya Çıkar?

LLM'lerin en önemli sınırlarından biri halüsinasyondur. Yani modelin akıcı, ikna edici ama yanlış bilgi üretmesidir. Bunun temel nedeni, modelin doğruluk denetleyen bir bilgi tabanından değil, olasılık dağılımından üretim yapmasıdır.

Halüsinasyon riski şu durumlarda artabilir:

Prompt belirsiz olduğunda
Kaynak gerektiren soru bağlamdan yoksun olduğunda
Model eğitim verisinin dışındaki niş bir konuda konuştuğunda
Sampling ayarları fazla agresif olduğunda

Bu yüzden üretken yapay zeka sistemleriyle çalışırken iyi prompt tasarımı, retrieval sistemleri, araç kullanımı ve insan denetimi hâlâ çok değerlidir.

LLM Kullanırken Hangi Kavram En Kritik?

Uygulama perspektifinden bakıldığında en kritik kavram çoğu zaman self-attention değil, bağlam yönetimidir. Çünkü gerçek ürünlerde başarısızlıkların önemli bir bölümü model mimarisinden değil, kötü yapılandırılmış promptlardan, yetersiz context yönetiminden ve hatalı çıktı kontrolünden kaynaklanır.

Eğer bir ekip LLM tabanlı ürün geliştiriyorsa şu kavramları birlikte düşünmelidir:

Token bütçesi
Context window sınırı
Retrieval veya araç entegrasyonu
Sampling stratejisi
Çıktı doğrulama katmanı

Teknik temel önemlidir, ancak ürün kalitesi bu temel ile uygulama tasarımının birleştiği yerde ortaya çıkar.

Sonuç: Kara Kutu Aslında Katmanlı Bir Olasılık Motorudur

LLM'lerin çalışma mantığı dışarıdan sihirli görünse de temel yapı anlaşılabilir parçalardan oluşur. LLM nasıl çalışır diye özetlersek tokenization metni işler hale getirir, embeddings tokenleri sayısal uzaya taşır, transformer katmanları bağlamı çözer, self-attention ilişkileri ağırlıklandırır ve sampling mekanizmaları son cevabın tonunu belirler.

Bu nedenle büyük dil modellerini anlamanın en doğru yolu, tek bir "zeka anı" aramak değil, uçtan uca veri dönüşüm zincirini takip etmektir. Bu zinciri anladığınızda hem model sınırlarını daha iyi görürsünüz hem de bu sistemleri daha etkili kullanmaya başlarsınız. Konuya uygulama tarafından devam etmek isterseniz yapay zeka içerik rehberleri sayfasındaki ilgili yazılara da bakabilirsiniz.

Araştırmanın teorik temelini ilk kaynaktan okumak isterseniz Attention Is All You Need makalesine doğrudan geçebilirsiniz.

FAQ

LLM ile klasik NLP modelleri arasındaki fark nedir?

Klasik NLP sistemleri çoğu zaman özellik mühendisliği ya da daha dar görev modellerine dayanır. LLM'ler ise aynı temel model üzerinden özetleme, sınıflandırma, çeviri, soru-cevap ve kod üretimi gibi çok farklı görevleri yerine getirebilir.

Parametre sayısı yükseldikçe model mutlaka daha mı iyi olur?

Hayır. Parametre sayısı önemli bir kapasite göstergesidir ama veri kalitesi, eğitim stratejisi, hizalama yöntemi ve kullanım senaryosu da sonucu güçlü biçimde etkiler.

Context window büyükse model her şeyi hatırlar mı?

Hayır. Büyük context window daha fazla bağlam görmesini sağlar, fakat model bu pencere içindeki her parçayı eşit güçte kullanmaz. Ayrıca pencere dışına çıkan bilgi aktif bağlamın dışına düşer.

Temperature değerini neye göre ayarlamak gerekir?

Göreve göre ayarlamak gerekir. Teknik doğruluk ve tutarlılık önemliyse daha düşük değerler, çeşitlilik isteniyorsa daha yüksek değerler tercih edilir.

LLM'ler neden bazen çok emin ama yanlış cevap verir?

Çünkü model doğruluk kontrolü yapan bir veritabanı gibi değil, bağlama göre en olası devamı üreten bir sistem gibi çalışır. Akıcılık ile doğruluk aynı şey değildir.

Vaswani ve arkadaşları, "Attention Is All You Need", 2017: https://arxiv.org/abs/1706.03762
Devlin ve arkadaşları, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", 2018: https://arxiv.org/abs/1810.04805
Kudo ve Richardson, "SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing", 2018: https://arxiv.org/abs/1808.06226