zohar-translator

Uzun biçimli LLM çeviri sistemi: on binlerce paragraf, abonelik limitlerini aşma, otomatik yayınlama. Kurulum RUN_ME.md üzerinden yapılır; bu dosyayı operatörün LLM ajanı okur.

Bu nedir ve neden var

Zohar Kitabı üzerine yazılmış 1700 sayfalık «Peruş ha-Sulam» şerhini İbranice ve Aramiceden Rusçaya, yalnızca kendi Claude aboneliğinin (Opus 4.7 modeli) sınırları dahilinde çevirmenin mümkün olduğu ortaya çıktı. zohar-translator, böyle bir çeviriyi yürüten ve artık herhangi bir uzun külliyat ve herhangi bir dil çifti ile çalışan o sistemin çekirdeğidir.

Girdi: bir metin kataloğu (bölümler → makaleler → paragraflar) ve bir Claude aboneliği. Çıktı: çevrilmiş külliyatı, sürekli paragraf numaralandırmasını, bölümleri ve dipnotları içeren statik bir site. Bu ikisinin arasında orchestrator yer alır: makaleleri karakter bütçesine göre parçalara böler, translator ajanlarını paralel olarak çalıştırır, 5 saatlik ve haftalık abonelik pencerelerini atlatır ve her bölüm tamamlandıkça sonucu GitHub Pages'e işler.

Çalışan bir referans olarak Zohar Kitabı'nın çevirimiz: imyavel.github.io/zohar-sulam (CC BY 4.0 lisansı, sitede belirtilmiştir). Kaputun altında tam olarak sizin de kendi sisteminizde dağıtabileceğiniz aynı paket bulunur.

Sistemi kendi külliyatınız için dağıtmak için operatör Claude Code'u kurar ve ona «RUN_ME.md dosyasını oku ve beni adım adım yönlendir» der. Bundan sonra LLM ajan operatörü 8 uyarlama aşaması boyunca götürür; teknik altyapı bilgisi gerekmez.

Dağıtım aşamaları

Her aşama kendi stages/NN_*.md dosyasında anlatılır. Operatörün LLM ajanı bunları sırayla yükler, operatöre «(Q N / NN: …)» biçiminde sorular sorar ve yanıtları progress.json içine kaydeder — bu sayede oturum herhangi bir noktada kesilebilir ve yeni bir oturumdan aynı yerden devam edilebilir.

  1. Environment Python bağımlılıklarının kurulumu ve stok GUI'nin başlatılabildiğinin doğrulanması. Bu yapılmadan sonraki aşamaların anlamı yoktur. stages/01_setup.md →
  2. Source loader Külliyatın nereden yükleneceği. Sefaria üzerindeki metinler için hazır fast-path: reference/source_loader/download_sefaria.py. Kendi kaynağınız için operatör aynı biçimde (bölümlere göre gruplanmış JSON paragraflar) bir yükleyici yazar. stages/02_source_loader.md →
  3. Text structure Chunking birimleri: neyin «makale» (çeviri birimi) sayılacağı ve paragrafların karakter bütçesine göre nasıl parçalara bölüneceği. Zohar için: bölümler → makaleler → Sulam paragrafları; başka bir külliyat için benzer üç seviyeli hiyerarşi. stages/03_text_structure.md →
  4. Glossary Terimler sözlüğü. Başlangıç noktası olarak Zohar sözlüğümüzü alabilirsiniz (aynı Zohar'ı çevirmek için), ya da yalnızca dosya yapısını ve metodolojiyi alabilirsiniz (translator ajan, sözlüğe tüm içeriği belleğe yüklenerek değil, bir CLI aracı üzerinden erişir). stages/04_glossary.md →
  5. Prompt template Çeviri üslubu (lafzi / edebi / karışık), biçimlendirme kuralları, «yaratıcı» pasajların çevirmen dipnotlarıyla nasıl işaretleneceği. templates/translation_prompt.md içindeki şablon, LLM ajan tarafından operatörün tercihlerine göre uyarlanır. stages/05_prompt.md →
  6. Publish target Sonucun nereye yayınlanacağı: şablonumuz üzerinden GitHub Pages (src/gh_deploy.py aracılığıyla otomatik dağıtım), kendi kanalınız (S3 / GitLab / kendi sunucunuz) veya yayınlama olmadan yalnızca yerel. stages/06_publish.md →
  7. Smoke run Sentetik mini bir külliyat üzerinde kısa, uçtan uca bir koşu: tüm pipeline'ın (chunking → translator → resume → commit) uyarlanmış sistemde dakikalar içinde çalıştığını, gerçek aboneliği tam külliyatta tüketmeden doğrular. stages/07_smoke.md →
  8. Hand-off Operatör, GUI'yi tam külliyat üzerinde başlatır ve Telegram botu üzerinden izler. Bu noktadan itibaren dağıtım LLM ajanı sahneden çekilir; sistem kendi başına çalışır. stages/08_handoff.md →

Çevirmen mimarisi (GUI + Telegram)

Ayrıntılı açıklama ARCHITECTURE.md dosyasında (9 bölüm: orchestrator FSM'i, paralellik, limit aşımı, chunking+resume, gh_deploy, genişleme noktaları, recovery script'leri). Burada yalnızca en önemli unsurlar.

  • GUI (src/gui.pyw) — batch kuyruğunu, makale durumlarını, chunking bütçesini ve başlat/durdur düğmelerini barındıran ana pencere. Operatörün giriş noktasıdır.
  • Telegram botu (src/bot.py) — bölüm tamamlanma, hit-limit (5h), haftalık limit ve hata bildirimleri. Devam ettirme ve durum kontrolü için komutlar. İsteğe bağlıdır (--no-bot ile başlatılır).
  • Orchestrator (src/orchestrator.py) — PREPARING → RUNNING → COMPLETED / HIT_LIMIT / WEEKLY_LIMIT / FAILED durumlarına sahip bir FSM. Yeniden denemeleri yönetir, çökme sonrası durumu yeniden kurar, translator ajanlarının paralelliğini idare eder.
  • Chunking — paragraflar, kaynak metnin karakter bütçesine göre parçalara gruplanır (varsayılan ~7500). Bir paragraf asla ortasından bölünmez; büyük bir paragraf bütünlüğünü koruyarak kendi başına bir parça olur.
  • Resume — translator bir makalenin ortasında düşerse (hit-limit, ağ, OOM), sonraki çalıştırma çevrilen kısmı okur, tam olarak yazılmış son paragrafı bulur ve bir sonrakinden devam eder. Mükerrer kayıt yazılmaz, numaralandırma sürekli kalır.
  • Limit aşımı — 5 saatlik abonelik penceresinde orchestrator batch'i WAITING durumuna alır, pencerenin sonuna kadar uyur ve devam eder. Haftalık limitte sıfırlanmaya kadar duraklar ve TG bildirimi gönderir. Pencereler arasında operatörün herhangi bir el işine ihtiyaç yoktur.
  • gh_deploy (src/gh_deploy.py) — tamamlanan her bölümden sonra main dalına commit + push yapılır; GitHub Pages bunu alır ve kamuya açık siteyi günceller. Tamamlanan bölümler, tüm külliyatın bitmesini beklemeden çeviri ilerledikçe sitede görünür.

Geri bildirim

Bu dağıtım mekanizması başka makinelerde ve başka ellerde henüz yeterince denenmediği için, bunu kullanmaya ve kurulum ile kendi külliyatına uyarlama sürecini bağımsız olarak baştan sona geçmeye karar veren ilk gönüllülere; rastlanan pürüzler, eksik kalmış noktalar veya talimatlardaki doğrudan hatalar üzerine geri bildirimleri için minnettar olacağım — bana imyavel@gmail.com adresinden ulaşabilirsiniz.

Kaynak kod, RUN_ME ve issue'lar şu adreste: github.com/imyavel/zohar-translator. Lisans: kod ve dokümantasyon için MIT; Zohar referans çevirisi için CC BY 4.0.