Data Lake (Veri Gölü) Nedir? Yapay Zekâ Projelerinde Neden Belirleyici Bir Katmandır?

Bir yapay zekâ modelini eğitmek için terabytlarca veriye ihtiyacınız var. Bu veri; ERP sisteminizden, müşteri etkileşimlerinden, sensörlerden, e-postalardan, PDF belgelerinden, sosyal medyadan geliyor. Hepsi farklı formatta, farklı hızda, farklı kalitede. Peki bu kaosu nerede birleştirip anlamlı hale getiriyorsunuz?

İşte burada Data Lake (Veri Gölü) devreye giriyor.

2025 itibarıyla global veri gölü pazarı yaklaşık 19 milyar dolar değerindedir ve yıllık %22-25 büyüme oranıyla 2030'a kadar 52-90 milyar dolar aralığına ulaşması beklenmektedir. Bu büyümenin arkasındaki en temel itici güç ise yapay zekâ ve makine öğrenmesi projelerinin patlamasıdır. Data Lake artık yalnızca bir depolama çözümü değil; kurumsal yapay zekânın temel altyapısıdır.

İçindekiler

  • Veri Gölü Nedir? Temel Tanım ve Mantık
  • Data Lake ile Veri Ambarı: Temel Farklar
  • Medallion Mimarisi: Bronz, Gümüş, Altın Katmanlar
  • Yapay Zekâ Projelerinde Data Lake Neden Kritiktir?
  • RAG Sistemleri ve Data Lake: Kurumsal Yapay Zekânın Temeli
  • Fine-Tuning için Data Lake: Temiz Veri = İyi Model
  • AWS ve SAP ile Data Lake Mimarisi: Kurumsal Entegrasyon
  • KVKK Uyumu ve Data Lake Yönetimi
  • Data Lake'e Nasıl Başlanır? 5 Adım
  • Sık Sorulan Sorular

Veri Gölü Nedir? Temel Tanım ve Mantık

Data Lake, yapılandırılmış (structured), yarı yapılandırılmış (semi-structured) ve yapılandırılmamış (unstructured) her türlü veriyi, orijinal ham formatında, merkezi bir depoda toplayan mimaridir.

Klasik veri depolama anlayışından farkını bir metaforla açıklayalım: Veri ambarı, rafları düzenli, etiketleri yerli yerinde bir kütüphane gibidir. Her kitap belirli bir kategoride, belirli bir formatta durur. Data Lake ise bir göl gibidir; nehirlerden akan her türlü su (veri) olduğu gibi akar, kaynağını kaybetmez, gerektiğinde o suya dalar ve istediğiniz şeyi çıkarırsınız.

Teknik dilde bu anlayışa schema-on-read denir: Veri yazılırken şema zorunluluğu yoktur; şema, analiz sırasında tanımlanır. Bu esneklik, makine öğrenmesi modellerinin ihtiyaç duyduğu çeşitlilik ve ölçek için biçilmiş kaftandır.

Data Lake ile Veri Ambarı: Temel Farklar

  • 1. Veri Tipi:
    • Data Lake: Yapılandırılmış, yarı yapılandırılmış ve ham verileri (görüntü, ses, log) bir arada tutar.
    • Veri Ambarı: Yalnızca belirli bir şemaya oturtulmuş, yapılandırılmış verileri kabul eder.
  • 2. Şema Yapısı:
    • Data Lake (Schema-on-read): Şema zorunluluğu yoktur; veri okunurken ve analiz edilirken anlamlandırılır.
    • Veri Ambarı (Schema-on-write): Veri sisteme yazılmadan önce mutlaka belirli bir şemaya ve formata uydurulmalıdır.
  • 3. Maliyet Yapısı:
    • Data Lake: Düşüktür; nesne depolama tabanlı (Amazon S3 gibi) altyapılar kullanır.
    • Veri Ambarı: Yüksektir; hem yüksek performanslı işleme (compute) hem de depolama maliyeti içerir.
  • 4. Hedef Kullanıcı Kitlesi:
    • Data Lake: Veri bilimciler, veri mimarları ve yapay zekâ (ML) mühendisleri.
    • Veri Ambarı: İş analistleri, veri analistleri ve üst düzey raporlama ekipleri.
  • 5. Performans ve Odak Noktası:
    • Data Lake: Esneklik ve sınırsız ölçeklenebilirlik önceliklidir.
    • Veri Ambarı: Önceden tanımlı raporlar için yüksek sorgu hızı önceliklidir.
  • 6. Yapay Zekâ (AI/ML) Uyumu:
    • Data Lake (Yüksek): Modellerin eğitilmesi için gereken ham ve çok çeşitli veriyi sağlar.
    • Veri Ambarı (Sınırlı): Sadece temiz ve geçmişe dönük özet veriler sunduğu için AI projelerinde kısıtlıdır.
  • 7. Popüler Araçlar:
    • Data Lake: AWS S3 + Lake Formation, SAP Datasphere
    • Veri Ambarı: Amazon Redshift, SAP BW
  • Günümüzde pek çok kurum, bu iki mimarinin avantajlarını birleştiren Data Lakehouse yaklaşımına yönelmektedir. 2025 başında yapılan araştırmalara göre kurumların yaklaşık %67'si önümüzdeki üç yılda Data Lakehouse'u birincil analitik platformu olarak kullanmayı hedeflemektedir.

    Medallion Mimarisi: Bronz, Gümüş, Altın Katmanlar

    Modern Data Lake'ler yapılandırılmamış bir veri yığını değildir. Endüstri standardı haline gelen Medallion (Madalyon) Mimarisi, veriyi üç katmanlı bir rafinerasyon sürecinden geçirir:

    🥉 Bronz Katman — Ham Veri (Raw Zone)

    Tüm verinin kaynaktan olduğu gibi alındığı katmandır. Hiçbir şey silinmez, hiçbir şey değiştirilmez. ERP kayıtları, log dosyaları, API yanıtları, PDF belgeler, ses kayıtları; hepsi bu katmanda yaşar. Temel prensip: Sil'e basma, sakla.

    Bu katman, gelecekteki herhangi bir analiz veya model eğitimi için kaynak gerçeği (single source of truth) oluşturur.

    🥈 Gümüş Katman — Temizlenmiş ve Standardize Edilmiş Veri

    Bronz katmandaki ham veri; tekilleştirilir, eksik değerler tamamlanır, formatlar normalize edilir ve farklı kaynaklardan gelen veriler birleştirilir. Bu katmanda SAP modüllerinden (FI, CO, MM, SD) gelen verilerle diğer kaynak verilerin birleştirilmesi gerçekleşir. Makine öğrenmesi modellerinin çoğu bu katmandan beslenir.

    🥇 Altın Katman — İş Odaklı, Hazır Veri

    İş zekâsı raporları, dashboard'lar ve doğrudan tüketim için optimize edilmiş, aggregate edilmiş veri kümelerini barındırır. Finans departmanı KPI'ları, müşteri segmentleri, operasyonel metrikler bu katmanda yaşar.

    Yapay Zekâ Projelerinde Data Lake Neden Kritiktir?

    Yapay zekâ modelleri açısından verinin kalitesi ve çeşitliliği, modelin kalitesini doğrudan belirler. Data Lake'in yapay zekâ ekosistemindeki rolü şu dört başlıkta özetlenebilir:

    1. Çok Formatlı Veri Birleşimi: Görüntü, ses, metin, tablo, zaman serisi — yapay zekâ modelleri birden fazla veri tipine ihtiyaç duyar. Data Lake, tüm bu formatları tek bir mimaride barındıran tek çözümdür.

    2. Ölçeklenebilir Depolama: Model eğitimi için gereken veri miktarı terabaytlardan petabaytlara çıkabilir. Nesne depolama tabanlı Data Lake'ler (örn. Amazon S3), geleneksel depolama çözümlerine kıyasla çok daha düşük maliyetle bu ölçeği destekler.

    3. Veri Kökeni (Lineage) ve Tekrarlanabilirlik: Bir modelin neden yanlış tahmin ürettiğini anlamak için hangi veriyle eğitildiğini bilmek gerekir. Medallion mimarisi ve kataloglama araçları, verinin nereden geldiğini ve nasıl dönüştürüldüğünü izlemenizi sağlar.

    4. Deney Ortamı: Veri bilimciler farklı feature setleri ve veri kombinasyonlarıyla deney yapabilmek için ham veriye ihtiyaç duyar. Data Lake bu esnekliği sağlarken veri ambarı katı şemasıyla bu deneyleri kısıtlar.

    RAG Sistemleri ve Data Lake: Kurumsal Yapay Zekânın Temeli

    RAG (Retrieval-Augmented Generation), büyük dil modellerinin (LLM) kendi eğitim verilerinin ötesinde, kuruma özgü bir bilgi tabanından gerçek zamanlı bilgi çekerek yanıt üretmesini sağlayan mimaridir. Basitçe söylemek gerekirse: yapay zekâya "bilmediğin bir şey sorulduğunda önce kurumun kendi verisine bak, sonra cevap ver" yeteneği kazandırır.

    Data Lake ve RAG ilişkisi şöyle işler:

    1. Kurumsal belgeler (sözleşmeler, prosedürler, raporlar, e-postalar) Data Lake'e alınır
    2. Gümüş katmanda temizlenir ve chunk'lara ayrılır
    3. Embedding modeli bu chunk'ları vektöre dönüştürür
    4. Vektör veritabanına (Pinecone, pgvector, Amazon OpenSearch) yüklenir
    5. Kullanıcı sorusu geldiğinde sistem benzer vektörleri bulur ve LLM'e bağlam olarak gönderir

    Bu sürecin sağlıklı çalışması tamamen Data Lake'teki verinin kalitesine bağlıdır. Kirli veri → düşük kaliteli embedding → yanlış retrieval → halüsinasyon. Data Lake'in Bronz→Gümüş dönüşüm süreci, RAG sisteminin güvenilirliğini doğrudan belirler.

    Fine-Tuning için Data Lake: Temiz Veri = İyi Model

    RAG'ın yanı sıra, mevcut bir LLM'i sektöre özel verilerle ince ayar yapmak (fine-tuning) için de Data Lake kritik bir rol oynar. Fine-tuning, önceden eğitilmiş bir modelin daha küçük, alanına özgü veri kümesiyle ek eğitime tabi tutulmasıdır; tıpkı genel tıp eğitimi almış bir doktorun kardiyoloji uzmanlığına geçmesi gibi.

    Fine-tuning için Data Lake şu avantajları sunar:

    • Tarihsel veri erişimi: Bronz katmanda saklanan yıllarca geriye giden ham veriler, modelin geçmiş kalıpları öğrenmesini sağlar
    • Etiketlenmiş veri yönetimi: Gümüş katmanda üretilen temiz, tutarlı veri seti fine-tuning pipeline'ına doğrudan beslenir
    • Versiyon kontrolü: Farklı model versiyonları hangi veri snapshot'ıyla eğitildi sorusu cevaplandırılabilir
    • Maliyet optimizasyonu: Fine-tuning'in toplam maliyeti RAG'a kıyasla yüksektir; bu nedenle veri kalitesi ve seçimi daha da kritik hale gelir

    AWS ve SAP ile Data Lake Mimarisi: Kurumsal Entegrasyon

    Hem AWS hem de SAP partneri olarak çalışan kurumlar için iki ekosistem arasındaki entegrasyon, modern Data Lake mimarisinin merkezine oturur.

    AWS Tarafında Temel Bileşenler

    Amazon S3, Data Lake'in depolama omurgasını oluşturur. Sınırsız ölçeklenebilirlik, nesne depolama fiyatlandırması ve tüm AWS yapay zekâ servisleriyle native entegrasyon sunar.

    AWS Glue, serverless ETL/ELT motorudur. SAP tablolarından, API'lerden, log sistemlerinden alınan veriyi otomatik olarak keşfeder, kataloglar ve dönüştürür. Spark tabanlı çalışması büyük veri setlerinde performansı garanti eder.

    AWS Lake Formation, Data Lake'in güvenlik ve yönetim katmanıdır. Kolon ve satır seviyesinde erişim kontrolü, veri maskesi, audit log ve merkezi katalog yönetimi sağlar. KVKK kapsamındaki kişisel verilerin korunması için kritik araçtır.

    Amazon Bedrock ve SageMaker, Data Lake üzerindeki yapay zekâ katmanıdır. Bedrock, hazır foundation modellerini Data Lake'e doğrudan bağlar; SageMaker ise custom model eğitimi ve fine-tuning için kullanılır.

    SAP Tarafında Entegrasyon Yolları

    SAP verisi Data Lake'e birkaç farklı yoldan taşınabilir:

    Amazon AppFlow + SAP Datasphere: AWS'nin native entegrasyon servisi AppFlow, SAP sistemlerinden veriyi kod yazmadan çeker. SAP Datasphere ise SAP'ın kendi veri yönetim platformu olarak AWS S3'e veri köprüsü kurar.

    AWS Glue + SAP SLT/BODS: SAP Landscape Transformation (SLT) veya Business Objects Data Services (BODS) aracılığıyla gerçek zamanlı veya toplu veri replikasyonu sağlanır. RISE with SAP kullanan kurumlar için bu entegrasyon native olarak desteklenmektedir.

    SAP BTP + AWS: SAP Business Technology Platform, AWS altyapısı üzerinde çalışabilmekte; bu da iki ekosistemin güçlü yönlerini birleştiren hibrit bir Data Lake mimarisine imkân tanımaktadır.

    Referans Mimari: SAP + AWS Data Lake

    SAP ERP / S/4HANA

            ↓

    Amazon AppFlow / SAP SLT

            ↓

    Amazon S3 (Bronz Katman — Ham SAP verisi)

            ↓

    AWS Glue (ETL/ELT + kataloglama)

            ↓

    Amazon S3 (Gümüş Katman — Temizlenmiş, birleştirilmiş)

            ↓

    Amazon S3 (Altın Katman — İş odaklı aggregate)

            ↓

    ┌─────────────────────────────────────┐

    │  Amazon Redshift   (BI/Raporlama)   │

    │  Amazon Bedrock    (Generative AI)  │

    │  Amazon SageMaker  (ML Eğitim)      │

    │  Amazon Athena     (Ad-hoc Sorgu)   │

    └─────────────────────────────────────┘

    AWS Lake Formation → Tüm katmanlarda erişim & KVKK yönetimi

    KVKK Uyumu ve Data Lake Yönetimi

    Türkiye'de faaliyet gösteren kurumlar için Data Lake, KVKK (Kişisel Verilerin Korunması Kanunu) kapsamında önemli sorumluluklar doğurur. 2025 yılında yürürlüğe giren güncellemelerle KVKK, GDPR'a daha yakın bir çerçeve kazanmıştır.

    Veri Sınıflandırması: Kişisel veriler (ad, adres, TC kimlik no, sağlık verisi, biyometrik) Data Lake içinde etiketlenerek ayrı bölümlerde tutulmalıdır. AWS Lake Formation'ın kolon seviyesindeki erişim kontrolü bu ayrımı teknik olarak uygular.

    Erişim Denetimi: Kim hangi veriye erişebilir sorusu, AWS IAM ve Lake Formation politikalarıyla net biçimde tanımlanmalı ve düzenli olarak denetlenmelidir.

    Veri Silme Hakkı: KVKK kapsamında bireylerin verilerinin silinmesini talep etme hakkı bulunmaktadır. Medallion mimarisinde bu talebi karşılamak için Bronz katmandan Altın katmana kadar tüm kopyaların takibi gerekir. AWS Glue veri kökeni (lineage) araçları bu süreci kolaylaştırır.

    İhlal Bildirimi: 2025 güncellemeleriyle ihlal bildirimi için süre 72 saatle sınırlandırılmıştır. AWS CloudTrail ve Lake Formation audit logları bu sürecin hızlı işlenmesini destekler.

    Veri Dışı Aktarım: Kişisel veri içeren Data Lake bileşenlerinin yurt dışı sunucularda barındırılması için KVKK'nın öngördüğü yeterli koruma mekanizmaları sağlanmalıdır.

    Data Lake'e Nasıl Başlanır? 5 Adım

    Data Lake yolculuğuna nereden başlayacağını bilmemek, pek çok kurumun bu dönüşümü ertelemesinin başlıca nedenidir. İşte pratik bir başlangıç yol haritası:

    Adım 1 — Kullanım Senaryosunu Belirleyin: Data Lake'i neye kullanacaksınız? Müşteri davranışı analizi mi? SAP verisiyle üretim optimizasyonu mu? Dahili chatbot için RAG mı? Net bir hedef, mimari kararları kolaylaştırır.

    Adım 2 — Veri Kaynaklarını Haritalayın: Kurumunuzdaki tüm veri kaynaklarını (SAP modülleri, CRM, ERP harici sistemler, IoT, belgeler) listeleyin. Hangi veriler Data Lake'e alınacak, hangileri dışarıda kalacak?

    Adım 3 — Pilot ile Başlayın: Tüm veri kaynaklarını aynı anda taşımaya çalışmayın. Bir veya iki kaynak, Bronz-Gümüş dönüşümü ve basit bir analitik kullanım senaryosuyla başlayın. AWS'nin rehber mimarileri (Guidance for Data Lakes on AWS) bu pilot için hazır şablonlar sunar.

    Adım 4 — Yönetim Modelini Kurun: Veri sahipliği, erişim politikaları, kalite standartları ve KVKK uyum prosedürlerini teknik yapıyla eş zamanlı olarak tanımlayın. Yönetim eksikliği, Data Lake'i zamanla "veri bataklığına" (data swamp) dönüştürür.

    Adım 5 — Yapay Zekâ Katmanını Ekleyin: Veriler Gümüş katmanda stabilize olduktan sonra RAG pipeline'ını veya ML model eğitim altyapısını entegre edin. Bu aşamada Amazon Bedrock veya SageMaker ile Data Lake arasındaki bağlantı, stratejik değeri hızla ortaya çıkarır.

    Sık Sorulan Sorular

    Data Lake ile Veri Ambarı arasındaki temel fark nedir?

    Veri ambarı yalnızca yapılandırılmış, işlenmiş veri depolar ve önceden belirlenmiş şema gerektirir. Data Lake ise ham, yarı yapılandırılmış ve yapılandırılmamış tüm veri tiplerini orijinal formatında saklar; şema analiz anında tanımlanır (schema-on-read). Bu esneklik, makine öğrenmesi ve yapay zekâ projelerinde kritik avantaj sağlar.

    Data Lake kurmak için minimum ne kadar veriye ihtiyaç var?

    Teknik bir minimum yoktur; ancak Data Lake'in değer üretmesi için genellikle birden fazla kaynaktan gelen, farklı formatlardaki veriler gerekir. Küçük ölçekli başlangıçlar için AWS S3 tabanlı basit bir kurulum, ilerleyen aşamada Medallion mimarisine geçişle büyütülebilir.

    RAG sistemi kurmak için mutlaka Data Lake gerekli midir?

    Zorunlu değildir ancak kurumsal ölçekte RAG için veri gölü en uygun altyapıdır. Data Lake; belge arşivleri, e-posta geçmişleri, ERP kayıtları gibi çoklu veri kaynaklarını tek noktada birleştirir, vektör veritabanına beslenecek temiz içeriği sağlar ve veri kökeni (lineage) takibini kolaylaştırır.

    SAP kullanan bir şirket Data Lake'e nasıl geçiş yapar?

    SAP ERP verisini Data Lake'e taşımak için AWS AppFlow veya SAP Datasphere + AWS Glue kombinasyonu kullanılır. SAP tabloları (FI, CO, MM, SD modülleri) Amazon S3'e çekilir, AWS Glue ile dönüştürülür, AWS Lake Formation ile yönetilir. RISE with SAP kullananlar için bu entegrasyon native olarak desteklenmektedir.

    Data Lake'i yönetmek için veri mühendisi şart mı?

    Günümüzde AWS Lake Formation ve SAP Datasphere gibi araçlar, otomatik kataloglama ve görsel yönetim arayüzleri sunarak teknik bariyeri düşürmüştür. Ancak kurumsal ölçekte veri kalitesi, lineage yönetimi ve güvenlik politikaları için en az bir deneyimli veri mühendisi veya mimarına ihtiyaç duyulmaktadır.

    KVKK kapsamında Data Lake'teki kişisel veriler nasıl korunur?

    KVKK uyumu için Data Lake'te şu önlemler alınmalıdır: kişisel veriler için ayrı bölümler ve kolon seviyesinde şifreleme, erişim denetim politikaları (AWS IAM / Lake Formation), veri silme ve anonimleştirme prosedürleri, veri işleme envanteri ile loglama. 2025 KVKK güncellemeleri uyarınca ihlal bildirimi için süre 72 saattir.

    Diğer Yazılar

    TÜMÜNÜ GÖR
    Teknoloji dünyasındaki yenilikleri, dijital dönüşüm süreçlerini ve geleceği şekillendiren trendleri ele aldığımız yazılarımıza göz atın. NovaDSA olarak bilgi paylaşımını, sürekli öğrenmeyi ve ilham vermeyi önemsiyoruz.