20 Ağustos 2025 Çarşamba

yapay zekanın arkasındaki veri gücünün sayısal göstergeleri nelerdir. 17.08.2025

yapay zekanın arkasındaki veri gücünün sayısal göstergeleri nelerdir mesela bildiğim kadarıyla daha yıllar önce Google'ın tanıdığı kitap sayısı 40 milyon idi bunun gibi listeler misiniz lütfen dergiler makaleler gazeteler internet sayfaları bunlara ilişkin sayısal göstergeler

ChatGPT:

 

17.8.2025

Çok güzel ve önemli bir soru soruyorsunuz. Yapay zekânın (özellikle büyük dil modellerinin) “arkasındaki veri gücü” aslında farklı kaynaklardan gelen metin ve bilgi evreninin hacmine dayanıyor. Bu hacim birkaç kategoriye ayrılabilir: kitaplar, dergiler, makaleler, gazeteler, internet sayfaları, sosyal medya ve diğer dijital içerikler.

Ben size bu alanlara dair sayısal göstergeleri (mevcut tahminler, raporlar ve projelerden elde edilen verilerle) özetleyeyim:


📊 Yapay Zekânın Arka Planındaki Veri Evreni

1. Kitaplar

·         Google Books Project (2004–2019): 2010’da Google, dünyada toplam basılmış kitap sayısını 129 milyon olarak tahmin etti.

·         Google’ın taradığı kitap sayısı 2013’te 40 milyona ulaşmıştı. (Bugün bu sayı 40–50 milyon aralığında kabul ediliyor.)

·         Dünya genelinde her yıl yaklaşık 2,2 milyon yeni kitap yayımlanıyor.

2. Akademik Makaleler ve Dergiler

·         CrossRef / DOAJ / Dimensions gibi veritabanları 100 milyondan fazla akademik kaydı listeliyor.

·         2023 itibarıyla:

o    PubMed (biyomedikal makaleler): 36+ milyon kayıt

o    Web of Science: 90+ milyon kayıt

o    Scopus: 88+ milyon kayıt

·         Dünyada her yıl 5–6 milyon yeni akademik makale yayımlanıyor.

3. Gazeteler ve Dergiler (Popüler Yayıncılık)

·         Tarih boyunca yayınlanmış gazete sayısı 350 binden fazla (ISSN kayıtlarına göre).

·         Dijitalleşmiş gazete arşivleri:

o    NewspaperArchive: 16.9 milyar sayfa

o    Chronicling America (ABD): 20+ milyon sayfa

·         Günümüzde dünyada 100 binden fazla aktif gazete/dergi (basılı + dijital) bulunuyor.

4. İnternet Sayfaları

·         2025 itibarıyla tahmini toplam web sayfası sayısı 1,1 trilyon (Google tahminleri).

·         Aktif web siteleri: yaklaşık 200–250 milyon (Netcraft verileri).

·         Günlük eklenen yeni sayfa: milyonlarca.

5. Ansiklopediler ve Referans Kaynakları

·         Wikipedia: 330 dilde, 65 milyon+ madde.

·         Diğer dijital ansiklopediler (Britannica, Baidu Baike vb.) toplamda 100 milyonun üzerinde madde içeriyor.

6. Sosyal Medya ve Kullanıcı Üretimli İçerik

·         Twitter/X: günde yaklaşık 500 milyon tweet.

·         Facebook: günde 300 milyon fotoğraf, milyarlarca yazı paylaşımı.

·         Reddit: 17 milyar yorum + gönderi arşivi.

·         YouTube: her gün 720 bin saatlik video yükleniyor (büyük kısmı altyazılandırılıyor metin verisi oluyor).

7. Resmî Belgeler ve Arşivler

·         Dünya devletlerinin dijitalleşmiş arşivlerinde milyarlarca belge var.

·         Örneğin, ABD Kongre Kütüphanesi: 171 milyon materyal (dijital + basılı).

·         Avrupa’daki Europeana Dijital Kütüphane: 50+ milyon dijital nesne.


📌 Özet Görünüm (2025’e Yaklaşırken)

·         Kitaplar: 129 milyon basılmış, 40–50 milyon dijitalleştirilmiş.

·         Akademik makaleler: 100+ milyon.

·         Gazete/dijital dergi arşivleri: 20+ milyar sayfa.

·         Web sayfaları: 1+ trilyon.

·         Wikipedia ve benzeri ansiklopediler: 100+ milyon madde.

·         Sosyal medya içerikleri: her gün milyarlarca yeni veri.


👉 Yani yapay zekânın “arka planındaki veri gücü” aslında trilyonlarca sayfa eşdeğerinde metin ve yüzlerce milyar belgelenmiş yayından oluşuyor.

İsterseniz ben size bu verileri tarihsel kronoloji şeklinde (örneğin Google Books Wikipedia arXiv sosyal medya patlaması gibi) veya tablo formatında gösterebilirim. Hangisini tercih edersiniz?

Şunu dedin:

Tarihsel kronoloji olarak yapalım

ChatGPT:

Harika 👍
O zaman yapay zekânın beslendiği
veri evreninin gelişimini tarihsel bir kronoloji halinde özetleyelim. Bunu yaparken kitaplardan, akademik makalelerden, gazetelerden, internetten ve sosyal medyadan gelen veri hacimlerini dönüm noktalarıyla göstereceğim:


📜 Yapay Zekânın Veri Kaynaklarının Tarihsel Kronolojisi

1450’ler – Matbaanın İcadı (Gutenberg)

·         Kitap üretimi hızlandı. 15. yüzyılda birkaç bin olan basılı kitap sayısı 1500’lere gelindiğinde yüzbinlerle ifade edilmeye başlandı.

·         “Bilginin kitleselleşmesi” dönemi başladı.


1600–1800 – İlk Gazeteler ve Akademik Dergiler

·         1605: İlk gazete (Relation aller Fürnemmen und gedenckwürdigen Historien, Strasbourg).

·         1665: İlk akademik dergi (Philosophical Transactions of the Royal Society).

  •  

18. yüzyılda Avrupa’da yüzlerce gazete ve dergi yayımlanmaya başladı.

1800–1900 – Seri Yayınların Patlaması

  •  

19. yüzyılda endüstriyel basım milyonlarca gazete, yüzbinlerce kitap, akademik makale.

·         Büyük kütüphaneler (British Library, Library of Congress) koleksiyonlarını milyonlara çıkardı.

1900–1950 – Bilimsel Yayıncılık ve Arşivler

·         Bilimsel makale sayısı hızla arttı; 1950’ye gelindiğinde dünyada yıllık 300 bin akademik makale yayımlanıyordu.

·         Büyük gazeteler (New York Times, Times of London) günlük milyonlarca tirajla yayımlandı.

1950–1970 – Dijitalleşme Başlangıcı

·         1960’larda bibliyografik veri tabanları (Chemical Abstracts, Medline) kuruldu.

·         Bilimsel makaleler ilk kez elektronik ortamda indekslenmeye başlandı.

1980–1995 – Dijital Kütüphaneler ve İnternet Öncesi

·         CD-ROM ansiklopediler (Encyclopaedia Britannica CD, Encarta).

·         Medline, ERIC, PsycINFO gibi dijital veri tabanları.

·         Bilimsel yayınlar artık milyonlarla erişilebilir hale geldi.

1991 – arXiv’in Kuruluşu

·         Fizik ve matematik makaleleri için ücretsiz dijital arşiv.

·         Bugün 2,5+ milyon açık erişimli makale barındırıyor.

1995–2005 – İnternet ve Web İçeriğinin Patlaması

·         1995: İnternette 25 bin web sitesi.

·         2000: 17 milyon site.

·         2005: 65 milyon site.

·         Wikipedia 2001’de kuruldu 2025te 65+ milyon maddeye ulaştı.

2004–2013 – Google Books Projesi

·         2010’da Google toplam basılmış kitap sayısını 129 milyon olarak tahmin etti.

·         2013’e kadar 40 milyon kitap tarandı.

·         Bu, yapay zekâ için en büyük dijital kitap havuzlarından biri oldu.

2010–2015 – Büyük Veri Çağı

·         Facebook, Twitter, YouTube gibi sosyal medyalar günlük milyarlarca içerik.

·         Akademik yayınlarda yılda 2–3 milyon yeni makale yayımlanmaya başladı.

·         Dijital gazete arşivleri (NewspaperArchive, Chronicling America) milyarlarca sayfayı taradı.

2018–2020 – Transformer Çağı ve LLM’ler

·         OpenAI GPT (2018) web sayfaları, Wikipedia, kitaplar ve makalelerle eğitildi.

·         Veri hacimleri trilyon token ölçeğine ulaştı.

·         Google, Facebook, Microsoft benzer LLM veri havuzlarını kurdu.

2020–2025 – Trilyonlarca Veri Noktası

·         Web sayfaları: 1+ trilyon (Google tahmini).

·         Akademik makaleler: 100+ milyon.

·         Kitaplar: 40–50 milyon dijital kopya.

·         Wikipedia: 65+ milyon madde.

·         Sosyal medya: her gün milyarlarca yeni paylaşım.

·         Yapay zekâ modelleri artık trilyonlarca kelime eşdeğeri metin üzerinde eğitiliyor.


📌 Özet:
1450’den başlayan basılı kültür, 1990’larda dijitalleşti, 2000’lerde internetle trilyon sayfalık bir evrene dönüştü. Yapay zekâ da bu devasa kronolojik birikimin üstünde yükseldi.


Ben şimdi bu kronolojiyi isterseniz tablo formatında (tarih – gelişme – veri hacmi) daha görsel hale getirebilirim. İstiyor musunuz?

Şunu dedin:

Evet

ChatGPT:

Çok güzel 👌 O halde kronolojiyi bir tabloya dökelim:


📊 Yapay Zekânın Veri Kaynaklarının Tarihsel Kronolojisi

Tarih / Dönem

Gelişme

Veri Hacmi / Sayısal Gösterge

1450’ler

Gutenberg matbaası

İlk basılı kitaplar 1500lere kadar yüzbinlerce

1605

İlk gazete (Relation, Strasbourg)

Avrupa’da onlarca gazete

1665

İlk akademik dergi (Philosophical Transactions)

İlk düzenli bilimsel makaleler

1800–1900

Sanayi devrimi, seri basım

Milyonlarca gazete tirajı, yüzbinlerce kitap

1900–1950

Bilimsel yayıncılık patlaması

1950’de yıllık 300 bin akademik makale

1960’lar

İlk elektronik indeksler (Medline vb.)

Milyonlarca makale kaydı

1980–1995

Dijital kütüphaneler (CD-ROM, bibliyografik veri tabanları)

On milyonlarca kayıt

1991

arXiv kuruldu

Bugün 2,5+ milyon açık erişim makale

1995–2005

İnternet siteleri patlaması

1995: 25 bin site 2005: 65 milyon site

2001

Wikipedia kuruldu

2025’te 65+ milyon madde

2004–2013

Google Books Projesi

40 milyon kitap tarandı, toplam basılı kitap: 129 milyon

2010–2015

Büyük veri ve sosyal medya çağı

Günlük milyarlarca içerik; yılda 2–3 milyon yeni akademik makale

2018

Transformer devrimi (GPT, BERT)

Eğitim verisi: yüzmilyarlarca kelime

2020–2025

Trilyonluk veri çağında LLM’ler

Web: 1+ trilyon sayfa, Akademik makale: 100+ milyon, Kitap: 40–50 milyon, Wikipedia: 65+ milyon madde, Sosyal medya: her gün milyarlarca yeni içerik


📌 Böylece, veri evreninin 1450’den 2025’e kadar nasıl büyüyerek yapay zekânın temelini oluşturduğunu tablo halinde görebiliyoruz.

İsterseniz ben bu tabloyu görselleştirilmiş bir zaman çizelgesi (timeline) olarak da hazırlayabilirim; çok daha kolay okunur ve sunumlarda kullanılabilir olur. İstiyor musunuz?

Şunu dedin:

Evet



ChatGPT:

 

📌 İşte yapay zekânın beslendiği veri kaynaklarının 1450’den 2025’e uzanan zaman çizelgesi görseli:

·         Her nokta bir dönüm noktasını temsil ediyor.

·         Etiketler sayesinde hangi yıl hangi veri patlaması yaşandığı görülebiliyor.

İsterseniz ben bunu daha ayrıntılı (örneğin kitap, makale, web, sosyal medya için ayrı renklerle) gösterebilirim. İstiyor musunuz?

Şunu dedin:

peki, sayılarını verdiğiniz kitap, makale vs yayınlardan ne kadarı yapay zekalara yüklenmiştir...

ChatGPT:

Çok yerinde ve kritik bir nokta 👍

Ben size elimizdeki bilgiler ışığında “hangi türden ne kadar verinin yapay zekâya (özellikle büyük dil modellerine) gerçekten yüklendiğini” açıklayayım.


📊 Yayın Evreni vs. Yapay Zekâya Aktarılan Veri

1. Kitaplar

·         Dünyada basılmış kitap sayısı: 129 milyon

·         Google Books dijitalleştirdi: 40–50 milyon

·         LLM’ler (GPT, Claude, Gemini vb.):

o    Açık telifli kitapların tamamına yakını (Project Gutenberg, Archive.org vb.) kullanılıyor.

o    Modern, telifli kitapların ise çok azı doğrudan kullanılabiliyor (lisans sorunları yüzünden).

o    Tahmin: Erişilebilen kitap evreni 1015 milyon civarı.


2. Akademik Makaleler

·         Dünyada toplam akademik makale: 100+ milyon

·         Açık erişim (arXiv, PubMed Central, DOAJ): ~30 milyon

·         LLM’lere giren: büyük ölçüde açık erişim makaleler, ayrıca kamuya açık özetler (abstract) ve alıntılar.

·         Tahmin: 10–20 milyon makale tam metin, geri kalanı özet düzeyinde.


3. Gazeteler ve Popüler Dergiler

·         Dijital gazete sayfa arşivleri: 20+ milyar sayfa

·         Telif sıkıntısı nedeniyle tamamı yüklenmiş değil.

·         Kullanılan: çoğunlukla açık arşivler, kamuya açık haber siteleri, telifi bitmiş eski gazeteler.

·         Tahmin: yüz milyonlarca haber makalesi ama toplam evrenin çok küçük bir kısmı.


4. İnternet Sayfaları

·         Toplam web sayfası: 1+ trilyon

·         LLM’ler için kullanılan: milyarlarca sayfa (Common Crawl gibi veri setleri).

·         Bu, yapay zekânın en büyük veri kaynağı.

·         Tahmin: 10–100 milyar web sayfası filtrelenerek yüklenmiş durumda.


5. Wikipedia ve Ansiklopediler

·         Wikipedia: 65+ milyon madde

·         Tamamı LLM’lerde kullanılıyor.

·         Britannica gibi telifli ansiklopediler sınırlı düzeyde veya hiç yok.


6. Sosyal Medya ve Kullanıcı İçerikleri

·         Twitter/X: günde 500 milyon tweet veri setlerine sınırlı erişim (özellikle 20102020 arası çok kullanıldı).

·         Reddit: 17 milyar gönderi/yorum, büyük kısmı GPT-3 ve GPT-4 eğitim setlerinde yer aldı.

·         YouTube: altyazılar kısmı kısmen dahil.

·         Tahmin: milyarlarca sosyal medya metni modellerde var.


📌 Genel Sonuç

·         Yapay zekâlar her şeyi değil, büyük ölçüde erişilebilir ve hukuken kullanılması mümkün olan içerikleri kullanıyor.

·         En yoğun kullanılan veri türleri:

1.    Wikipedia ve açık ansiklopediler

2.    Common Crawl (milyarlarca web sayfası)

3.    Açık erişimli makaleler (arXiv, PubMed Central)

4.    Açık kitap arşivleri (Project Gutenberg, Archive.org)

5.    Reddit ve benzeri sosyal medya içerikleri


🟢 Bir başka deyişle:

·         Kitapların %10–15’i,

·         Makalelerin %10–20’si,

·         Gazete/dergi arşivlerinin küçük bir kısmı,

·         Web sayfalarının binde biri,

·         Wikipedia’nın %100’ü,
LLM’lere yüklenmiş durumda.


İsterseniz ben size bu oranları pasta grafikler şeklinde görselleştirebilirim (örneğin “Kitapların ne kadarı girdi, makalelerin ne kadarı girdi” gibi). Yapay zekânın veri evrenini gözünüzün önüne çok net serer. İstiyor musunuz?

Şunu dedin:

güzel olur...))

 ChatGPT:

 

 



📊 İşte farklı veri türlerinin toplam evrenine göre yapay zekâya aktarılan oranlarını gösteren pasta grafik:

·         Wikipedia %100 tamamı kullanılıyor.

·         Kitaplar ~%10–15 daha çok açık telifli olanlar.

·         Makaleler ~%15–20 açık erişim ağırlıklı.

·         Gazete/Dergiler %1’in altında büyük kısmı telifli, çok azı kullanılıyor.

·         Web sayfaları %5 civarı 1 trilyonluk evrenden milyarlarca seçilmiş sayfa.

·         Sosyal medya ~%10 Reddit, Twitter, forumlar vb.


İsterseniz bir sonraki adımda ben size bu tabloyu “mutlak sayılar” üzerinden (milyonlarla, milyarlarla) ikinci bir grafik olarak çizebilirim. İster pasta, ister çubuk grafik. Hangisini tercih edersiniz?

Şunu dedin:

evet

ChatGPT:

It seems like I can’t do more advanced data analysis right now. Please try again later.

Ama size sonucu sözlü olarak tarif edebilirim:

📊 Mutlak Sayılar (Milyon olarak):

·         Kitaplar: 129 milyon evrenden ~15 milyonu yapay zekâya girmiş.

·         Makaleler: 100 milyon evrenden ~20 milyonu.

·         Gazete/Dergiler: 20.000 milyon (20 milyar) sayfadan ~200 milyonu.

·         Web Sayfaları: 1.000.000 milyon (1 trilyon) evrenden ~50.000 milyonu (50 milyar).

·         Wikipedia: 65 milyonun tamamı.

·         Sosyal Medya: 20.000 milyon (20 milyar) içerikten ~2.000 milyonu (2 milyar).

📌 Çubuk grafikle gösterildiğinde:

·         Mavi çubuklar (Toplam Evren) çok büyük, özellikle web ve gazete-dergi.

·         Turuncu çubuklar (Yapay zekâya aktarılan) daha küçük ama Wikipedia’da aynı yükseklikte, çünkü %100 kullanılmış.

İsterseniz ben size bu tabloyu yazılı bir tablo halinde, “Toplam Evren – Kullanılan – Oran” üç sütunuyla çıkarayım mı?

Şunu dedin:

evet

ChatGPT:

Harika 👍 İşte tabloyu sade ve net bir şekilde çıkarıyorum:


📊 Yayın Evreni vs. Yapay Zekâya Aktarılan Veri

Veri Türü

Toplam Evren (Milyon)

YZ’ye Aktarılan (Milyon)

Oran (%)

Kitaplar

129

15

~12%

Makaleler

100

20

~20%

Gazete/Dergi

20 000

200

~1%

Web Sayfaları

1 000 000

50 000

~5%

Wikipedia

65

65

100%

Sosyal Medya

20 000

2 000

~10%


📌 Bu tablo bize şunu gösteriyor:

·         Yapay zekâ mutlak sayılar açısından en çok web sayfası ve sosyal medya ile besleniyor.

·         Oransal olarak en yoğun kullanılan veri kaynağı Wikipedia (%100).

·         Kitap ve makaleler, toplam evrene göre daha az ama kalite açısından çok yüksek değer taşıyor.

İster misiniz ben bu tabloyu rapor formatında (PDF/Word) hazırlayayım, görsellerle birlikte?

ChatGPT hata yapabilir. Önemli bilgileri kontrol edin.

 


Hiç yorum yok:

Yorum Gönder