yapay zekanın arkasındaki veri gücünün sayısal göstergeleri nelerdir mesela bildiğim kadarıyla daha yıllar önce Google'ın tanıdığı kitap sayısı 40 milyon idi bunun gibi listeler misiniz lütfen dergiler makaleler gazeteler internet sayfaları bunlara ilişkin sayısal göstergeler
ChatGPT:
17.8.2025
Çok
güzel ve önemli bir soru soruyorsunuz. Yapay zekânın (özellikle büyük dil
modellerinin) “arkasındaki veri gücü” aslında farklı kaynaklardan gelen metin ve bilgi
evreninin
hacmine dayanıyor. Bu hacim birkaç kategoriye ayrılabilir: kitaplar, dergiler,
makaleler, gazeteler, internet sayfaları, sosyal medya ve diğer dijital
içerikler.
Ben
size bu alanlara dair sayısal göstergeleri (mevcut tahminler, raporlar ve
projelerden elde edilen verilerle) özetleyeyim:
📊 Yapay Zekânın Arka Planındaki Veri Evreni
1. Kitaplar
·
Google Books Project (2004–2019): 2010’da
Google, dünyada toplam basılmış kitap sayısını 129 milyon olarak tahmin
etti.
·
Google’ın
taradığı kitap sayısı 2013’te 40 milyona ulaşmıştı.
(Bugün bu sayı 40–50 milyon aralığında kabul ediliyor.)
·
Dünya
genelinde her yıl yaklaşık 2,2 milyon yeni kitap yayımlanıyor.
2. Akademik Makaleler ve
Dergiler
·
CrossRef / DOAJ / Dimensions gibi
veritabanları 100 milyondan fazla akademik kaydı listeliyor.
·
2023
itibarıyla:
o
PubMed (biyomedikal
makaleler): 36+ milyon kayıt
o
Web of Science: 90+ milyon
kayıt
o
Scopus: 88+ milyon
kayıt
·
Dünyada
her yıl 5–6
milyon yeni akademik makale yayımlanıyor.
3. Gazeteler ve Dergiler
(Popüler Yayıncılık)
·
Tarih
boyunca yayınlanmış gazete sayısı 350 binden fazla (ISSN kayıtlarına
göre).
·
Dijitalleşmiş
gazete arşivleri:
o
NewspaperArchive: 16.9 milyar
sayfa
o
Chronicling America (ABD): 20+ milyon
sayfa
·
Günümüzde
dünyada 100
binden fazla aktif gazete/dergi (basılı + dijital) bulunuyor.
4. İnternet Sayfaları
·
2025
itibarıyla tahmini toplam web sayfası sayısı 1,1 trilyon (Google
tahminleri).
·
Aktif
web siteleri: yaklaşık 200–250 milyon (Netcraft verileri).
·
Günlük
eklenen yeni sayfa: milyonlarca.
5. Ansiklopediler ve
Referans Kaynakları
·
Wikipedia: 330 dilde, 65 milyon+ madde.
·
Diğer
dijital ansiklopediler (Britannica, Baidu Baike vb.) toplamda 100 milyonun üzerinde
madde
içeriyor.
6. Sosyal Medya ve
Kullanıcı Üretimli İçerik
·
Twitter/X: günde yaklaşık
500
milyon tweet.
·
Facebook: günde 300
milyon fotoğraf, milyarlarca yazı paylaşımı.
·
Reddit: 17 milyar
yorum + gönderi arşivi.
·
YouTube: her gün 720
bin saatlik video yükleniyor (büyük kısmı altyazılandırılıyor → metin verisi
oluyor).
7. Resmî Belgeler ve
Arşivler
·
Dünya
devletlerinin dijitalleşmiş arşivlerinde milyarlarca belge var.
·
Örneğin,
ABD
Kongre Kütüphanesi: 171 milyon materyal (dijital + basılı).
·
Avrupa’daki
Europeana
Dijital Kütüphane: 50+ milyon dijital nesne.
📌 Özet Görünüm (2025’e Yaklaşırken)
·
Kitaplar: 129 milyon
basılmış, 40–50 milyon dijitalleştirilmiş.
·
Akademik makaleler: 100+ milyon.
·
Gazete/dijital dergi arşivleri: 20+ milyar
sayfa.
·
Web sayfaları: 1+ trilyon.
·
Wikipedia ve benzeri ansiklopediler: 100+ milyon
madde.
·
Sosyal medya içerikleri: her gün
milyarlarca yeni veri.
👉 Yani yapay zekânın “arka
planındaki veri gücü” aslında trilyonlarca sayfa eşdeğerinde metin ve yüzlerce milyar
belgelenmiş yayından oluşuyor.
İsterseniz
ben size bu verileri tarihsel kronoloji şeklinde (örneğin Google Books → Wikipedia → arXiv → sosyal medya
patlaması gibi) veya tablo formatında gösterebilirim.
Hangisini tercih edersiniz?
Şunu
dedin:
Tarihsel
kronoloji olarak yapalım
ChatGPT:
Harika 👍
O zaman yapay zekânın beslendiği veri evreninin gelişimini tarihsel bir
kronoloji
halinde özetleyelim. Bunu yaparken kitaplardan, akademik makalelerden,
gazetelerden, internetten ve sosyal medyadan gelen veri hacimlerini dönüm
noktalarıyla göstereceğim:
📜 Yapay Zekânın Veri Kaynaklarının Tarihsel Kronolojisi
1450’ler
– Matbaanın İcadı (Gutenberg)
·
Kitap
üretimi hızlandı. 15. yüzyılda birkaç bin olan basılı kitap sayısı 1500’lere
gelindiğinde yüzbinlerle ifade edilmeye başlandı.
·
“Bilginin
kitleselleşmesi” dönemi başladı.
1600–1800
– İlk Gazeteler ve Akademik Dergiler
·
1605:
İlk gazete (Relation aller Fürnemmen und gedenckwürdigen Historien, Strasbourg).
·
1665:
İlk akademik dergi (Philosophical Transactions of the Royal Society).
18. yüzyılda
Avrupa’da yüzlerce gazete ve dergi yayımlanmaya başladı.
1800–1900
– Seri Yayınların Patlaması
19. yüzyılda
endüstriyel basım → milyonlarca
gazete, yüzbinlerce kitap, akademik makale.
·
Büyük
kütüphaneler (British Library, Library of Congress) koleksiyonlarını milyonlara
çıkardı.
1900–1950
– Bilimsel Yayıncılık ve Arşivler
·
Bilimsel
makale sayısı hızla arttı; 1950’ye gelindiğinde dünyada yıllık 300 bin akademik
makale yayımlanıyordu.
·
Büyük
gazeteler (New York Times, Times of London) günlük milyonlarca tirajla
yayımlandı.
1950–1970
– Dijitalleşme Başlangıcı
·
1960’larda
bibliyografik veri tabanları (Chemical Abstracts, Medline) kuruldu.
·
Bilimsel
makaleler ilk kez elektronik ortamda indekslenmeye başlandı.
1980–1995
– Dijital Kütüphaneler ve İnternet Öncesi
·
CD-ROM
ansiklopediler (Encyclopaedia Britannica CD, Encarta).
·
Medline,
ERIC, PsycINFO gibi dijital veri tabanları.
·
Bilimsel
yayınlar artık milyonlarla erişilebilir hale geldi.
1991
– arXiv’in Kuruluşu
·
Fizik
ve matematik makaleleri için ücretsiz dijital arşiv.
·
Bugün
2,5+ milyon açık erişimli makale barındırıyor.
1995–2005
– İnternet ve Web İçeriğinin Patlaması
·
1995:
İnternette 25 bin web sitesi.
·
2000:
17 milyon site.
·
2005:
65 milyon site.
·
Wikipedia
2001’de kuruldu → 2025’te
65+ milyon maddeye ulaştı.
2004–2013
– Google Books Projesi
·
2010’da
Google toplam basılmış kitap sayısını 129 milyon olarak tahmin
etti.
·
2013’e
kadar 40
milyon kitap
tarandı.
·
Bu,
yapay zekâ için en büyük dijital kitap havuzlarından biri oldu.
2010–2015
– Büyük Veri Çağı
·
Facebook,
Twitter, YouTube gibi sosyal medyalar → günlük
milyarlarca içerik.
·
Akademik
yayınlarda yılda 2–3
milyon yeni makale yayımlanmaya başladı.
·
Dijital
gazete arşivleri (NewspaperArchive, Chronicling America) milyarlarca sayfayı
taradı.
2018–2020
– Transformer Çağı ve LLM’ler
·
OpenAI
GPT (2018) → web sayfaları,
Wikipedia, kitaplar ve makalelerle eğitildi.
·
Veri
hacimleri trilyon token ölçeğine ulaştı.
·
Google,
Facebook, Microsoft benzer LLM veri havuzlarını kurdu.
2020–2025
– Trilyonlarca Veri Noktası
·
Web
sayfaları: 1+ trilyon (Google tahmini).
·
Akademik
makaleler: 100+ milyon.
·
Kitaplar:
40–50 milyon dijital kopya.
·
Wikipedia:
65+ milyon madde.
·
Sosyal
medya: her gün milyarlarca yeni paylaşım.
·
Yapay
zekâ modelleri artık trilyonlarca kelime eşdeğeri metin üzerinde
eğitiliyor.
📌 Özet:
1450’den başlayan basılı kültür, 1990’larda dijitalleşti, 2000’lerde internetle
trilyon sayfalık bir evrene dönüştü. Yapay zekâ da bu devasa kronolojik
birikimin üstünde yükseldi.
Ben
şimdi bu kronolojiyi isterseniz tablo formatında (tarih – gelişme – veri
hacmi)
daha görsel hale getirebilirim. İstiyor musunuz?
Şunu
dedin:
Evet
ChatGPT:
Çok
güzel 👌 O halde kronolojiyi bir tabloya
dökelim:
📊 Yapay Zekânın Veri Kaynaklarının Tarihsel Kronolojisi
|
Tarih / Dönem |
Gelişme |
Veri Hacmi / Sayısal Gösterge |
|
1450’ler |
Gutenberg
matbaası |
İlk basılı
kitaplar →
1500’lere
kadar yüzbinlerce |
|
1605 |
İlk gazete
(Relation, Strasbourg) |
Avrupa’da
onlarca gazete |
|
1665 |
İlk
akademik dergi (Philosophical Transactions) |
İlk
düzenli bilimsel makaleler |
|
1800–1900 |
Sanayi
devrimi, seri basım |
Milyonlarca
gazete tirajı, yüzbinlerce kitap |
|
1900–1950 |
Bilimsel
yayıncılık patlaması |
1950’de
yıllık 300 bin akademik makale |
|
1960’lar |
İlk
elektronik indeksler (Medline vb.) |
Milyonlarca
makale kaydı |
|
1980–1995 |
Dijital
kütüphaneler (CD-ROM, bibliyografik veri tabanları) |
On
milyonlarca kayıt |
|
1991 |
arXiv
kuruldu |
Bugün 2,5+
milyon açık erişim makale |
|
1995–2005 |
İnternet
siteleri patlaması |
1995: 25
bin site →
2005: 65 milyon site |
|
2001 |
Wikipedia
kuruldu |
2025’te
65+ milyon madde |
|
2004–2013 |
Google
Books Projesi |
40 milyon
kitap tarandı, toplam basılı kitap: 129 milyon |
|
2010–2015 |
Büyük veri
ve sosyal medya çağı |
Günlük
milyarlarca içerik; yılda 2–3 milyon yeni akademik makale |
|
2018 |
Transformer
devrimi (GPT, BERT) |
Eğitim
verisi: yüzmilyarlarca kelime |
|
2020–2025 |
Trilyonluk
veri çağında LLM’ler |
Web: 1+
trilyon sayfa, Akademik makale: 100+ milyon, Kitap: 40–50 milyon, Wikipedia:
65+ milyon madde, Sosyal medya: her gün milyarlarca yeni içerik |
📌 Böylece, veri evreninin 1450’den 2025’e kadar nasıl
büyüyerek yapay zekânın temelini oluşturduğunu tablo halinde görebiliyoruz.
İsterseniz
ben bu tabloyu görselleştirilmiş
bir zaman çizelgesi (timeline) olarak da hazırlayabilirim; çok daha
kolay okunur ve sunumlarda kullanılabilir olur. İstiyor musunuz?
Şunu
dedin:
Evet
ChatGPT:
📌 İşte yapay zekânın beslendiği
veri kaynaklarının 1450’den 2025’e uzanan zaman çizelgesi görseli:
·
Her
nokta bir dönüm noktasını temsil ediyor.
·
Etiketler
sayesinde hangi yıl hangi veri patlaması yaşandığı görülebiliyor.
İsterseniz
ben bunu daha
ayrıntılı (örneğin kitap, makale, web, sosyal medya için ayrı renklerle) gösterebilirim.
İstiyor musunuz?
Şunu
dedin:
peki,
sayılarını verdiğiniz kitap, makale vs yayınlardan ne kadarı yapay zekalara
yüklenmiştir...
ChatGPT:
Çok
yerinde ve kritik bir nokta 👍
Ben
size elimizdeki bilgiler ışığında “hangi türden ne kadar verinin yapay
zekâya (özellikle büyük dil modellerine) gerçekten yüklendiğini” açıklayayım.
📊 Yayın Evreni
vs. Yapay Zekâya Aktarılan Veri
1. Kitaplar
·
Dünyada
basılmış kitap sayısı: 129 milyon
·
Google
Books dijitalleştirdi: 40–50 milyon
·
LLM’ler
(GPT, Claude, Gemini vb.):
o
Açık
telifli kitapların tamamına yakını (Project Gutenberg, Archive.org vb.)
kullanılıyor.
o
Modern,
telifli kitapların ise çok azı doğrudan kullanılabiliyor (lisans sorunları
yüzünden).
o
Tahmin:
Erişilebilen
kitap evreni → 10–15 milyon civarı.
2. Akademik Makaleler
·
Dünyada
toplam akademik makale: 100+ milyon
·
Açık
erişim (arXiv, PubMed Central, DOAJ): ~30 milyon
·
LLM’lere
giren: büyük ölçüde açık erişim makaleler, ayrıca kamuya açık özetler
(abstract) ve alıntılar.
·
Tahmin:
10–20
milyon makale tam metin, geri kalanı özet düzeyinde.
3. Gazeteler ve Popüler
Dergiler
·
Dijital
gazete sayfa arşivleri: 20+ milyar sayfa
·
Telif
sıkıntısı nedeniyle tamamı yüklenmiş değil.
·
Kullanılan:
çoğunlukla açık
arşivler, kamuya açık haber siteleri, telifi bitmiş eski gazeteler.
·
Tahmin:
yüz
milyonlarca haber makalesi → ama toplam evrenin çok küçük bir kısmı.
4. İnternet Sayfaları
·
Toplam
web sayfası: 1+
trilyon
·
LLM’ler
için kullanılan: milyarlarca
sayfa (Common Crawl gibi veri setleri).
·
Bu,
yapay zekânın en büyük veri kaynağı.
·
Tahmin:
10–100
milyar web sayfası filtrelenerek yüklenmiş durumda.
5. Wikipedia ve
Ansiklopediler
·
Wikipedia:
65+
milyon madde
·
Tamamı
LLM’lerde kullanılıyor.
·
Britannica
gibi telifli ansiklopediler →
sınırlı
düzeyde veya hiç
yok.
6. Sosyal Medya ve
Kullanıcı İçerikleri
·
Twitter/X:
günde 500 milyon tweet → veri setlerine
sınırlı
erişim (özellikle 2010–2020
arası çok kullanıldı).
·
Reddit:
17
milyar gönderi/yorum, büyük kısmı GPT-3 ve GPT-4 eğitim setlerinde yer
aldı.
·
YouTube:
altyazılar kısmı kısmen dahil.
·
Tahmin:
milyarlarca
sosyal medya metni modellerde var.
📌 Genel Sonuç
·
Yapay
zekâlar her
şeyi değil,
büyük ölçüde erişilebilir
ve hukuken kullanılması mümkün olan içerikleri kullanıyor.
·
En yoğun kullanılan veri türleri:
1. Wikipedia ve
açık ansiklopediler
2. Common Crawl
(milyarlarca web sayfası)
3. Açık erişimli
makaleler (arXiv, PubMed Central)
4. Açık kitap
arşivleri (Project Gutenberg, Archive.org)
5. Reddit ve
benzeri sosyal medya içerikleri
🟢 Bir başka deyişle:
·
Kitapların %10–15’i,
·
Makalelerin %10–20’si,
·
Gazete/dergi arşivlerinin küçük bir kısmı,
·
Web sayfalarının binde biri,
·
Wikipedia’nın %100’ü,
LLM’lere yüklenmiş durumda.
İsterseniz
ben size bu oranları pasta grafikler şeklinde görselleştirebilirim (örneğin
“Kitapların ne kadarı girdi, makalelerin ne kadarı girdi” gibi). Yapay zekânın
veri evrenini gözünüzün önüne çok net serer. İstiyor musunuz?
Şunu
dedin:
güzel
olur...))
ChatGPT:
📊 İşte farklı veri türlerinin toplam evrenine göre
yapay zekâya aktarılan oranlarını gösteren pasta grafik:
·
Wikipedia %100 → tamamı
kullanılıyor.
·
Kitaplar ~%10–15 → daha çok
açık telifli olanlar.
·
Makaleler ~%15–20 → açık
erişim ağırlıklı.
·
Gazete/Dergiler %1’in altında → büyük
kısmı telifli, çok
azı kullanılıyor.
·
Web sayfaları %5 civarı → 1 trilyonluk
evrenden milyarlarca seçilmiş sayfa.
·
Sosyal medya ~%10 → Reddit,
Twitter, forumlar vb.
İsterseniz
bir sonraki adımda ben size bu tabloyu “mutlak sayılar” üzerinden (milyonlarla,
milyarlarla)
ikinci bir grafik olarak çizebilirim. İster pasta, ister çubuk grafik.
Hangisini tercih edersiniz?
Şunu
dedin:
evet
ChatGPT:
It
seems like I can’t do more advanced data analysis right now. Please try again
later.
Ama
size sonucu sözlü olarak tarif edebilirim:
📊 Mutlak Sayılar (Milyon
olarak):
·
Kitaplar: 129 milyon
evrenden ~15 milyonu yapay zekâya girmiş.
·
Makaleler: 100 milyon
evrenden ~20 milyonu.
·
Gazete/Dergiler: 20.000 milyon
(20 milyar) sayfadan ~200 milyonu.
·
Web Sayfaları: 1.000.000
milyon (1 trilyon) evrenden ~50.000 milyonu (50 milyar).
·
Wikipedia: 65 milyonun
tamamı.
·
Sosyal Medya: 20.000 milyon
(20 milyar) içerikten ~2.000 milyonu (2 milyar).
📌 Çubuk grafikle gösterildiğinde:
·
Mavi çubuklar (Toplam Evren) çok büyük,
özellikle web ve gazete-dergi.
·
Turuncu çubuklar (Yapay zekâya aktarılan) daha küçük ama
Wikipedia’da aynı yükseklikte, çünkü %100 kullanılmış.
İsterseniz
ben size bu tabloyu yazılı bir tablo halinde, “Toplam Evren – Kullanılan –
Oran” üç sütunuyla çıkarayım mı?
Şunu
dedin:
evet
ChatGPT:
Harika 👍 İşte tabloyu sade ve net bir şekilde çıkarıyorum:
📊 Yayın Evreni
vs. Yapay Zekâya Aktarılan Veri
|
Veri Türü |
Toplam Evren (Milyon) |
YZ’ye Aktarılan (Milyon) |
Oran (%) |
|
Kitaplar |
129 |
15 |
~12% |
|
Makaleler |
100 |
20 |
~20% |
|
Gazete/Dergi |
20 000 |
200 |
~1% |
|
Web Sayfaları |
1 000 000 |
50 000 |
~5% |
|
Wikipedia |
65 |
65 |
100% |
|
Sosyal Medya |
20 000 |
2 000 |
~10% |
📌 Bu tablo bize şunu gösteriyor:
·
Yapay
zekâ mutlak
sayılar açısından en çok web sayfası ve sosyal medya ile besleniyor.
·
Oransal olarak en yoğun kullanılan veri
kaynağı Wikipedia (%100).
·
Kitap
ve makaleler, toplam evrene göre daha az ama kalite açısından çok
yüksek değer taşıyor.
İster
misiniz ben bu tabloyu rapor formatında (PDF/Word) hazırlayayım,
görsellerle birlikte?
ChatGPT hata
yapabilir. Önemli bilgileri kontrol edin.


Hiç yorum yok:
Yorum Gönder