İlk etapta daha çok yazılı komutlar üzerinden çalışan ChatGPT, Gemini ve Claude gibi büyük dil modelleri, yavaş yavaş kullanıcılarla gerçek zamanlı olarak konuşabilen sistemlere dönüşüyor. Özellikle son iki yılda gelişen “sesli AI” teknolojileri sayesinde yapay zekâlar yalnızca sesli komutları algılayan basit asistanlar olmaktan çıkıp, konuşmayı anlayan, bağlamı takip eden, görev gerçekleştirebilen ve kullanıcıyla doğal diyalog kurabilen sistemler hâline gelmeye başladı. OpenAI’ın bu hafta tanıttığı yeni nesil ses modelleri de bu dönüşümün en dikkat çekici örneklerinden biri olarak öne çıkıyor.
OpenAI tarafından API üzerinden geliştiricilere sunulan GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper isimli üç yeni model, şirketin gerçek zamanlı sesli yapay zekâ alanındaki en iddialı adımı olarak görülüyor.
Şirketin açıklamasına göre bu modeller, kullanıcıların araç kullanırken, havaalanında yol bulmaya çalışırken ya da müşteri hizmetleriyle görüşürken klavye kullanmadan yapay zekâyla doğal biçimde iletişim kurabilmesini hedefliyor.
GPT-REALTİME-2, KONUŞMA SIRASINDA GÖREVLERİ YERİNE GETİREBİLİYOR
Buradaki en dikkat çekici modeli GPT-Realtime-2. Şirketin “GPT-5 seviyesinde akıl yürütme kabiliyetine sahip ilk ses modeli” olarak tanımladığı bu sistem, uzun ve karmaşık konuşmaları takip edebiliyor; kullanıcı konuşurken araya girilse bile diyaloğu doğal biçimde sürdürebiliyor.
OpenAI’ın özellikle vurguladığı noktalardan biri de modelin artık yalnızca konuşmakla kalmayıp konuşma sırasında aktif olarak görev gerçekleştirebilmesi. Geliştiriciler bu modele takvim, arama motoru ya da şirket içi sistemler gibi araçlara erişim verebiliyor.
Model de bu işlemleri gerçekleştirirken kullanıcıya “takviminizi kontrol ediyorum” ya da “bunu şimdi araştırıyorum” gibi doğal geri bildirimler sunabiliyor.
Yeni modelin teknik tarafında da önemli geliştirmeler bulunuyor. OpenAI, sesli modelinin bağlam penceresini 32K’dan 128K’ya çıkardı.
Bu da modelin çok daha uzun konuşmaları takip edebilmesini ve önceki diyalogları unutmadan daha karmaşık görevleri yerine getirebilmesini sağlıyor. Özellikle müşteri hizmetleri ya da uzun süreli destek görüşmeleri gibi kullanım senaryolarında bu kapasite artışı oldukça önemli görülüyor. Şirket ayrıca modelin başarısız işlemlerden daha iyi toparlanabildiğini ve sağlık sektörü gibi alanlarda kullanılan teknik terminolojileri daha doğru anlayabildiğini söylüyor.
OpenAI tarafından paylaşılan performans testleri de yeni modelin sesli etkileşimlerde belirgin bir gelişim sunduğunu gösteriyor. Şirketin verilerine göre GPT-Realtime-2, önceki nesie kıyasla Big Bench Audio testlerinde yüzde 15,2 daha yüksek skor elde etti.


