Yapay Zeka İnsanların Seslerine Göre Yüzlerini Oluşturdu

Yeni bir çalışmayla, yapay zeka sesini duyduğu kişilerin dijital olarak yüzlerini oluşturmayı başardı. Çalışmada, Speech2Face isimli sinir ağı binlerce video ile eğitildi.

MIT Bilgisayar Bilimleri ve Yapay Zeka Laboratuvarı (CSAIL) geliştirdikleri yeni yapay zeka Speech2Face ile 100.000’den fazla video üzerinde çalıştı. Derin sinir ağının, sesin özelliklerini analiz etmesi sonucu oluşturduğu yüzler, sesin sahiplerinin kendi yüzleri ile oldukça benzerlik gösterdi. Ancak düşük oranla bazı durumlarda; cinsiyetin, yaşın, kökenin denk gelmediği de oldu.

Speech2Face, kendinden denetimli öğrenme tekniklerini kullanmanın yanı sıra, büyük bir yüz veri kümesi üzerinde önceden eğitilmiş olan bir yüz tanıma modeli olan VGG-Face kullanılarak oluşturuldu. Speech2Face ayrıca, bir spektrogramı yani ses görüngesini işlemek için evrişimli bir sinir ağını (convolutional neural network- CNN) veya 3 ila 6 saniye arasında çalışan ses kliplerinde bulunan ses bilgisinin görsel bir sunumunu kullanan bir “ses kodlayıcıyı” (voice encoder) içeriyor.

Kullanılan bu ses kodlayıcı ile temel model oluşturulabiliyor. Bununla birlikte, “yüz kod çözücü” (face decoder) ile milyonlarca konuşma-yüz çiftinin bir veri seti olan AVSpeech kullanılarak nihai yüze ulaşılabiliyor.

Kaynak: The New Stack

Posted by Ceren Demir

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir