Tacotron 2’nin Konuşmalarını, İnsanlarınkinden Ayırt Edebilecek Misiniz?

Google, yeni geliştirdiği metinden sese çeviri sistemi Tacotron 2’nin konuşmasından örnekleri yayınladı. Bu örnekler gösteriyor ki; artık yapay zekâ tarafından oluşturulan sesleri, insan konuşmasından ayırmak neredeyse imkansız olacak.

Google tarafından geliştirilen yapay zekâ sistemi Tacotron 2’yle, insanların seslerini makinelere aktarması resmi olarak gerçekleşmiş oldu.

İnsan sesinden ayırt edilemeyen sonuçlar veren Tacotron 2’de iki adet derin sinirsel ağ kullanılıyor. Birinci ağ; metni, ses frekanslarının zaman çizelgesinde temsil edildiği bir spektograma dönüştürüyor. Bu spektogram (pdf), WaveNet adlı sisteme gönderiliyor. Google’ın çatı şirketi Alphabet’in yapay zekâ araştırma laboratuvarı DeepMind tarafından hazırlanan bir sistem olan WaveNet, tablodan verileri okuyor ve gereken sesli ögeleri buna uygun şekilde oluşturuyor.

Aşağıda yer alan ses kayıtlarında aynı pasajın bir Tacotran 2 tarafından, bir de insan tarafından okunduğu versiyonlarını dinleyebilirsiniz. Hangi ses kaydının hangisine ait olduğu hakkında ise Google tarafından bir açıklama yapılmadı:

“George Washington was the first President of the United States.”

“That girl did a video about Star Wars lipstick.”

Google araştırmacıları ayrıca, Tacotron 2’nin zor telaffuz edilen kelimeleri ve isimleri işleyebildiğini ve noktalama işaretlerine dayanarak vurguyu değiştirebildiğini de gösteriyor. Örneğin; büyük harfli kelimeler belirli bir cümlenin önemli bir parçası olduğunu gösterdiği için Tacotron 2 bunları daha vurgulu okuyarak cümlelerin anlamını tam olarak verebiliyor:

“This is your personal assistant Google Home.”

“This is your personal assistant, Google Home.”

“The buses aren’t the problem, they actually provide a solution.”

“The buses aren’t the PROBLEM, they actually provide a SOLUTION.”

 

Kaynak: Quartz

Posted by Derya Öztürk

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir