Alibaba Group, EMO (Emote Portrait Alive) adlı yeni bir yapay zeka aracını duyurdu. Bu yenilikçi teknoloji, fotoğrafları konuşturabilme yeteneğiyle dikkat çekiyor. EMO, herhangi bir fotoğrafı seslendirilebilir videolara dönüştürebiliyor ve konuşma hızını otomatik olarak ayarlayarak daha doğal videolar oluşturuyor. Fotoğraflardaki insanları istenilen sese uygun ağız hareketleriyle konuşturabilen EMO, videoda kullanılacak ses kaynağına göre konuşmanın hızını da otomatik olarak ayarlayabiliyor.

Bu yenilikçi yapay zeka modeli, geniş bir veri setinden eğitilmiş. Araştırmacılar, EMO‘nun eğitimini gerçekleştirmek için 250 saatten fazla konuşma videosunu içeren çeşitli kaynaklardan elde edilen bir veri setini kullandılar. Yapılan deneyler, EMO‘nun video kalitesi ve ifade zenginliği gibi ölçütlerde diğer yöntemlere kıyasla önemli ölçüde daha iyi performans gösterdiğini ortaya koydu.
EMO‘nun temelinde iki bileşen bulunuyor. Birinci bileşen, görseli tanımlayıp referans görselden yola çıkarak hareketli kareleri oluşturuyor. İkinci bileşen ise ses dosyasını tanımlayarak anahtar noktaları belirliyor. Sonrasında, bu anahtar noktalar ile görseller eşleştirilerek bir video oluşturuluyor.
Teknolojinin dikkate değer bir özelliği ise ses kaynağına göre temposunu ayarlayabilmesi. EMO, sakin bir konuşma ile hızlı bir rap arasındaki farkı anlayabiliyor ve jest, mimikler ve ağız hareketlerinin temposunu buna göre ayarlayabiliyor. Bu özellikler, EMO tarafından üretilen videoların daha doğal ve duygusal olduğunu gösteriyor.
Ancak, bu tür teknolojilerin kötüye kullanımıyla ilgili endişeler de bulunuyor. Araştırmacılar, sentetik videoların tespiti ve kötüye kullanımını önlemek için çözümler geliştirme konusunda çalışmalarına devam ediyorlar.
Alibaba Group’un resmi kaynaklarından daha fazla bilgi ve örnek videoları inceleyebilirsiniz.
Sosyal Medya Hesabımızı Takip Etmeyi Unutmayın!