KECERDASAN BUATAN MENGHASILKAN WAJAH MANUSIA BERDASARKAN SUARA MEREKA | BERITA PINTAR | SMITHSONIAN - BERITA PINTAR, IDEA BERITA PINTAR & INOVASI, SAINS BERITA PINTAR

Rangkaian saraf baru yang dibangunkan oleh para penyelidik dari Massachusetts Institute of Technology mampu membina penghampiran kasar wajah seseorang berdasarkan semata-mata pada coretan ucapan mereka, sebuah kertas yang diterbitkan dalam laporan pra-cetak server arXiv .

Pasukan ini melatih alatan kecerdasan buatan-sebuah algoritma pembelajaran mesin yang diprogramkan untuk "berfikir" seperti otak manusia-dengan bantuan berjuta-juta klip dalam talian menangkap lebih daripada 100, 000 penceramah yang berbeza. Dikemukakan Speech2Face, rangkaian saraf menggunakan dataset ini untuk menentukan hubungan antara isyarat vokal dan ciri-ciri muka tertentu; sebagai saintis menulis dalam kajian, umur, jantina, bentuk mulut seseorang, saiz bibir, struktur tulang, bahasa, aksen, kelajuan dan sebutan semua faktor ke dalam mekanik ucapan.

Menurut Melanie Ehrenkranz dari Gizmodo, Speech2Face menarik persatuan antara penampilan dan ucapan untuk menjana penampilan photorealistic individu yang berhadapan muka dengan ekspresi neutral. Walaupun imej-imej ini terlalu generik untuk dikenalpasti sebagai orang tertentu, majoriti mereka tepat menentukan jantina, bangsa dan umur penceramah.

Menariknya, Jackie Snow menerangkan untuk Syarikat Cepat, penyelidikan baru bukan sahaja membina penyelidikan sebelumnya mengenai ramalan usia dan jantina dari ucapan, tetapi juga menyoroti hubungan antara suara dan "ciri craniofacial" seperti struktur hidung.

Penulis menambah, "Ini dicapai tanpa maklumat terdahulu atau kewujudan pengelas yang tepat untuk jenis ciri geometri halus ini."

Namun, algoritma itu mempunyai kelemahannya. Seperti yang dinyatakan oleh Sains Sains Mindy Weisberger, model ini mempunyai masalah menganalisis variasi bahasa. Apabila memainkan klip audio seorang lelaki Asia yang berbahasa Cina, misalnya, Speech2Face menghasilkan wajah etnik yang betul, tetapi apabila individu yang sama direkodkan bercakap bahasa Inggeris, AI menghasilkan imej seorang lelaki kulit putih.

Dalam kes-kes lain, lelaki bernama tinggi, termasuk kanak-kanak, telah dikenal pasti sebagai perempuan, secara salahnya mendedahkan kecenderungan gender model dalam mengaitkan suara rendah dengan lelaki dan lelaki yang tinggi dengan wanita. Memandangkan fakta bahawa data latihan sebahagian besarnya diperoleh daripada video pendidikan yang dipaparkan di YouTube, para penyelidik terus menunjukkan bahawa algoritma itu gagal "mewakili sama rata seluruh penduduk dunia."

Menurut Jane C. Hu dari Slate, kesahihan menggunakan video YouTube untuk penyelidikan saintifik adalah cukup jelas. Klip itu dianggap sebagai maklumat yang tersedia secara terbuka; walaupun pengguna hak cipta video mereka, saintis boleh memasukkan bahan-bahan dalam eksperimen mereka di bawah klausa "penggunaan adil".

Tetapi etika amalan ini kurang mudah. Bercakap dengan Hu, Nick Sullivan, ketua kriptografi di Cloudflare, berkata dia terkejut melihat gambar dirinya dipaparkan dalam kajian pasukan MIT, kerana dia tidak pernah menandatangani pengabaian atau didengar secara langsung daripada penyelidik. Walaupun Sullivan memberitahu Hu, ia akan menjadi "baik" untuk dimaklumkan mengenai kemasukannya dalam pangkalan data, beliau mengakui bahawa memandangkan saiz kolam data itu, sukar bagi saintis untuk menjangkau semua orang yang digambarkan.

Pada masa yang sama, Sullivan menyimpulkan, "Oleh kerana imej dan suara saya telah dijadikan sebagai contoh dalam kertas Speech2Face, bukan hanya digunakan sebagai titik data dalam kajian statistik, ia pasti bersikap sopan untuk menghubungi saya atau minta kebenaran saya. "

Satu aplikasi dunia sebenar yang berpotensi untuk Speech2Face menggunakan model untuk "melampirkan wajah wakil" kepada panggilan telefon berdasarkan suara pembesar suara. Salji menambah bahawa teknologi pengenalan suara telah digunakan di beberapa bidang-kerap tanpa pengetahuan atau persetujuan orang perseorangan. Tahun lepas, Chase melancarkan program "Voice ID" yang belajar untuk mengenali pelanggan kad kredit yang memanggil bank itu, manakala institusi-institusi pembetulan di seluruh negara sedang membina pangkalan data individu yang dipenjarakan "voiceprints."