Beberapa minggu lalu, saya berada di pusat membeli-belah apabila saya melihat seorang wanita yang membawa beg tangan yang hebat dengan tali seperti tali. Sejak saya berada di pasaran untuk tote baru, saya merenung bertanya di mana dia mendapatnya. Tetapi sebelum saya boleh bergerak, dia menghilang di sudut. Apabila saya pulang, saya cuba Googling beg itu. Tetapi saya bukan fashionista, dan saya mendapati saya tidak mempunyai perbendaharaan kata untuk menerangkan apa yang saya lihat. "Beg tangan kulit dengan tali drawstring" tidak betul. Tidak ada "dompet dengan pemegang tali" atau "beg dengan tali tali." Akhirnya, saya berputus asa.
Sekarang, teknologi baru bertujuan untuk membantu orang mencari sesuatu yang tidak dapat dijelaskan dengan kata-kata.
James Hays, seorang saintis komputer di Institut Teknologi Georgia, telah mencipta satu program komputer yang mampu memadankan imej yang ditarik tangan ke gambar. Ini akhirnya boleh membawa kepada program yang boleh menyusun perkhidmatan carian imej internet, seperti Imej Google, dan mencari gambar yang sesuai dengan lukisan pengguna.
"Matlamatnya adalah untuk dapat mengaitkan atau memadankan foto dan lakaran dalam arah, sama seperti kemampuan manusia, " kata Hays. "Seorang manusia boleh melihat sketsa yang teruk dan memikirkan apa yang sepadan dengannya. Kami mahu mempunyai kemampuan yang sama dengan pengiraan. "
Untuk mencipta program itu, Hays menyewa hampir 700 pekerja dari Amazon Mechanical Turk, sebuah pasar crowdsourcing yang sesuai dengan pekerja dengan orang yang memerlukan tugas yang dilakukan. Pasukannya menunjukkan gambar pekerja objek dan haiwan biasa, seperti tupai, teko dan pisang, membolehkan mereka melihat imej selama dua saat. Pekerja kemudian akan menarik objek dari ingatan. Pasukan akhirnya mengumpulkan lebih daripada 75, 000 lakaran daripada 12, 500 objek. Mereka memanggil ini "pangkalan data Sketchy."
Program itu kemudian menganalisis lakaran dan memadankannya dengan gambar yang mereka paling hampir menyerupai. Teknologi mengenal pasti foto yang betul 37 peratus masa itu. Manusia, dalam perbandingan, adalah betul kira-kira 54 peratus masa. Walaupun 37 peratus mungkin tidak mengesankan, ia sebenarnya agak melompat untuk komputer.
"Manusia sangat baik dalam penglihatan, kita mengiktiraf imej dengan mudah, " kata Hays. "Ia sebenarnya sukar dikira secara komputasi."
Salah satu cabaran utama dalam meningkatkan program ialah kebanyakan orang adalah seniman yang cukup buruk. Seperti yang ditulis Hays dan pasukannya dalam karya mengenai subjek, "Bentuk dan sisik diputarbelitkan. Bahagian objek adalah caricature (telinga besar pada gajah), antropomorphized (mulut tersenyum pada labah-labah), atau dipermudahkan (tongkat tongkat). "
Dari segi sejarah, penyelidikan untuk mendapatkan komputer untuk mengenali lakaran telah memberi tumpuan kepada perkara seperti pengedaran garis dalam lukisan, arah garis masuk atau di mana sempadan lukisan itu. Tetapi kerana manusia hanya menarik apa yang penting kepada manusia (mata, sebagai contoh, sentiasa termasuk dalam lakaran, walaupun mereka agak kecil), penting bagi sebuah komputer untuk "belajar" bagaimana lakaran cenderung sama dan bagaimana mereka cenderung berbeza daripada gambar. Untuk ini, program ini menggunakan dua rangkaian berasingan, satu yang menilai lakaran, yang menilai gambar. Dengan analisis malar dataset yang besar, program ini boleh terus "belajar."
Hays dan pasukannya merancang untuk terus meningkatkan program dengan menambah data. Pendahuluan dalam pembelajaran komputer juga harus membantu meningkatkan kadar pertandingan. Setakat ini, program ini mempunyai kadar padanan yang cukup tinggi apabila membandingkan sketsa ke pangkalan data foto internet, termasuk Flickr, walaupun ia sukar untuk mengukur, kata Hays.
Sebagai tambahan kepada pencarian imej beg tangan yang saya sangat memerlukan, program ini mempunyai beberapa kegunaan potensial yang kurang pantas. Polis boleh mengimbas sketsa suspek dan membandingkannya dengan pangkalan data gambar jenayah. Program ini boleh digunakan oleh orang yang bercakap dan menulis dalam bahasa apa pun, atau tidak dapat menulis sama sekali.
"Satu matlamat memahami sketsa adalah bahawa ia adalah bahasa yang agak universal, " kata Hays. "Ia tidak terikat dengan bahasa bertulis tertentu dan ia juga tidak terikat dengan celik huruf. [Program seperti ini boleh membawa] akses kepada maklumat tanpa bahasa tertulis. "
Program ini juga boleh digunakan secara artistik, untuk membuat adegan photorealistic daripada lakaran. Sentiasa membayangkan tinggal di istana di bulan? Lukiskannya, dan program itu dapat mewujudkan imej foto untuk anda pada suatu hari dengan menjahit bersama-sama kepingan imej lain.
Maklumat yang dikumpulkan oleh Hays dan pasukannya juga boleh membantu menangani beberapa soalan neurosains dan psikologi, kata Hays.
"Pasangan lakaran-foto ini mengatakan sesuatu tentang persepsi manusia, tentang apa yang kita fikir adalah penting, apa bahagian imej yang menarik perhatian kita, " kata Hays. "Dalam beberapa cara, pangkalan data ini mengkodekan ini dengan baik. Mungkin ada sesuatu yang akan ditolak daripada itu, jika anda mahu mengatakan sesuatu tentang manusia sendiri. "