BAGAIMANA KECERDASAN BUATAN DAPAT MEREVOLUSIKAN PENYELIDIKAN MUZIUM ARKIB | DI SMITHSONIAN | SMITHSONIAN - ARTIKEL, DI SMITHSONIAN, PENYELIDIKAN BARU DI SMITHSONIAN, INOVASI, SAINS

Apabila anda berfikir tentang kecerdasan buatan, bidang botani mungkin tidak paling penting dalam fikiran anda. Apabila anda memaparkan tetapan untuk penyelidikan pengkomputeran yang canggih, muzium-muzium yang berusia di abad tidak boleh teratas. Namun, artikel yang baru diterbitkan dalam Biodiversity Data Journal menunjukkan bahawa beberapa inovasi yang paling menarik dan menarik dalam pembelajaran mesin berlangsung di Herbarium Nasional Muzium Sejarah Alam Nasional di Washington, DC

Kertas ini, yang menunjukkan bahawa rangkaian saraf digital mampu membezakan antara dua keluarga tumbuhan yang serupa dengan kadar ketepatan lebih dari 90 peratus, menyiratkan segala macam kemungkinan penyembunyian untuk saintis dan ahli akademik. Kajian ini bergantung kepada perisian yang berasaskan algoritma "pembelajaran mendalam", yang membolehkan program komputer mengumpul pengalaman dengan cara yang sama seperti pakar manusia, menaikkan permainan mereka setiap kali mereka berjalan. Tidak lama lagi, teknologi ini boleh membolehkan analisa perbandingan berjuta-juta spesimen yang berbeza dari semua penjuru dunia - suatu proposisi yang sebelum ini telah menuntut jumlah pekerja manusia yang tidak dapat dipertahankan.

"Arah penyelidikan ini menunjukkan banyak janji, " kata profesor Stanford, Mark Algee-Hewitt, suara yang menonjol dalam pergerakan kemanusiaan digital dan penolong pengarah fakulti di Pusat Analisis Ruang dan Teks. "Kaedah ini mempunyai keupayaan untuk memberi kita sejumlah besar maklumat tentang koleksi apa yang terkandung, " katanya, dan "dalam berbuat demikian, mereka membuat data ini dapat diakses."

Penemuan baru ini dibina pada tahun-tahun kerja yang dijalankan di Institusi Smithsonian untuk secara sistematik mendigitalkan koleksinya untuk akademik dan akses awam dalam talian, dan mewakili pertemuan antara minda yang luar biasa: ahli botani, pakar-pakar pendigitalan dan saintis data semua mempunyai sebahagian untuk memainkannya keputusan untuk menyala.

Kisah bermula pada bulan Oktober 2015, apabila pemasangan alat tali pinggang kamera dan tali pinggang di bawah Muzium Sejarah Semula jadi memudahkan usaha untuk mendigitalkan koleksi botani Smithsonian itu. Daripada perlu mengimbas setiap bunga yang ditekan secara manual dan rumpun rumput di repositori mereka, para pekerja kini boleh mengetepikan keseluruhan array sampel, biarkan tali pinggang itu berfungsi dengan ajaib, dan mengambil dan mengkatalog semula mereka pada hujung ekor. Krew tiga orang telah mengawasi tali pinggang sejak debutnya, dan mereka melalui kira-kira 750, 000 spesimen setiap tahun. Tidak lama kemudian, inventori herbarium Smithsonian, lima juta spesimen yang kuat, akan secara keseluruhannya dalam talian.

Setiap spesimen ditandakan dengan kad pengenalan yang menyeluruh, yang memberikan maklumat mengenai sumbernya serta data statistik penting. Kandungan kad-kad ini telah disalin dan dimuat naik bersama-sama dengan imej digital, memberikan pandangan yang komprehensif mengenai setiap item dalam koleksi untuk mereka yang mempunyai kecenderungan untuk mencari.

Dalam arkib botani yang didigitalkan oleh Smithsonian, imej resolusi tinggi spesimen dipasangkan dengan transkripsi tag ID berguna yang dilekatkan kepada mereka. (Muzium Sejarah Alam Negara)

"Ia menjadikan koleksi kami dapat diakses oleh sesiapa sahaja yang mempunyai komputer dan sambungan internet, " kata ketua botani muzium Laurence Dorr, "yang bagus untuk menjawab soalan-soalan tertentu." Walau bagaimanapun, Dorr mendapati dia tidak dapat menggoncang potensi potensi yang belum diterokai . Pasti, jumlah data spesimen besar-besaran kini tersedia untuk komuniti dalam talian, tetapi menganalisisnya dalam agregat kekal penuh khayalan. Melihat spesimen tertentu dan spesimen spesimen kecil cukup mudah, tetapi Dorr tertanya-tanya jika ada cara untuk memanfaatkan data untuk membuat kesimpulan tentang beribu - ribu spesimen. "Apa yang boleh anda lakukan dengan data ini?" Dia ingat tertanya-tanya. Seorang lelaki bernama Adam Metallo tidak lama kemudian memberikan jawapan yang menarik.

Metallo, seorang pegawai dengan Office Program Digitization Smithsonian, telah menghadiri persidangan di mana gergasi teknologi NVIDIA-darling pemain PC di mana-mana-sedang mempamerkan unit pemprosesan grafik generasi akan datang atau GPU. Metallo berada di sana mencari jalan untuk memperbaiki keupayaan penyajian digital 3D Smithsonian, tetapi ia merupakan maklumat penting yang tidak dapat dikaitkan dengan perhatian dan terjebak dengannya. Di samping menghasilkan visual 3D yang dinamik dan tinggi, dia diberitahu, GPU NVIDIA sesuai untuk analisis data besar. Khususnya, GPU yang diperkuat adalah apa yang diperlukan untuk pengecaman corak digital yang intensif; banyak algoritma pembelajaran mesin telah dioptimumkan untuk platform NVIDIA.

Metallo terkejut dengan serta-merta. Teknologi "pembelajaran mendalam" ini, yang telah digunakan dalam sektor khusus seperti pembangunan kereta memandu sendiri dan radiologi perubatan, memegang potensi besar untuk dunia muzium-yang mana Metallo menegaskan, adalah "dataset terbesar dan tertua yang kita kini mempunyai akses untuk. "

"Apa maksudnya bagi dataset besar yang kami buat di Smithsonian melalui pendigitan?" Metallo mahu tahu. Persoalannya dengan sempurna mencerminkan bahawa Laurence Dorr, dan apabila kedua-dua terhubung, percikan api mulai terbang. "Koleksi botani adalah salah satu koleksi terbesar yang kami baru-baru ini bekerja, " kata Metallo. Kerjasama mencadangkan dirinya sendiri.

Manakala banyak bentuk permintaan pembelajaran mesin yang membezakan penanda-penanda matematik utama dalam imej yang akan dianalisis-proses yang sungguh-sungguh yang memegang algoritma pembelajaran mendalam komputer masa kini dapat mengajar diri mereka penanda untuk mencari pekerjaan, menyimpan masa dan membuka pintu kepada pertanyaan besar-besaran. Walau bagaimanapun, menulis program pembelajaran mendalam khusus Smithsonian dan menentukurnya untuk pertanyaan penyelidikan botani diskret adalah perniagaan yang rumit-Dorr dan Metallo memerlukan bantuan saintis data untuk menjadikan visi mereka menjadi realiti.

Para saintis data menyusun spesimen latihan untuk rangkaian saraf semasa apa yang diingat oleh Paul Frandsen

Ahli sains data menyusun spesimen latihan untuk rangkaian saraf semasa apa yang Paul Frandsen mengingati sebagai "hari Januari yang sejuk." (Muzium Sejarah Alam Negara)

Salah seorang pakar yang dibawa masuk ialah saintis data penyelidikan Smithsonian Paul Frandsen, yang segera mengenali potensi dalam mewujudkan rangkaian saraf NVIDIA GPU yang berkuasa untuk membawa pengumpulan botani. Untuk Frandsen, projek ini melambangkan langkah pertama yang utama ke arah laluan yang indah dan belum diterokai. Tidak lama kemudian, beliau berkata, "kita akan mula mencari corak morfologi pada skala global, dan kita akan dapat menjawab soalan-soalan yang sangat besar ini yang secara tradisional telah mengambil ribuan atau berjuta-juta jam manusia melihat melalui kesusasteraan dan mengelaskan perkara. Kami akan dapat menggunakan algoritma untuk membantu kami mencari pola tersebut dan mempelajari lebih lanjut mengenai dunia. "

Penemuan yang baru diterbitkan adalah bukti konsep yang menarik. Dikeluarkan oleh satu pasukan sembilan yang diketuai oleh ahli botani penyelidikan Eric Schuettpelz dan saintis data Paul Frandsen dan Rebecca Dikow, kajian ini bertujuan untuk menjawab dua soalan berskala besar mengenai pembelajaran mesin dan herbarium. Yang pertama adalah bagaimana berkesan rangkaian neural yang terlatih dapat menyusun spesimen merkuri berwarna dari yang tidak dibuang. Yang kedua, kemunculan kertas, adalah bagaimana keberkesanan rangkaian sedemikian dapat membezakan ahli-ahli dari dua keluarga yang serupa dengan tumbuhan-iaitu famili sekutu paksi Lycopodiaceae dan Selaginellaceae .

Percubaan pertama memerlukan pasukan itu melalui beribu-ribu spesimen terlebih dahulu, dengan menyatakan secara jelas mana yang kelihatan terkontaminasi dengan merkuri (teknik pemeliharaan botani yang ketinggalan zaman). Mereka mahu memastikan mereka tahu dengan kepastian 100 peratus yang berwarna dan yang tidak lain-lain, menilai ketepatan program tidak mungkin. Pasukan ceri itu memilih hampir 8, 000 imej sampel bersih dan 8, 000 lagi sampel berwarna dengan mana untuk melatih dan menguji komputer. Pada masa mereka selesai tweaking parameter rangkaian saraf dan menarik balik semua bantuan manusia, algoritma itu mengkategorikan spesimen yang tidak pernah dilihat sebelumnya dengan ketepatan 90 peratus. Sekiranya spesimen yang paling samar-contohnya, yang mana pewarnaan adalah minima dan / atau sangat lemah-dibuang, angka itu naik kepada 94 peratus.

Hasil ini membayangkan bahawa perisian pembelajaran mendalam tidak lama lagi boleh membantu botanis dan ahli sains lain mengelakkan membuang masa pada tugas menyusun yang membosankan. "Masalahnya bukanlah bahawa manusia tidak dapat menentukan sama ada spesimen itu berwarna dengan merkuri atau tidak, " Metallo menjelaskan, tetapi sebaliknya "sukar untuk menyusun secara manual dan mengetahui di mana pencemaran ada, " dan tidak masuk akal berbuat demikian dari sudut pandang pengurusan masa. Dengan gembira, pembelajaran mesin boleh mengubah masa utama dalam kebanyakan hari dalam analisis automatik yang pantas.

Menghiasi spesimen satu demi satu memerlukan banyak tenaga, dan menjadikannya sukar untuk membuat kesimpulan besar-besaran. Sekarang, analisis data besar memberi muzium cara baharu untuk mendekati koleksi mereka. (Arnold Arboretum)

Bahagian diskriminasi spesies kajian ini lebih menarik. Penyelidik melatih dan menguji rangkaian saraf dengan kira-kira 9, 300 clubmoss dan 9100 spikemos sampel. Seperti percubaan yang mengotorkan, kira-kira 70 peratus daripada sampel ini digunakan untuk penentukuran awal, 20 peratus digunakan untuk penghalusan, dan 10 peratus terakhir digunakan untuk secara rasmi menilai ketepatan. Sebaik sahaja kod itu dioptimumkan, kadar kejayaan komputer di membezakan antara kedua-dua keluarga adalah 96 peratus dan 99 peratus hampir sempurna jika sampel yang paling tipis ditinggalkan.

Suatu hari, Frandsen berspekulasi, program seperti ini boleh mengendalikan spesifikasi spesimen awal di muzium di seluruh dunia. "Saya tidak fikir algoritma ini akan melakukan apa-apa untuk menggantikan kurator, " dia cepat perhatikan, "tetapi sebaliknya, saya fikir mereka boleh membantu kurator dan orang yang terlibat dalam sistematik untuk menjadi lebih produktif, supaya mereka boleh melakukan kerja mereka dengan banyak lebih cepat."

Kejayaan rangkaian neural dalam kajian ini juga membuka jalan untuk ujian pesat hipotesis saintifik di seluruh koleksi besar-besaran. Dorr melihat dalam penemuan pasukan kemungkinan melakukan perbandingan morfologi yang luas dari perbandingan-perbandingan perbandingan digital yang dapat membawa kepada penemuan ilmiah yang signifikan.

Ini bukan untuk mengatakan bahawa pembelajaran mendalam akan menjadi peluru perak dalam penyelidikan di seluruh lembaga. Stanford's Mark Algee-Hewitt menegaskan bahawa "hampir mustahil untuk membina semula mengapa dan bagaimana rangkaian saraf membuat keputusannya" sebaik sahaja ia dikondisikan; penentuan yang ditinggalkan untuk program komputer semestinya tidak semestinya bersifat rumit dan boleh diverifikasi sekiranya mereka dipercayai.

"Jelas sekali, " kata Dorr, sebuah program komputer autonomi "tidak akan menguji hubungan genetik, perkara seperti itu" - sekurang-kurangnya pada bila-bila masa dalam masa terdekat. "Tetapi kita boleh mula mempelajari tentang pengedaran ciri-ciri mengikut wilayah geografi, atau oleh taksonomi taksonomi. Dan itu akan menjadi sangat kuat. "

Lebih daripada apa-apa, penyelidikan ini adalah titik melompat. Sudah jelas sekarang bahawa teknologi pembelajaran mendalam memberikan janji yang besar untuk saintis dan ahli akademik lain di seluruh dunia, serta orang ramai yang ingin tahu yang mereka hasilkan pengetahuan. Apa yang masih kekal adalah kerja susulan yang ketat.

"Ini adalah langkah kecil, " kata Frandsen, "tetapi ini adalah satu langkah yang benar-benar memberitahu kita bahawa teknik ini boleh berfungsi pada spesimen muzium yang didigit. Kami teruja untuk menubuhkan beberapa projek dalam beberapa bulan akan datang, untuk mencuba untuk menguji hadnya lebih sedikit lagi. "