https://frosthead.com

Bolehkah Model Komputer Predict Round Pertama Kegilaan Mac Tahun Ini?

"Berhati-hatilah pada bulan Mac." Ya, akhirnya pada masa itu lagi tahun: apabila maharaja bola keranjang kolej mesti menonton punggung mereka, supaya benih rendah bawah mogok pertandingan.

Sebelum 15 Mac, berjuta-juta di seluruh dunia akan mengisi kurungan March Madness mereka. Pada tahun 2017, ESPN menerima rekod sebanyak 18.8 juta kurungan.

Langkah pertama untuk pendakap yang sempurna adalah dengan betul memilih pusingan pertama. Malangnya, kebanyakan daripada kita tidak dapat meramalkan masa depan. Tahun lepas, hanya 164 daripada kurungan yang diserahkan sempurna melalui pusingan pertama - kurang daripada 0.001 peratus.

18.8 juta kurungan yang dikemukakan.

164 sempurna selepas Pusingan 1.

Ini adalah untuk keghairahan. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW

- ESPN Fantasy Sports (@ESPNFantasy) 18 Mac, 2017

Banyak tanda kurung yang ditumpaskan apabila pasukan pilihan yang lebih rendah menjejaskan benih yang lebih tinggi. Memandangkan bidang ini berkembang kepada 64 pasukan pada tahun 1985, sekurang-kurangnya lapan masalah berlaku setiap tahun. Jika anda ingin memenangi kolam pendakap anda, anda lebih baik memilih sekurang-kurangnya beberapa gangguan.

Kami dua Ph.D matematik calon di Ohio State University yang mempunyai semangat untuk sains data dan bola keranjang. Pada tahun ini, kami memutuskan akan menjadi menyenangkan untuk membina program komputer yang menggunakan pendekatan matematik untuk meramalkan gangguan pertama. Sekiranya kita betul, pendakap yang dipilih dengan menggunakan program kami harus melakukan lebih baik melalui pusingan pertama daripada pendakap biasa.

Manusia yang jatuh

Ia tidak mudah untuk mengenalpasti mana-mana perlawanan pusingan pertama akan menyebabkan kecewa.

Katakan anda perlu membuat keputusan antara benih No 10 dan benih No 7. The seed No. 10 telah melepaskan peluang dalam tiga penampilan kejohanan yang lalu, sekali pun membuat Final Four. Benih No 7 adalah satu pasukan yang tidak mendapat liputan nasional; peminat kasual mungkin tidak pernah mendengarnya. Yang mana yang anda pilih?

Jika anda memilih benih No. 10 pada tahun 2017, anda akan pergi dengan Virginia Commonwealth University ke atas Saint Mary's of California - dan anda pastinya salah. Terima kasih kepada kegagalan membuat keputusan yang dipanggil kecenderungan kecenderungan, manusia dapat ditipu untuk menggunakan pemerhatian mereka yang paling baru-baru ini untuk membuat keputusan.

Bias kecemasan hanyalah salah satu jenis bias yang boleh menyusup ke dalam proses pemilihan seseorang, tetapi terdapat banyak yang lain. Mungkin anda bias ke arah pasukan rumah anda, atau mungkin anda mengenal pasti dengan pemain dan ingin dia berjaya. Semua ini mempengaruhi pendirian anda dengan cara yang berpotensi negatif. Malah profesional berpengalaman jatuh ke dalam perangkap ini.

Upsets pemodelan

Pembelajaran mesin boleh mempertahankan terhadap perangkap-perangkap ini.

Dalam pembelajaran mesin, ahli statistik, ahli matematik dan saintis komputer melatih mesin untuk membuat ramalan dengan membiarkannya "belajar" dari data masa lalu. Pendekatan ini telah digunakan dalam pelbagai bidang, termasuk pemasaran, perubatan dan sukan.

Teknik pembelajaran mesin boleh disamakan dengan kotak hitam. Pertama, anda memberi suai data lalu lintas algoritma, pada dasarnya menetapkan pendailan di kotak hitam. Sebaik sahaja tetapan dikalibrasi, algoritma boleh membaca dalam data baru, membandingkannya dengan data lepas dan kemudian meludahkan ramalannya.

Paparan kotak hitam bagi algoritma pembelajaran mesin. Paparan kotak hitam bagi algoritma pembelajaran mesin. (Matthew Osborne, CC BY-SA)

Dalam pembelajaran mesin, terdapat pelbagai kotak hitam yang ada. Untuk projek Madness March kami, yang kami mahukan dikenali sebagai algoritma klasifikasi. Ini membantu kita menentukan sama ada atau tidak permainan harus diklasifikasikan sebagai kecewa, sama ada dengan memberikan kebarangkalian kecewa atau secara jelas mengelaskan permainan sebagai satu.

Program kami menggunakan beberapa algoritma klasifikasi yang popular, termasuk regresi logistik, model hutan rawak dan k-terdekat jiran. Setiap kaedah adalah seperti "jenama" yang berbeza daripada mesin yang sama; mereka bekerja dengan berbeza di bawah tudung sebagai Fords dan Toyotas, tetapi melaksanakan tugas klasifikasi yang sama. Setiap algoritma, atau kotak, mempunyai ramalan sendiri mengenai kebarangkalian kecewa.

Kami menggunakan statistik semua pasukan pusingan pertama 2001 hingga 2017 untuk menetapkan pendaratan pada kotak hitam kami. Apabila kami menguji salah satu daripada algoritma kami dengan data pusingan pertama 2017, ia mempunyai kira-kira kadar kejayaan 75 peratus. Ini memberi kita keyakinan bahawa menganalisis data lepas, bukan hanya mempercayai usus kita, boleh membawa kepada ramalan yang lebih tepat tentang gangguan, dan dengan itu lebih baik kurungan keseluruhan.

Apakah kelebihan kotak-kotak ini mempunyai gerak hati manusia? Untuk satu, mesin boleh mengenal pasti corak dalam semua data 2001-2017 dalam masa beberapa saat. Lebih-lebih lagi, kerana mesin hanya bergantung kepada data, mereka mungkin kurang mungkin untuk kecenderungan psikologi manusia.

Itu bukan untuk mengatakan bahawa pembelajaran mesin akan memberi kita kurungan yang sempurna. Walaupun kotak itu memintas berat sebelah manusia, ia tidak kebal terhadap kesilapan. Keputusan bergantung pada data masa lalu. Contohnya, jika benih No 1 akan kalah dalam pusingan pertama, model kami tidak mungkin meramalkannya, kerana itu tidak pernah berlaku sebelum ini.

Di samping itu, algoritma pembelajaran mesin berfungsi dengan baik dengan beribu-ribu atau bahkan berjuta-juta contoh. Hanya 544 pusingan pertama permainan Madness March telah dimainkan sejak tahun 2001, jadi algoritme kami tidak akan menyebut dengan betul setiap kecewa. Pakar bola keranjang yang melontarkan Jalen Rose, output kami harus digunakan sebagai alat bersama dengan pengetahuan pakar anda - dan nasib! - untuk memilih permainan yang betul.

Mesin kegilaan belajar?

Kami bukan orang pertama yang memohon pembelajaran mesin kepada Mac Madness dan kami tidak akan menjadi yang terakhir. Malah, teknik pembelajaran mesin tidak lama lagi mungkin diperlukan untuk menjadikan pendakap anda berdaya saing.

Anda tidak memerlukan ijazah dalam matematik untuk menggunakan pembelajaran mesin - walaupun ia membantu kami. Tidak lama lagi, pembelajaran mesin mungkin lebih mudah dicapai dari sebelumnya. Mereka yang berminat boleh melihat model kami dalam talian. Jangan ragu untuk menerokai algoritma kami dan juga membuat pendekatan yang lebih baik.


Artikel ini pada asalnya diterbitkan di The Conversation. Perbualan

Matthew Osborne, Ph.D Calon Matematik, Ohio State University

Kevin Nowland, Ph.D Calon dalam Matematik, Ohio State University

Bolehkah Model Komputer Predict Round Pertama Kegilaan Mac Tahun Ini?