https://frosthead.com

Bolehkah Model Statistik Tepat Memprediksi Perolehan Pingat Olimpik?

Sekiranya seseorang meminta anda meramalkan bilangan pingat yang akan dimenangi setiap negara pada Sukan Olimpik tahun ini, anda mungkin akan cuba mengenal pasti atlet yang disukai dalam setiap acara, maka jumlah kemenangan setiap negara akan mencapai keputusan.

Tim dan Dan Graettinger, saudara-saudara di belakang syarikat perlombongan data Discovery Corps, Inc., mempunyai pendekatan yang agak berbeza. Mereka mengabaikan atlet sepenuhnya.

Model mereka untuk permainan Sochi memandang setiap kawasan geografi negara, KDNK per kapita, jumlah nilai eksport dan latitud untuk menentukan berapa banyak pingat negara akan menang. Sekiranya anda tertanya-tanya, ia meramalkan AS akan keluar di atas, dengan 29 medali secara keseluruhannya.

The Graettingers bukan yang pertama menggunakan pendekatan seperti ini yang didorong data, atas ke bawah untuk meramalkan perkiraan pingat. Daniel Johnson, seorang profesor ekonomi College Colorado, membina model serupa untuk lima Olimpik antara 2000 dan 2008-mencapai ketepatan 94 peratus secara keseluruhan dalam meramalkan bilangan pingat negara masing-masing-tetapi tidak membuat model untuk Sochi.

Dan dan Tim lebih baru untuk permainan. Dan-yang biasanya bekerja pada lebih banyak projek perlombongan data konvensional, misalnya meramalkan bakal pelanggan syarikat-pertama kali berminat menggunakan model untuk meramalkan pertandingan empat tahun lalu, semasa Sukan Olimpik Musim Sejuk Vancouver. "Saya menggunakan data mengenai masa lalu untuk meramalkan masa depan sepanjang masa, " katanya. "Setiap malam, mereka akan menunjukkan penghitungan pingat di TV, dan saya mula tertanya-tanya jika kita boleh meramalkannya."

Walaupun persembahan atlet individu boleh berbeza-beza secara tidak dapat dipertikaikan, beliau berpendapat, mungkin terdapat hubungan keseluruhan antara ciri-ciri asas negara (saiz, iklim dan jumlah kekayaan, misalnya) dan bilangan pingat yang mungkin dibawa pulang. Pendekatan semacam ini tidak akan dapat mengatakan pesaing mana yang mungkin memenangi acara tertentu, tetapi dengan data yang cukup, ia mungkin dapat memprediksi jumlah medali agregat secara tepat bagi setiap negara.

Pada mulanya, dia dan adiknya berkerja untuk membangunkan model pendahuluan untuk pertandingan London 2012. Untuk memulakan, mereka mengumpul pelbagai jenis set data yang berbeza, dari segala sesuatu dari geografi negara ke sejarah, agama, kekayaan dan struktur politik. Kemudian, mereka menggunakan analisis regresi dan kaedah-kaedah pengiraan data lain untuk melihat pemboleh ubah mana yang mempunyai hubungan rapat dengan data sejarah mengenai pingat Olimpik.

Mereka mendapati bahawa, untuk permainan musim panas, model yang menggabungkan produk domestik kasar, penduduk, latitud dan kebebasan ekonomi keseluruhan (seperti yang diukur oleh indeks Yayasan Warisan) berkait rapat dengan setiap pingat negara masing-masing untuk Olimpik dua musim panas lalu (2004 dan 2008). Tetapi pada ketika itu, model pendahuluan mereka hanya boleh meramalkan negara-negara mana yang akan memenangi dua atau lebih pingat, bukan bilangan pingat per negara.

Mereka memutuskan untuk memperbaikinya untuk permainan Sochi, tetapi tidak dapat bergantung pada model sebelumnya, kerana negara-negara yang berjaya pada musim sejuk sangat berbeza dari musim panas. Model Sochi baru mereka menangani masalah meramalkan kiraan pingat dalam dua langkah. Kerana kira-kira 90 peratus negara tidak pernah memenangi pingat Olimpik Musim Sejuk tunggal (tidak pernah memenangi Atlet Timur Tengah, Amerika Selatan, Afrika atau Caribbean), ia pertama kali memisahkan sepuluh peratus yang mungkin memenangi sekurang-kurangnya satu, kemudian meramalkan berapa banyak masing-masing akan menang.

"Sesetengah trend adalah apa yang anda harapkan-kerana penduduk negara menjadi lebih besar, ada kemungkinan bahawa ia akan memenangi pingat, " kata Tim. "Akhirnya, anda memerlukan beberapa jentera statistik yang lebih kuat yang boleh mengisar melalui banyak pembolehubah dan kedudukannya dari segi yang paling ramal."

Akhirnya, terdapat beberapa pembolehubah yang memisahkan sembilan puluh peratus daripada negara yang tidak memenangi medali daripada sepuluh peratus yang mungkin menang: ini termasuk kadar penghijrahan, bilangan doktor per kapita, garis lintang, keluaran dalam negara kasar dan sama ada negara mempunyai memenangi pingat pada musim panas lalu (tiada negara yang pernah memenangi pingat musim sejuk tanpa memenangi satu musim panas sebelumnya, sebahagiannya kerana pemenang musim panas adalah lebih besar daripada musim sejuk). Dengan menjalankan model ini pada dua Olimpik Musim Sejuk yang lalu, model ini menentukan negara mana yang membawa pulang pingat dengan ketepatan 96.5 peratus.

Dengan 90 peratus daripada negara-negara dihapuskan, Graettingers menggunakan analisis regresi yang sama untuk membuat model yang diramalkan, secara retroaktif, berapa pingat negara masing-masing menang. Analisis mereka mendapati bahawa senarai pembolehubah yang sedikit berbeza paling sesuai dengan data medali sejarah. Pembolehubah ini bersama-sama dengan ramalan untuk permainan Sochi adalah di bawah:

Gambar 4-Ramalan Pingat Jadual 2 - dengan border.png Ramalan model untuk permainan Sochi (Graf courtesy Discovery Corps, Inc.)

Sesetengah pemboleh ubah yang berubah menjadi korelatif bukanlah kejutan yang besar-masuk akal bahawa negara-negara yang lebih tinggi akan lebih baik pada peristiwa-peristiwa yang dimainkan semasa musim sejuk-tetapi ada yang lebih mengejutkan.

"Kami fikir penduduk, bukan kawasan tanah, akan menjadi penting, " kata Dan. Mereka tidak pasti mengapa kawasan geografi berakhir dengan memasukan data sejarah lebih dekat, tetapi mungkin kerana beberapa negara penduduk yang tinggi yang tidak memenangi pingat musim sejuk (seperti India dan Brazil) membuang data. Dengan menggunakan sebidang tanah, model itu menghindarkan pengaruh outsized negara ini, tetapi masih mengekalkan persatuan yang kasar dengan populasi, kerana pada keseluruhannya, negara-negara dengan kawasan yang lebih besar memiliki populasi yang lebih besar.

Sudah tentu, model itu tidak sempurna, walaupun dalam menyesuaikan data sejarah. "Pendekatan kami adalah pendekatan 30, 000 kaki. Ada pemboleh ubah yang tidak boleh kita perolehi, " kata Tim. Sesetengah negara telah berulang kali mengungguli ramalan model (termasuk Korea Selatan, yang memenangi jumlah skating kelajuan pendek yang tidak seimbang) manakala yang lain secara konsisten kurang baik (seperti UK, yang kelihatannya jauh lebih baik pada peristiwa musim panas yang diharapkan, mungkin kerana-walaupun latitud-ia mendapat lebih banyak hujan daripada salji).

Di samping itu, pengecualian yang konsisten yang mereka temukan kepada ramalan model adalah bahawa negara tuan rumah mempunyai lebih banyak pingat berbanding dengan yang lain, berdasarkan hanya pada data. Kedua-dua Itali (semasa permainan Turin 2006) dan Kanada (semasa permainan Vancouver 2010) membuat model itu, dengan Kanada menetapkan rekod sepanjang masa untuk memenangi 14 emas.

Namun, berdasarkan pendekatan yang ketat dari segi statistik mereka, Graettingers yakin bahawa secara keseluruhan, model mereka akan meramalkan jumlah pingat akhir dengan tahap ketepatan yang agak tinggi.

Bagaimana ramalan mereka berbanding dengan pakar yang menggunakan lebih banyak strategi konvensional? Pakar tidak berbeza secara dramatik, tetapi mereka mempunyai beberapa negara yang secara tradisinya berjaya (Norway, Kanada, Rusia) memenangi pingat yang lebih tinggi, bersama dengan beberapa orang lain (China, Belanda, Australia) masing-masing memenangi sedikit lebih sedikit.

Setakat ini, Graettingers tidak meletakkan sebarang taruhan pada ramalan mereka, tetapi mereka merancang untuk membandingkan output model mereka untuk kemungkinan pertaruhan sebelum permainan bermula. Jika mereka melihat apa-apa percanggahan yang mereka ingin mengeksploitasi, mereka mungkin akan meletakkan wang mereka di mana mulut mereka.

Bolehkah Model Statistik Tepat Memprediksi Perolehan Pingat Olimpik?