TWEET ANDA BOLEH MERAMALKAN APABILA ANDA AKAN MENDAPAT SELESEMA

Pada tahun 1854, sebagai tindak balas kepada wabak kolera yang dahsyat yang melanda London, doktor British John Snow memperkenalkan idea yang akan merevolusikan bidang kesihatan awam: peta epidemiologi. Dengan merakam keadaan kolera di kawasan kejiranan yang berlainan di bandar dan merancangnya pada peta berdasarkan kediaman pesakit, dia mendapati bahawa satu pam air yang tercemar bertanggungjawab untuk banyak jangkitan.

Peta itu memujuknya-dan, akhirnya, pihak berkuasa awam-bahawa teori miasma penyakit (yang mendakwa bahawa penyakit merebak melalui gas berbahaya) adalah palsu, dan teori kuman (yang dengan tepat mendakwa bahawa mikroorganisma yang dipersalahkan) adalah benar. Mereka meletakkan kunci pada pemegang pam yang bertanggungjawab terhadap wabak itu, menandakan peralihan paradigma yang berubah secara kekal bagaimana kita menangani penyakit berjangkit dan dengan itu sanitasi.

Teknologi pemetaan agak berbeza, seperti penyakit, tetapi ada persamaan tertentu antara peta Salju dan projek baru yang dijalankan oleh sekumpulan penyelidik yang diketuai oleh Henry Kautz dari University of Rochester. Dengan mewujudkan algoritma yang dapat mengesan trend selesema dan membuat ramalan berdasarkan kata kunci dalam tweet geotagged awam, mereka mengambil pendekatan baru untuk mengkaji penyebaran penyakit -yang dapat mengubah cara kita mengkaji dan mengesan pergerakan penyakit dalam masyarakat .

"Kita boleh memikirkan orang sebagai sensor yang melihat dunia di sekeliling mereka dan kemudian melaporkan apa yang mereka lihat dan mengalami di media sosial, " jelas Kautz. "Ini membolehkan kami melakukan pengukuran terperinci pada skala populasi, dan tidak memerlukan penyertaan pengguna yang aktif."

Dalam erti kata lain, apabila kita mencatatkan bahawa kita baru sahaja dibongkar oleh batuk yang menyakitkan dan demam, kita secara tidak sengaja menyediakan data yang kaya untuk eksperimen kesihatan awam yang sangat besar, maklumat yang boleh digunakan para penyelidik untuk mengesan pergerakan penyakit seperti selesema dalam resolusi tinggi dan masa sebenar.

Projek Kautz, yang dipanggil SocialHealth, telah menggunakan tweet dan pelbagai media sosial untuk mengesan pelbagai isu kesihatan awam-baru-baru ini, mereka mula menggunakan tweet untuk memantau kejadian keracunan makanan di restoran-restoran New York City dengan membalukan semua orang yang telah menyiarkan tweet-tetingkap geotagged dari restoran, kemudian mengikuti tweet mereka untuk 72 jam akan datang, menyemak muntah-muntah, cirit-birit, sakit perut, demam atau menggigil. Dengan berbuat demikian, mereka mengesan kemungkinan keracunan makanan sebanyak 480.

Tetapi ketika perubahan musim, ia adalah kerja mereka menjejaki virus influenza yang paling pembukaan mata. Trend Google Flu juga ingin menggunakan pencari Google untuk menjejaki pergerakan selesema, tetapi model itu sangat dipandang remeh oleh wabak tahun lepas, mungkin kerana liputan media selesema mendorong orang untuk membuat pertanyaan berkaitan dengan selesema. Analisis Twitter mewakili satu set data baru dengan beberapa kualiti-resolusi geografi yang lebih tinggi dan keupayaan untuk menangkap pergerakan pengguna dari masa ke masa-yang boleh menghasilkan ramalan yang lebih baik.

Untuk memulakan projek penjejakan flu mereka, para penyelidik SocialHealth melihat secara khusus di New York, mengumpul sekitar 16 juta tweet awam geotagged setiap bulan daripada 600, 000 pengguna selama tiga bulan. Di bawah adalah satu masa berlalu satu hari Twitter New York, dengan warna yang berbeza mewakili frekuensi yang berbeza tweet di lokasi tersebut (biru dan hijau bermakna kurang tweet, oren dan merah lebih banyak lagi):

Untuk menggunakan semua data ini, pasukannya telah membangunkan satu algoritma yang menentukan jika setiap tweet mewakili laporan simptom seperti selesema. Sebelum ini, penyelidik lain hanya melakukan ini dengan mencari kata kunci dalam tweet ("sakit, " contohnya), tetapi pasukannya mendapati bahawa pendekatan itu membawa kepada positif palsu: Banyak lagi pengguna yang tweet bahawa mereka sakit kerja rumah daripada mereka berasa sakit.

Untuk mengambil kira ini, algoritma pasukannya mencari tiga perkataan berturut-turut (dan bukannya satu), dan menganggap betapa kerap urutan tertentu menunjukkan penyakit, berdasarkan satu set tweet yang akan dilabel secara manual. Ungkapan "sakit selesema, " misalnya, sangat berkaitan dengan penyakit, sedangkan "sakit dan lelah" kurang begitu. Sesetengah kata-kata tertentu-sakit kepala, demam, batuk-dikaitkan dengan penyakit tidak kira apa jua urutan tiga perkataan mereka.

Sebaik sahaja berjuta-juta tweet ini dikodkan, penyelidik boleh melakukan beberapa perkara yang menarik dengan mereka. Sebagai permulaan, mereka melihat perubahan dalam tweet yang berkaitan dengan selesema dari masa ke masa, dan membandingkan mereka dengan tahap selesema seperti yang dilaporkan oleh CDC, mengesahkan bahawa tweet dengan tepat menangkap trend keseluruhan dalam kadar selesema. Walau bagaimanapun, tidak seperti data CDC, ia boleh didapati dalam hampir masa nyata, dan bukannya seminggu atau dua selepas fakta.

Tetapi mereka juga lebih mendalam, melihat interaksi antara pengguna yang berbeza-seperti yang diwakili oleh dua pengguna yang menghantar tweet dari lokasi yang sama (resolusi GPS adalah kira-kira setengah blok bandar) dalam jam yang sama-untuk memodelkan bagaimana mungkin ia adalah orang yang sihat akan menjadi sakit selepas bersentuhan dengan seseorang yang mengalami selesema. Jelas sekali, dua orang yang mengetweet dari blok yang sama 40 minit tidak semestinya bertemu secara peribadi, tetapi kemungkinan mereka bertemu sedikit lebih tinggi daripada dua pengguna rawak.

Akibatnya, apabila anda melihat kumpulan data interaksi yang cukup besar, gambar transmisi muncul. Mereka mendapati bahawa jika pengguna yang sihat menghadapi 40 pengguna lain yang melaporkan dirinya sakit dengan gejala selesema, peluangnya mendapat gejala selesema pada hari berikutnya meningkat daripada kurang daripada satu peratus kepada 20 peratus. Dengan 60 interaksi, jumlah itu meningkat kepada 50 peratus.

Pasukan itu juga melihat interaksi di Twitter sendiri, mengasingkan pasangan pengguna yang mengikuti satu sama lain dan memanggil mereka sebagai "persahabatan." Meskipun banyak hubungan Twitter wujud hanya di Web, ada yang sesuai dengan interaksi kehidupan nyata, dan mereka mendapati bahawa pengguna yang mempunyai sepuluh sahabat yang melaporkan dirinya sakit adalah 28 peratus lebih cenderung menjadi sakit pada hari berikutnya. Secara keseluruhan, menggunakan kedua-dua jenis interaksi ini, algoritma mereka dapat meramalkan sama ada orang yang sihat akan sakit (dan tweet tentangnya) dengan ketepatan 90 peratus.

Kami masih dalam peringkat awal penyelidikan ini, dan terdapat banyak batasan: Kebanyakan orang masih tidak menggunakan Twitter (ya, sungguh) dan walaupun mereka melakukannya, mereka mungkin tidak tweet mengenai sakit.

Tetapi jika sistem semacam ini dapat dibangunkan lagi, mudah untuk membayangkan segala macam aplikasi. Telefon pintar anda secara automatik boleh memberi amaran kepada anda, contohnya, jika anda menghabiskan terlalu banyak masa di tempat-tempat yang diduduki oleh orang yang menghidapi selesema, menyebabkan anda pulang ke rumah untuk berhenti meletakkan diri anda dalam laluan jangkitan. Penduduk di seluruh bandar juga boleh diberi amaran jika ia berada di ambang wabak.

Walaupun 150 tahun kita dibuang dari penemuan pemetaan penyakit John Snow, jelas bahawa masih ada aspek maklumat penyakit yang kita tidak faham sepenuhnya. Sekarang, ketika itu, pemetaan data dapat membantu menghasilkan jawabannya.