https://frosthead.com

Bagaimana Google Simpan Spam Anda Daripada Peti Masuk Anda

Di belakang semua maklumat Google yang crunching-dari memikirkan hasil carian yang paling penting, untuk membaca dan menyimpan tab pada e-mel anda-ada beberapa matematik yang menarik. Dan baru-baru ini Javier Tordable, seorang jurutera perisian, membuat persembahan di atasnya, membuka tingkap ke dalam dunia Google geeky hanya retak.

Mari mulakan dengan Gmail. Kadang-kadang anda mendapat e-mel spam, tetapi Gmail cukup baik untuk mengetahui bahawa, apabila seorang koresponden cuba untuk membuat anda melabur di putera Nigeria, anda mungkin tidak mahu sekeping mel dalam peti masuk anda. Bagaimana ia tahu? Langkah pertama: melatih mesin. Langkah kedua: meletakkannya berfungsi.

Ia dipanggil pembelajaran mesin, dan Google melakukan satu tan. Dalam langkah pertama, anda perlu melakukan apa yang ahli sains komputer memanggil "mencirikan suatu contoh." Dalam matematik-bercakap itu bermakna:

Secara umum, ciri-ciri sesuatu contoh boleh dianggap sebagai unsur dalam vektor ruang euclidean dimensi untuk n besar (dimensi 100-1000 adalah normal, 1M-10M tidak pernah terdengar)

Tetapi inilah caranya untuk memikirkannya jika anda berhenti matematik selepas Calc 1. Gmail boleh menarik beberapa kepingan penting maklumat dari mana-mana e-mel tertentu. Berapa lama? Berapa banyak surat modal yang ada? Adakah ini dari seseorang yang anda telah mendapat e-mel dari sebelumnya? Anda tidak mahu maklumat diperlukan untuk membuat keputusan terlalu sukar untuk mendapatkan atau menangani, kerana itu akan melambatkan dan mengurangkan ketepatan mesin anda. Jadi Google melukis garis, berdasarkan apa yang ia tahu mengenai spam. E-mel yang melepasi jatuh di satu sisi garisan, dan yang spammy, di sisi yang lain.

Lebih banyak matematik bercakap:

Model pengelasan mudah ialah hyperplane dalam ruang ciri. Contoh data pada satu sisi hyperplane dikelaskan sebagai e-mel yang sah dan contoh di sisi lain diklasifikasikan sebagai spam.

Bagaimana pula dengan pencarian suara-juga dikenali sebagai pengiktirafan ucapan automatik, atau ASR? Seperti pembelajaran mesin, ASR berlaku dalam dua bahagian: memproses bunyi masuk dan memikirkan apa yang anda katakan. Bahagian pertama melibatkan transform Fourier, yang mengasingkan bit penting yang dapat diterjemahkan oleh komputer. Bahagian kedua adalah perbualan pemodelan menggunakan apa yang dipanggil "model Markov tersembunyi." Tordable menerangkan:

Dalam model ini, keadaan adalah huruf mesej dan urutan peristiwa adalah isyarat bunyi. Algoritma Viterbi boleh digunakan untuk mendapatkan urutan keadaan kemungkinan maksimum.

Google akan suka membuat pengenalan suara lebih baik dan lebih mudah. Dalam kajian kes ini, sekumpulan whizes Google menulis:

Matlamat di Google adalah untuk membuat akses lisan disediakan di mana-mana. Kami ingin membiarkan pengguna memilih - mereka sepatutnya dapat menganggap bahawa interaksi bercakap selalu menjadi pilihan. Mencapai ubiquity memerlukan dua perkara: ketersediaan (iaitu, dibina ke dalam setiap interaksi yang mungkin di mana input atau output pertuturan dapat masuk akal), dan prestasi (iaitu, bekerja dengan baik sehingga modalnya tidak menambah geseran ke interaksi).

Satu lagi bidang di mana Google menggunakan matematik adalah dalam peta mereka-dalam perhatian baru-baru ini selepas Apple memulakan sistem pemetaan mereka untuk kritikan yang besar. Di tengah-tengah Peta Google adalah teori graf asas-matematik untuk mendapatkan dari satu tempat ke tempat yang lain semasa perjalanan jarak terpendek. Tetapi, sudah tentu, ia lebih kompleks daripada itu. Boleh dikatakan menulis, "Satu masalah yang unik adalah bahawa graf yang digunakan dalam Peta Google mengandungi berjuta-juta nod, tetapi algoritma perlu dijalankan dalam milisaat."

Google tidak akan memberitahu kami bagaimana mereka melakukannya. Jika tidak, Apple tidak akan menghadapi masalahnya, tetapi asasnya melibatkan algoritma Dijsktra (mungkin algoritma carian grafik yang paling biasa). Beberapa tahun kemudian, saintis komputer di University of Karlsruhe menggambarkan cara baru untuk menilai permintaan laluan untuk mendapatkan hasil yang lebih cepat. Mereka tulis:

Algoritma kami memproses nombor lapan digit nod yang diperlukan untuk peta Amerika Syarikat atau Eropah Barat dalam beberapa jam menggunakan ruang linear. Pertanyaan laluan paling pendek (iaitu terpantas) kemudian mengambil sekitar lapan milisaat untuk menghasilkan laluan terpendek yang tepat. Ini adalah kira-kira 2, 000 kali lebih cepat daripada menggunakan algoritma Dijkstra.

Boleh diakses melalui beberapa alat matematik lain yang digunakan oleh Google, termasuk yang terlibat dalam Buku Google, Carian Imej, Analitis, YouTube, Terjemahan Google, Google Earth, dan Picasa. Anda boleh melihat keseluruhan set slaid di sini.

Lagi dari Smithsonian.com:

Smithsonian Dapat Google Mapped
Jejak Aliran Makanan Dengan Buku Google

Bagaimana Google Simpan Spam Anda Daripada Peti Masuk Anda