Pada umumnya, ada ribuan bahkan jutaan halaman dengan informasi yang berpotensi relevan dengan yang kita cari. Namun, bagaimana cara Google bisa mengetahui informasi yang harus ditampilkan di hasil penelusuran? Prosesnya pun bahkan dimulai sebelum kita mengetik keyword dan penelusuran? Lalu bagaimana cara kerja search engine Google itu? Crawling
Web bagaikan perpustakaan yang terus berkembang dengan miliaran buku tanpa sistem pengarsipan terpusat. Google menggunakan software yang dikenal sebagai crawler web untuk menemukan halaman yang tersedia secara publik. Crawler akan memeriksa halaman dan mengikuti link di halaman tersebut. Sama seperti yang kita lakukan saat browsing konten di web. Crawler akan memeriksa setiap link dan mengirimkan data terkait halaman tersebut kembali ke server Google. Sebelum melakukan penelusuran, crawler web mengumpulkan informasi dari ratusan miliaran halaman dan mengelolanya di indeks Penelusuran. Proses crawling dimulai dengan daftar alamat web dari aktivitas crawling sebelumnya dan
site map yang diberikan oleh pemilik situs. Saat mengunjungi situs, crawler menggunakan link pada situs tersebut untuk menemukan halaman lainnya. Software ini memperhatikan sebuah situs baru, perubahan pada situs yang sudah ada, dan link yang tidak lagi aktif. Program komputer akan menentukan situs mana yang di-crawl, serta seberapa sering dan berapa banyak halaman yang diambil dari tiap situs.
Indexing
Saat crawler menemukan halaman web, sistem akan merender konten halaman tersebut, sama seperti yang dilakukan browser. Google mencatat aspek-aspek penting mulai dari kata kunci hingga update situs, dan google tetap melacak semuanya di indeks Penelusuran. Indeks Google Penelusuran berisi ratusan miliaran halaman dan memiliki kapasitas hingga lebih dari 100.000.000 GB. Fungsinya sama seperti indeks di bagian belakang buku, dengan
entri untuk setiap kata yang terlihat di setiap halaman yang diindeks. Saat mengindeks halaman web, mereka menambahkannya ke entri untuk semua kata yang ada di dalam halaman tersebut.
Google terus berupaya lebih dari sekadar pencocokan kata kunci untuk lebih memahami orang, tempat, dan segala hal yang pengguna cari. Untuk melakukannya, mereka tidak hanya mengelola informasi tentang halaman tetapi juga berbagai jenis informasi lainnya. Retrieval & Ranking
Retrieval adalah proses ketika search engine seperti Google memproses permintaan dari pertanyaan yang biasa kita ketik di Google search, dan memberikan halaman dari website yang paling relevan bagi permintaan. Setiap search engine atau mesin pencari memiliki
algoritma
atau caranya tersendiri dalam memilih halaman mana yang paling relevan. Itulah mengapa Google, Bing, Yahoo, dan search engine lainnya memberikan hasil yang berbeda untuk setiap permintaan. Setiap perusahaan search engine merahasiakan algoritma dan cara mereka memberikan ranking/hasil pada halaman website. Semakin relevan hasil yang diberikan, maka semakin baik pula algoritma yang dimiliki.