Pengertian Web Crawler
Web
crawler adalah suatu program atau script otomat yang relatif simple, yang
dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman
Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web
crawl adalah web spider, web robot, bot, crawl dan automatic indexer.
Web
crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah
yang terkait dengan search engine. Search engine menggunakan web crawl untuk
mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik.
Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet
mengetikkan kata pencarian di komputernya, search engine dapat dengan segera
menampilkan web site yang relevan.
Ketika
web crawl suatu search engine mengunjungi halaman web, ia “membaca” teks yang
terlihat, hyperlink, dan konten berbagai tag yang digunakan dalam situs seperti
meta tag yang banyak berisi keyword. Berdasar informasi yang dikumpulkan web
crawl, search engine akan menentukan mengenai apakah suatu situs dan mengindex
informasinya. Website itu kemudian dimasukkan ke dalam database search engine
dan dilakukan proses penentuan ranking halaman-halamannya.
Namun
search engine bukanlah satu-satunya pengguna web crawl. Linguist bisa
menggunakan web crawl untuk melakukan analisis tekstual; yakni, mereka bisa
menyisir Internet untuk menentukan kata apa yang paling umum digunakan hari
ini. Peneliti pasar dapat menggunakan web crawl untuk menentukan dan
memanipulasi trend pada suatu pasar tertentu. Ini semua merupakan contoh
beragam penggunaan web crawl. Web crawl dapat digunakan oleh siapapun yang
melakukan pencarian informasi di Internet.
Web
crawl bisa beroperasi hanya sekali, misalnya untuk suatu projek yang hanya
sekali jalan, atau jika tujuannya untuk jangka panjang seperti pada kasus
search engine, mereka bisa diprogram untuk menyisir Internet secara periodik
untuk menentukan apakah sudah berlangsung perubahan signifikan. Jika suatu
situs mengalami trafik sangat padat atau kesulitan teknis, spider atau crawl
dapat diprogram untuk mencatat hal ini dan mengunjunginya kembali setelah
kesulitan teknis itu terselesaikan.
Sumber
https://djuyadi.wordpress.com/2010/03/06/web-crawl-web-spider-web-robot-bot-crawl-automatic-indexer/
Komentar
Posting Komentar