Lompat ke konten Lompat ke sidebar Lompat ke footer

Apa itu Web Crawling? Apa Keuntungannya Bagi Kita?

Big data adalah istilah yang digunakan untuk menggambarkan volume data yang sangat besar yang dihasilkan oleh interaksi bisnis, instansi pemerintah, dan individu yang menggunakan internet baik melalui private network ataupun public network.

Big data juga mencakup data dari berbagai sumber seperti survey, halaman web, jaringan sosial, mesin pencari, dan gawai. Beberapa perusahaan sukses memanfaatkan teknologi ini untuk meneliti sejumlah besar informasi dan menggunakannya untuk keuntungan mereka.

Big data telah menjadi trending topic di internet akhir-akhir ini. Hampir setiap hari media-media atau perusahaan teknologi seluruh dunia membicarakan tentang big data yang tentu saja juga membicarakan tentang crawling.

Apa itu Web crawler?

Web crawler atau yang dikenal juga dengan istilah web spider atau web robot adalah program yang bekerja dengan metode tertentu dan secara otomatis mengumpulkan semua informasi yang ada dalam suatu website.

Web crawler akan mengunjungi setiap alamat website yang diberikan kepadanya, kemudian menyerap dan menyimpan semua informasi yang terkandung didalam website tersebut.

Setiap kali web crawler mengunjungi sebuah website, maka dia juga akan mendata semua link yang ada di halaman yang dikunjunginya itu untuk kemudian dikunjungi lagi satu persatu.

Ketika crawlers menemukan halaman web, tugas selanjutnya adalah mengambil data-data dari halaman web dan menyimpannya ke dalam suatu media penyimpanan (harddisk). Data-data yang disimpan ini, nantinya dapat diakses pada saat dilakukan query yang berhubungan dengan data tersebut. Untuk mencapai tujuan mengumpulkan milyaran halaman web dan menyajikannya dalam hitungan detik, search engine membutuhkan data center yang sangat besar dan canggih untuk mengelola semua data ini.

Proses web crawler dalam mengunjungi setiap dokumen web disebut dengan web crawling atau spidering. Proses crawling dalam suatu website dimulai dari mendata seluruh url dari website, menelusurinya satu-persatu, kemudian memasukkannya dalam daftar halaman pada indeks search engine, sehingga setiap kali ada perubahan pada website, akan terupdate secara otomatis.

Web crawling adalah proses mengambil kumpulan halaman dari sebuah web untuk dilakukan pengindeksan sehingga mendukung kinerja mesin pencari. Salah satu contoh situs yang menerapkan web crawling adalah www.webcrawler.com . Di samping situs-situ mesin pencari terkemuka tentunya, seperti Google, Yahoo, Ask, Live, dan lain sebagainya.

Web crawler biasa digunakan untuk membuat salinan secara sebagian atau keseluruhan halaman web yang telah dikunjunginya agar dapat diproses lebih lanjut oleh sistem penyusun index. Crawler dapat juga digunakan untuk proses pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web, dan crawler juga digunakan untuk memperoleh data yang khusus seperti mengumpulkan alamat e-mail. Web crawler termasuk ke dalam bagian software agent atau yang lebih dikenal dengan istilah program bot.

Secara umum crawler memulai prosesnya dengan memberikan daftar sejumlah alamat website untuk dikunjungi, disebut sebagai seeds. Setiap kali sebuah halaman web dikunjungi, crawler akan mencari alamat yang lain yang terdapat di dalamnya dan menambahkan kedalam daftar seeds sebelumnya.

Perusahaan-perusahaan besar telah memanfaatkan Big data untuk mengidentifikasi peluang, meningkatkan customer experience dan memaksimalkan keuntungan. Sebagai contoh, lihat apa yang dilakukan Google. Google telah mengumpulan sejumlah besar data dengan melakukan crawling miliaran halaman web dari seluruh dunia.

Google kemudian menggunakan sejumlah besar data ini dan dikombinasikan dengan data lainnya yang dikumpulkan dari query mesin pencarinya, mereka berhasil meningkatkan keefektifan dari Google Adwords, dan juga meningkatkan pengalaman mencari dari pengguna mereka di waktu bersamaan.

Dengan terus melakukan hal tersebut, Google telah menghasilkan lebih banyak keuntungan untuk perusahaan dan juga pelanggan Adwords mereka, di sisi lain tetap membuat pengguna mesin pencari mereka senang.

Demikian juga dengan Facebook dan Linkedin, yang telah berhasil memanfaatkan jumlah besar informasi yang mereka kumpulkan. Layanan iklan yang disediakan dua perusahaan tersebut telah menjadi lebih efektif dibanding sebelumnya. Mereka memiliki begitu banyak data tentang penggunanya sehingga target iklan dan rekomendasi produk menjadi lebih akurat.

Big data juga dapat digunakan untuk mempresentasikan data secara visual. Hal seperti visualisasi data akan membuat pengguna atau pelanggan lebih melekat pada produk hingga membuat produk perusahaan menjadi lebih sukses.

Untuk membangun bisnis berbasis data dengan skala yang besar membutuhkan banyak waktu, tenaga, dan dana. Bahkan hanya untuk memulai startup dengan produk kecil berbasis data tidaklah mudah. Salah satu sebab utama mengapa membangun produk berbasis data sangatlah sulit adalah karena jumlah besar data yang harus dikumpulkan perusahaan sebelum meluncurkan produknya. Mayoritas data yang dikumpulkan didapat dari sumber-sumber berikut:

Input langsung dari pelanggan, melalui survey maupun angket.

  • Menggunakan API pihak ketiga seperti Facebook API, Twitter API dan sebagainya.
  • Log Web Server seperti Apache dan Nginx
  • Dengan melakukan Web crawling atau Web Scraping
Dari sumber-sumber tersebut, kebanyakkan perusahaan berbasis data me-crawl halaman web untuk mengumpulkan data karena mayoritas data yang dibutuhkan perusahaan berupa halaman web tanpa akses API. Namun, me-crawl halaman web pun bukanlah hal yang mudah.     

Internet adalah lautan informasi dengan miliaran halaman web yang diciptakan setiap hari. Sebagian besar data yang terkandung dalam halaman web ini tidaklah terstruktur dan berantakan.

Mengumpulkan dan mengatur data-data ini tidaklah mudah. Saat membuat produk berbasis data, hampir 90% waktu dihabiskan untuk mengumpulkan, membersihkan, dan memfilter data. Dan, jika menyangkut crawl halaman web, perusahaan harus memiliki kemampuan programming dan database yang baik.

Tidak ada data pada halaman web yang diberikan secara mudah. Terkadang, penggalian halaman web menjadi semakin sulit ketika data yang harus dikikis berasal dari sumber yang sulit seperti file PDF. Namun, penggalian data dari sumber tersebut diperlukan agar dapat memanen keuntungan untuk bisnis perusahaan.

Banyak perusahaan pada dekade ini mempekerjakan programmer dan data scientist yang terampil untuk web crawling dan data analitik yang menghabiskan banyak uang. Padahal, dengan munculnya Big data beserta web crawler-nya, menghabiskan waktu dan uang untuk crawling halaman web sudah tidak efektif lagi.