Identifikasi Koleksi Data
Pada pembelajaran ini Anda akan mempelajari dan mengenal proses analisis data khususnya dalam hal koleksi data dan visualisasi pada data.
Apa itu Web Scraping?
Web Scraping adalah salah satu teknik pengumpulan data sekunder. Teknik pengumpulan data sekunder mulai banyak dilirik karena pengambilan data primer memakan lebih banyak waktu, biaya, dan tenaga.
Web Scraping merupakan proses pengumpulan data dan informasi yang ada dalam sebuah website secara otomatis dan spesifik. Data dapat diambil hanya di bagian tertentu sesuai kebutuhan.
Contoh sumber data sekunder:
Website
Scraper
Data
Cara Kerja Web Scraping
Cara kerja dari web scraping dapat dibagi menjadi empat langkah utama:
Buat Program
Membuat program untuk mempelajari dokumen HTML pada website target.
Navigasi
Mempelajari teknik navigasi pada website tersebut (klik, scroll, pagination).
Ekstraksi
Proses pengambilan data secara otomatis dari website yang telah ditentukan.
Simpan
Menyimpan data yang didapatkan dalam database atau file (CSV, JSON, Excel).
Pentingnya Web Scraping
Keuntungan
- Memudahkan pekerjaan dalam proses mengumpulkan data
- Tidak perlu survei manual untuk data pelanggan
- Mendukung pengolahan Big Data dengan volume besar
- Data bervariasi dapat ditarik secara otomatis
Tantangan
- Membutuhkan kemampuan pemrograman tingkat tinggi
- Website dinamis sulit di-scrape
- Beberapa website memiliki proteksi anti-scraping
- Perlu memperhatikan etika dan legalitas
Teknik Web Scraping
Ada beberapa teknik automasi yang Anda lakukan dalam Web Scraping, yaitu:
Parsing HTML adalah salah satu teknik yang paling banyak digunakan dalam web scraping. Biasanya parsing HTML dilakukan melalui JavaScript dan menarget halaman HTML linear dan nested.
Metode yang cepat ini mengidentifikasi script HTML dari website, yang mungkin saja dilakukan secara manual sebelumnya. Script ini kemudian digunakan untuk mengekstraksi text, links, dan data.
Konten, style, dan struktur file XML didefinisikan dalam DOM (Document Object Model). Scrapers yang ingin mengetahui cara kerja internal halaman web dan mengekstrak skrip yang berjalan di dalamnya, biasanya memilih untuk melakukan web scraping melalui parsing DOM.
document.getElementById('data').innerText
XML Path Language atau lebih dikenal dengan istilah XPath adalah bahasa query yang bekerja di dokumen XML. Karena dokumen XML disusun dengan struktur pohon (tree structure), XPath dapat digunakan untuk menavigasi struktur dokumen tersebut dengan memilih nodes berdasarkan berbagai parameter.
//div[@class='product']/span[@class='price']
Lab Simulasi: DOM Selector
Arahkan kursor ke elemen untuk melihat selector-nya
Sepatu Lari Keren
Nyaman dipakai lari pagi.
- Bahan berkualitas
- Sol empuk
- Tahan lama
Contoh Web Scraping dengan Python
Contoh web scraping untuk mengambil berita terpopuler dari Detik.com menggunakan Python:
Bingung dengan kode ini?
Pelajari Variabel, Loop, dan Syntax dasar di Modul Dasar Python.
# Import library yang diperlukan
import requests
from bs4 import BeautifulSoup
# 1. Alamat website latihan scraping (Detik Terpopuler)
url = "https://www.detik.com/terpopuler"
print(f"Menghubungi {url}...")
# 2. Mengambil data dari website
response = requests.get(url)
# 3. Cek apakah berhasil (200 = OK)
if response.status_code == 200:
print("✅ Koneksi Berhasil!\n")
# 4. Olah HTML-nya dengan BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
# 5. Cari semua elemen berita (Class spesifik Detik)
quotes = soup.find_all('div', class_='media media--left media--image-radius block-link')
# 6. Looping untuk mengambil teks di dalamnya
for i, q in enumerate(quotes):
teks = q.find('h3', class_='media__title').text
print(f"{i+1}. Judul: {teks.strip()}")
print("-" * 20)
else:
print(f"❌ Gagal akses. Kode: {response.status_code}")
Install Library
pip install requests beautifulsoup4
Tip: Gunakan SelectorGadget untuk menemukan CSS selector!
Aktivitas Pembelajaran
Bersama teman satu kelompok Anda, lakukan identifikasi yang berkaitan dengan alur web scraping! Sumber-sumber data dapat diambil dari media cetak atau elektronik. Presentasikan hasilnya di depan kelas. Kumpulkan hasil pada guru untuk diberi penilaian!
Metode
Kerja kelompok (3-4 orang)
Output
Presentasi + Laporan tertulis
Amatilah jenis-jenis teknik automatisasi pada Web Scraping!
Tulislah jenis-jenis teknik automatisasi pada Web Scraping pada Tabel!
Berilah tanda centang (✓) pada kolom yang sesuai dengan jenis teknik pada suatu format!
Buatlah kesimpulan dari hasil pengamatan Anda dalam bentuk laporan!
Tujuan
Mengamati teknik automatisasi
Alat & Bahan
Alat tulis
Output
Laporan tertulis