Koleksi Data & Web Scraping

Modul 2 • Bab 2 Analisis Data • Kelas X

Pendalaman Materi
B. Pengenalan Koleksi dan Visualisasi Data

Identifikasi Koleksi Data

Pada pembelajaran ini Anda akan mempelajari dan mengenal proses analisis data khususnya dalam hal koleksi data dan visualisasi pada data.

1

Apa itu Web Scraping?

Web Scraping adalah salah satu teknik pengumpulan data sekunder. Teknik pengumpulan data sekunder mulai banyak dilirik karena pengambilan data primer memakan lebih banyak waktu, biaya, dan tenaga.

Web Scraping merupakan proses pengumpulan data dan informasi yang ada dalam sebuah website secara otomatis dan spesifik. Data dapat diambil hanya di bagian tertentu sesuai kebutuhan.

Contoh sumber data sekunder:

BPS (Badan Pusat Statistik) IMDb Wikipedia E-Commerce

Website

Scraper

Data

2

Cara Kerja Web Scraping

Cara kerja dari web scraping dapat dibagi menjadi empat langkah utama:

1

Buat Program

Membuat program untuk mempelajari dokumen HTML pada website target.

2

Navigasi

Mempelajari teknik navigasi pada website tersebut (klik, scroll, pagination).

3

Ekstraksi

Proses pengambilan data secara otomatis dari website yang telah ditentukan.

4

Simpan

Menyimpan data yang didapatkan dalam database atau file (CSV, JSON, Excel).

3

Pentingnya Web Scraping

Keuntungan

  • Memudahkan pekerjaan dalam proses mengumpulkan data
  • Tidak perlu survei manual untuk data pelanggan
  • Mendukung pengolahan Big Data dengan volume besar
  • Data bervariasi dapat ditarik secara otomatis

Tantangan

  • Membutuhkan kemampuan pemrograman tingkat tinggi
  • Website dinamis sulit di-scrape
  • Beberapa website memiliki proteksi anti-scraping
  • Perlu memperhatikan etika dan legalitas
4

Teknik Web Scraping

Ada beberapa teknik automasi yang Anda lakukan dalam Web Scraping, yaitu:

Parsing HTML adalah salah satu teknik yang paling banyak digunakan dalam web scraping. Biasanya parsing HTML dilakukan melalui JavaScript dan menarget halaman HTML linear dan nested.

Metode yang cepat ini mengidentifikasi script HTML dari website, yang mungkin saja dilakukan secara manual sebelumnya. Script ini kemudian digunakan untuk mengekstraksi text, links, dan data.

Konten, style, dan struktur file XML didefinisikan dalam DOM (Document Object Model). Scrapers yang ingin mengetahui cara kerja internal halaman web dan mengekstrak skrip yang berjalan di dalamnya, biasanya memilih untuk melakukan web scraping melalui parsing DOM.

document.getElementById('data').innerText

XML Path Language atau lebih dikenal dengan istilah XPath adalah bahasa query yang bekerja di dokumen XML. Karena dokumen XML disusun dengan struktur pohon (tree structure), XPath dapat digunakan untuk menavigasi struktur dokumen tersebut dengan memilih nodes berdasarkan berbagai parameter.

//div[@class='product']/span[@class='price']

Lab Simulasi: DOM Selector

Arahkan kursor ke elemen untuk melihat selector-nya

target: body
https://toko-online-demo.com

Sepatu Lari Keren

Nyaman dipakai lari pagi.

Rp 500.000
  • Bahan berkualitas
  • Sol empuk
  • Tahan lama
5

Contoh Web Scraping dengan Python

Contoh web scraping untuk mengambil berita terpopuler dari Detik.com menggunakan Python:

requests BeautifulSoup

Bingung dengan kode ini?

Pelajari Variabel, Loop, dan Syntax dasar di Modul Dasar Python.

main.py

# Import library yang diperlukan

import requests from bs4 import BeautifulSoup

# 1. Alamat website latihan scraping (Detik Terpopuler)

url = "https://www.detik.com/terpopuler" print(f"Menghubungi {url}...")

# 2. Mengambil data dari website

response = requests.get(url)

# 3. Cek apakah berhasil (200 = OK)

if response.status_code == 200: print("✅ Koneksi Berhasil!\n") # 4. Olah HTML-nya dengan BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser') # 5. Cari semua elemen berita (Class spesifik Detik) quotes = soup.find_all('div', class_='media media--left media--image-radius block-link') # 6. Looping untuk mengambil teks di dalamnya for i, q in enumerate(quotes): teks = q.find('h3', class_='media__title').text print(f"{i+1}. Judul: {teks.strip()}") print("-" * 20) else: print(f"❌ Gagal akses. Kode: {response.status_code}")
Install Library
pip install requests beautifulsoup4

Tip: Gunakan SelectorGadget untuk menemukan CSS selector!

AKTIVITAS

Aktivitas Pembelajaran

Lakukan tugas berikut!

Bersama teman satu kelompok Anda, lakukan identifikasi yang berkaitan dengan alur web scraping! Sumber-sumber data dapat diambil dari media cetak atau elektronik. Presentasikan hasilnya di depan kelas. Kumpulkan hasil pada guru untuk diberi penilaian!

Metode

Kerja kelompok (3-4 orang)

Output

Presentasi + Laporan tertulis

#WebScraping #DataSekunder #Presentasi
Jenis-jenis Teknik Automatisasi pada Web Scraping
1

Amatilah jenis-jenis teknik automatisasi pada Web Scraping!

2

Tulislah jenis-jenis teknik automatisasi pada Web Scraping pada Tabel!

3

Berilah tanda centang (✓) pada kolom yang sesuai dengan jenis teknik pada suatu format!

4

Buatlah kesimpulan dari hasil pengamatan Anda dalam bentuk laporan!

Tujuan

Mengamati teknik automatisasi

Alat & Bahan

Alat tulis

Output

Laporan tertulis