Langkah Pemrosesan Data

Modul 1 Informatika Kelas X • Bab 2

1. Prapemrosesan & Data Cleaning

Analogi Jaman Now: Siapin Bahan Masakan!

Bayangin kamu mau masak nasi goreng spesial. Data mentah itu kayak bahan belanjaan yang baru dibeli dari pasar. Tentu kamu nggak akan langsung masukin beras yang masih ada kerikilnya atau sayur layu ke wajan kan? Kamu pasti mencuci beras, membuang sayur layu, dan bersihin kerikil. Nah, di proses sains data, ini disebut Data Cleaning.

👩‍🏫 Secara Formal: Sebelum sebuah data diolah menggunakan perangkat lunak, ia harus dipersiapkan matang-matang. Sebagian besar kalangan percaya tahapan persiapan ini menyita sekitar 80% waktu dari total pengerjaan sebuah project analisis.

Hal ini terjadi karena data yang ada di dunia nyata (real-world) tidak selalu sempurna: ia bisa saja tidak lengkap, mengandung eror, atribut tidak jelas, dan berbagai noise lainnya. Oleh karena itu, kita melakukan pembersihan atau Data Cleaning.

Masalah: Missing Value

Kondisi ketidaklengkapan data (nilainya hilang / nol). Dapat diatasi dengan setidaknya dua cara konvensional:

  • Mengabaikan tupel: Cocok jika datanya masif (hanya mengabaikan baris yang cacat).
  • Pengisian manual: Mengisinya dengan tebakan / nilai mean.

Masalah: Noise

Data eror tak berguna yang tak bisa diinterpretasikan oleh alat/tools. Biasanya adalah hasil entri manusia yang kurang tepat.

Mini-Lab: Data Cleaning

PRAKTIK: MENGABAIKAN TUPEL

Simulasi interaktif: Bertindaklah sebagai Software. Klik tombol "Bersihkan" pada baris yang mengandung Missing Value atau Noise agar dataset siap (Valid) untuk proses selanjutnya.

ID Nama Lengkap Nilai Rapot Aksi Program
101 Budi Santoso 85 Data Valid
102 [ NULL ] 78
103 Siti Aminah #ERR_DATA_CORRUPT
104 Andi Wijaya 92 Data Valid

2. Data Integration

Analogi Jaman Now: Ngumpulin Belanjaan

Masih analogi masak; bayangin bahan-bahan masakanmu dibeli dari tempat terpisah. Sayur dari pasar pagi, daging kurban dari masjid, dan saos tiram dari minimarket. Semuanya ditaruh di tempat beda-beda. Data Integration ibaratnya ngumpulin semua bahan itu dalam satu dapur dan memastikan semuanya siap dimasak bareng tanpa error nama jenis (contoh: menyamakan kalau label "tomat" dari pasar itu sama persis dengan "tomato" dari nota minimarket).

👩‍🏫 Secara Formal: Integration (integrasi) dilakukan persis setelah proses cleansing selesai. Jika pada proyek sebuah organisasi data diambil dari berbagai sumber yang berbeda merepresentasikannya, maka seluruh konflik (perbedaan konvensi nama, ejaan, struktur kolom) perlu diselesaikan.

Hasil akhirnya digabungkan dan diperhalus untuk menjadi sebuah bentuk tampilan atau arsitektur sentralisasi yang utuh, yang biasa disebut sebagai Unified View.

Animasi Konseptual: Unified View

Cabang A
Cabang B
Cloud Data
UNIFIED VIEW

3. Data Transformation (ETL)

Analogi Jaman Now: Potong Dadu Seragam

Kalau kamu masak, wortel sama kentangnya pasti dipotong seragam bentuknya biar matengnya barengan pas dimasak, kan? Di dunia analisis data, kita ketemu angka yang range-nya beda-beda banget—contoh ada data Gaji Jutaan dan ada data Umur Belasan. Data Transformation bertugas mengubah format atau rentang skala data biar "matengnya barengan" waktu dianalisis AI/Software.

Konsep Dasar

👩‍🏫 Secara Formal: Proses ini mengubah format/struktur data ke dalam bentuk yang siap ditambang (Data Mining). Siklus transformasi pada level enterprise sering disebut dengan akronim industri: ETL (Extract, Transform, Load).

E
Extract
T
Transform
L
Load

Teknik & Simulasi Pengolahan Nilai

Pilih teknik di bawah untuk melihat penjabaran & simulasi visualnya:

Hands-on: Normalization

Normalization membuat skala dari semua angka ke dalam range kecil tertentu (cth: 0 hingga 1). Ini sangat vital untuk algoritma Machine Learning agar tidak ada angka ribuan yang 'mendominasi' angka belasan.

Raw Value (Harga Barang)
Rp 4.500.000
Normalized (0-1)
0.450

4. Data Reduction

Analogi Jaman Now: Bumbu Instan

Kalau resep masakan butuh 10 rempah disangrai manual, tentu butuh waktu lama dan porsinya berat. Biar efisien, koki jenius mengubahnya jadi satu sachet bumbu instan kecil tanpa menghilangkan cita rasa orinya! Data Reduction adalah "meringkas" ukuran tabel dari bergiga-giga jadi ukuran KB namun tetap mempertahankan esensi analisis yang sama persis.

👩‍🏫 Secara Formal: Tidak dapat dipungkiri bahwa terkadang proses pengerjaan analisis menggunakan ukuran dataset yang terlalu besar untuk sebuah kapasitas penyimpanan kecil. Jika dipaksakan diolah, waktu yang dimakan sangat lama (sampai berhari-hari hitungan).

Hadirnya teknik Data Reduction diterapkan dengan tujuan konkret: meningkatkan efisiensi sistem penyimpanan dan memangkas anggaran biaya analisis.

Empat (4) Teknik Pokok Reduksi Tabel Dataset:

1
Data Cube Aggregation Mentransformasi data mentah dan merangkumnya menggunakan fungsi agregat seperti SUM atau AVG menjadi kubus (Multi-dimensi).
2
Attribute Subset Selection Mendeteksi kolom yang berlebihan/redundant (mirip dengan teknik Feature Selection pada ML).
3
Numerosity Reduction Merubah tipe data yang besar dengan representasi formula perkiraan parametrik matematik tertentu.
4
Dimensionality Reduction Teknik pemampatan data untuk melipatgandakan kinerja, lazim disebut metodologi Principal Component Analysis (PCA).

Mini-Lab: Data Cube Aggregation

PRAKTIK: REDUKSI UKURAN

Simulasi interaktif: Titik-titik di bawah mewakili ribuan data penjualan mentah selama setahun penuh. Daripada memproses data mentah satu per satu (sangat berat), mari kita Agregasi data tersebut menjadi data summary per-bulan dengan menghitung Total (SUM).

Status: Data Mentah (Size: 1.5 GB)

5. Visualisasi Data Akademis

Tahap pamungkas implementasi algoritma representasi

Analogi Jaman Now: Plating Estetik buat Difoto

Kalau masakan udah mateng banget, saatnya disajikan! Tapi disajikannya gak sekadar ditumpuk kasar, harus di-plating cantik biar pas difoto (masuk IG) orang langsung paham tingkat kelezatannya. Di dunia nyata, visualisasi itu cara menyajikan "insight bisnis" biar boss/klien perusahaan langsung paham poinnya, tanpa harus bingung baca susunan baris excel yang ngebingungin.

Bar Chart / D. Batang

Baik untuk menunjukkan frekuensi fraksi kategori data uang/jumlah diskret. Sering terpakai menjelaskan nilai komparatif kuantitatif Mean.

Studi Kasus: Makan Sehari

Pie Chart / D. Lingkaran

Merepresentasikan proporsi fraksi menyeluruh yang menunjukkan tingkat persentase komposisi suatu grup tanpa menonjolkan nilai total aktualnya.

Studi Kasus: Hobi Anak (n=50)
Membaca: 15
Melukis: 10
Olahraga: 20
Menari: 5

Penutup: Prapemrosesan Lanjut

Terkadang prapemrosesan harus dilanjutkan dari data asalnya karena masih sangat mentah, untuk segera diubah ke format super efisien. Keberhasilan kualitas data memiliki ikatan struktural berkorelasi sebanding lurus dengan keberhasilan proyek Machine Learning nantinya. Fase ini di dunia per-IT-an disebut berfokus pada pelacakan dua teknik lanjutan: Validasi Aturan Data & Imputasi Data.

Modul 2 Selesai

Beralih ke Tahap Evaluasi Pilihan Ganda

Coba Simulasi Ujian
Step 1 / 5