1. Prapemrosesan & Data Cleaning
Analogi Jaman Now: Siapin Bahan Masakan!
Bayangin kamu mau masak nasi goreng spesial. Data mentah itu kayak bahan belanjaan yang baru dibeli dari pasar. Tentu kamu nggak akan langsung masukin beras yang masih ada kerikilnya atau sayur layu ke wajan kan? Kamu pasti mencuci beras, membuang sayur layu, dan bersihin kerikil. Nah, di proses sains data, ini disebut Data Cleaning.
👩🏫 Secara Formal: Sebelum sebuah data diolah menggunakan perangkat lunak, ia harus dipersiapkan matang-matang. Sebagian besar kalangan percaya tahapan persiapan ini menyita sekitar 80% waktu dari total pengerjaan sebuah project analisis.
Hal ini terjadi karena data yang ada di dunia nyata (real-world) tidak selalu sempurna: ia bisa saja tidak lengkap, mengandung eror, atribut tidak jelas, dan berbagai noise lainnya. Oleh karena itu, kita melakukan pembersihan atau Data Cleaning.
Masalah: Missing Value
Kondisi ketidaklengkapan data (nilainya hilang / nol). Dapat diatasi dengan setidaknya dua cara konvensional:
- Mengabaikan tupel: Cocok jika datanya masif (hanya mengabaikan baris yang cacat).
- Pengisian manual: Mengisinya dengan tebakan / nilai mean.
Masalah: Noise
Data eror tak berguna yang tak bisa diinterpretasikan oleh alat/tools. Biasanya adalah hasil entri manusia yang kurang tepat.
Mini-Lab: Data Cleaning
PRAKTIK: MENGABAIKAN TUPELSimulasi interaktif: Bertindaklah sebagai Software. Klik tombol "Bersihkan" pada baris yang mengandung Missing Value atau Noise agar dataset siap (Valid) untuk proses selanjutnya.
| ID | Nama Lengkap | Nilai Rapot | Aksi Program |
|---|---|---|---|
| 101 | Budi Santoso | 85 | Data Valid |
| 102 | [ NULL ] | 78 | |
| 103 | Siti Aminah | #ERR_DATA_CORRUPT | |
| 104 | Andi Wijaya | 92 | Data Valid |
2. Data Integration
Analogi Jaman Now: Ngumpulin Belanjaan
Masih analogi masak; bayangin bahan-bahan masakanmu dibeli dari tempat terpisah. Sayur dari pasar pagi, daging kurban dari masjid, dan saos tiram dari minimarket. Semuanya ditaruh di tempat beda-beda. Data Integration ibaratnya ngumpulin semua bahan itu dalam satu dapur dan memastikan semuanya siap dimasak bareng tanpa error nama jenis (contoh: menyamakan kalau label "tomat" dari pasar itu sama persis dengan "tomato" dari nota minimarket).
👩🏫 Secara Formal: Integration (integrasi) dilakukan persis setelah proses cleansing selesai. Jika pada proyek sebuah organisasi data diambil dari berbagai sumber yang berbeda merepresentasikannya, maka seluruh konflik (perbedaan konvensi nama, ejaan, struktur kolom) perlu diselesaikan.
Hasil akhirnya digabungkan dan diperhalus untuk menjadi sebuah bentuk tampilan atau arsitektur sentralisasi yang utuh, yang biasa disebut sebagai Unified View.
Animasi Konseptual: Unified View
3. Data Transformation (ETL)
Analogi Jaman Now: Potong Dadu Seragam
Kalau kamu masak, wortel sama kentangnya pasti dipotong seragam bentuknya biar matengnya barengan pas dimasak, kan? Di dunia analisis data, kita ketemu angka yang range-nya beda-beda banget—contoh ada data Gaji Jutaan dan ada data Umur Belasan. Data Transformation bertugas mengubah format atau rentang skala data biar "matengnya barengan" waktu dianalisis AI/Software.
Konsep Dasar
👩🏫 Secara Formal: Proses ini mengubah format/struktur data ke dalam bentuk yang siap ditambang (Data Mining). Siklus transformasi pada level enterprise sering disebut dengan akronim industri: ETL (Extract, Transform, Load).
Teknik & Simulasi Pengolahan Nilai
Pilih teknik di bawah untuk melihat penjabaran & simulasi visualnya:
Normalization membuat skala dari semua angka ke dalam range kecil tertentu (cth: 0 hingga 1). Ini sangat vital untuk algoritma Machine Learning agar tidak ada angka ribuan yang 'mendominasi' angka belasan.
4. Data Reduction
Analogi Jaman Now: Bumbu Instan
Kalau resep masakan butuh 10 rempah disangrai manual, tentu butuh waktu lama dan porsinya berat. Biar efisien, koki jenius mengubahnya jadi satu sachet bumbu instan kecil tanpa menghilangkan cita rasa orinya! Data Reduction adalah "meringkas" ukuran tabel dari bergiga-giga jadi ukuran KB namun tetap mempertahankan esensi analisis yang sama persis.
👩🏫 Secara Formal: Tidak dapat dipungkiri bahwa terkadang proses pengerjaan analisis menggunakan ukuran dataset yang terlalu besar untuk sebuah kapasitas penyimpanan kecil. Jika dipaksakan diolah, waktu yang dimakan sangat lama (sampai berhari-hari hitungan).
Hadirnya teknik Data Reduction diterapkan dengan tujuan konkret: meningkatkan efisiensi sistem penyimpanan dan memangkas anggaran biaya analisis.
Empat (4) Teknik Pokok Reduksi Tabel Dataset:
Mini-Lab: Data Cube Aggregation
PRAKTIK: REDUKSI UKURANSimulasi interaktif: Titik-titik di bawah mewakili ribuan data penjualan mentah selama setahun penuh. Daripada memproses data mentah satu per satu (sangat berat), mari kita Agregasi data tersebut menjadi data summary per-bulan dengan menghitung Total (SUM).
5. Visualisasi Data Akademis
Tahap pamungkas implementasi algoritma representasi
Analogi Jaman Now: Plating Estetik buat Difoto
Kalau masakan udah mateng banget, saatnya disajikan! Tapi disajikannya gak sekadar ditumpuk kasar, harus di-plating cantik biar pas difoto (masuk IG) orang langsung paham tingkat kelezatannya. Di dunia nyata, visualisasi itu cara menyajikan "insight bisnis" biar boss/klien perusahaan langsung paham poinnya, tanpa harus bingung baca susunan baris excel yang ngebingungin.
Bar Chart / D. Batang
Baik untuk menunjukkan frekuensi fraksi kategori data uang/jumlah diskret. Sering terpakai menjelaskan nilai komparatif kuantitatif Mean.
Pie Chart / D. Lingkaran
Merepresentasikan proporsi fraksi menyeluruh yang menunjukkan tingkat persentase komposisi suatu grup tanpa menonjolkan nilai total aktualnya.
Penutup: Prapemrosesan Lanjut
Terkadang prapemrosesan harus dilanjutkan dari data asalnya karena masih sangat mentah, untuk segera diubah ke format super efisien. Keberhasilan kualitas data memiliki ikatan struktural berkorelasi sebanding lurus dengan keberhasilan proyek Machine Learning nantinya. Fase ini di dunia per-IT-an disebut berfokus pada pelacakan dua teknik lanjutan: Validasi Aturan Data & Imputasi Data.
Modul 2 Selesai
Beralih ke Tahap Evaluasi Pilihan Ganda