Data cleaning (pembersihan data) adalah salah satu tahap yang penting sebelum dilakukan analisis data. Data yang kotor dapat menghasilkan informasi yang tidak valid sehingga keputusan yang dihasilkan tidak dapat diandalkan.
Data cleaning membantu menghilangkan kesalahan seperti duplikasi, nilai null, format data yang tidak sesuai dan lainnya. Kesalahan penulisan data dapat berasal dari sumber data maupun data yang berubah saat proses pengiriman data.
Spreadsheet (Microsoft Excel, Google Sheet, WPS Spreadsheet) adalah perangkat lunak yang sangat populer untuk pengolahan data dengan skala kecil dan menangah. Spreadsheet sangat mudah digunakan untuk menjalankan berbagai operasi pengolahan data dan visualisasi data.
Saya akan membahas teknik pembersihan data pada salah satu tools spreadsheet yaitu Ms. Excel (versi 2021)
Fungsi Data Cleaning pada Ms. Excel
1. Menghilangkan sel kosong (blank cell)
Apabila menemukan sel kosong pada spreedsheet, analis data perlu memastikan apakah sel kosong tersebut memang dapat diabaikan (merepresentasikan nilai 0) atau menunjukkan adanya kesalahan pada proses pengumpulan data.
Salah satu cara agar interpretasi data tidak menimbulkan bias adalah dengan menghapus baris yang memiliki sel kosong. Untuk mengeliminasi sel kosong, gunakan filter data dan centang blank cell kemudian hapus baris yang mengandung blank cell.
Sorot kolom yang ingin difilter. Kemudian pilih tab Data lalu pilih Filter atau tekan CTRL+SHIFT+L pada keyboard

Kemudian centang hanya pada opsi (Blank) dan OK

Pilih semua sel dengan blank cells kemudian hapus.
2. Memperbaiki format data
Ada beberapa fungsi bawaan pada Ms. Excel yang dapat digunakan untuk memperbaiki format data diantaranya :
Fungsi TRIM()
Fungsi Trim digunakan untuk menghilangkan ekstra space pada text. Extra space menyebabkan kesalahan proses LOOKUP.
Formula
=TRIM(text)
Misalkan isi sel A1 adalah “ANDI RAHMAN“
=TRIM(A1)
Result
ANDI RAHMAN
Fungsi CLEAN()
Fungsi clean digunakan untuk mengilangkan karakter non-printable (karakter aneh) pada text. Seperti tab, line break dan lainnya.
Formula
=CLEAN(text)
Misalkan sel A1 yang mengandung karakter line break
ANDI
RAHMAN
=CLEAN(A1)
Result
ANDIRAHMAN
Fungsi VALUE()
Biasanya nilai numerik pada sel masih dianggap sebagai text pada Ms. Excel. Hal ini formula menjadi error karena text tidak dapat dihitung. Fungsi value akan mengubah text yang tampak seperti angka menjadi nilai numerik agar dapat dihitung.
Formula
=VALUE(text)
Misalkan sel A1 adalah “12345”. Nilai ini mungkin terlihat benar-benar seperti angka tetapi akan menyebabkan ERROR saat dilakukan operasi penjumlahan dan agregasi karena sebenarnya nilai bertipe text.
=VALUE("12345") --> Text yang tampak seperti angka
Result
12345
3. Menghilangkan Duplikat (Remove Duplicate)
Fungsi remove duplicate digunakan untuk menghapus data yang memiliki nilai yang sama. Misalkan data dengan kolom kode identitas memerlukan nilai yang unik. Fungsi ini sangat sering digunakan untuk membentuk data referensi.
Misalkan kolom First Name berikut berisi nilai yang sama

Untuk menghilangkan data duplikat, pilih Tab Data kemudian pilih menu Remove Duplicate pada bagian Data Tools

Apabila kolom memiliki header, centang my data has headers lalu OK

Hasil setelah duplikat dihilangkan

Kesimpulan
- Menghilangkan sel kosong (blank) membantu mencegah kesalahan perhitungan dan memastikan data lengkap serta relevan untuk dianalisis.
- Perbaikan format data dengan fungsi TRIM, CLEAN, dan VALUE memastikan data konsisten dan siap digunakan dalam proses analisis.
- Penghapusan data duplikat menggunakan Remove Duplicates menjaga keakuratan hasil analisis dengan menghindari perhitungan ganda.
- Secara keseluruhan, data cleansing menggunakan Excel efektif untuk pengolahan data skala kecil hingga menengah, terutama ketika dibutuhkan proses pembersihan data yang cepat dan praktis.
