TUGAS -MUTIARA NAIBAHO
jelaskan tentang extraction dan contoh dari extraction dalam data warehouse
Extract
Proses extract merupakan tahap pertama dari sistem ETL. Extract merupakan proses memilih dan mengambil data dari satu atau beberapa sumber (misalnya database), kemudian mengakses data yang diambil.
Ada beberapa prinsip dasar ekstraksi data yaitu :
a. Volume data yang digunakan berukuran besar (big data)
b. Proses ekstraksi dilakukan secepat mungkin, sehingga membutuhkan memory yang cukup besar.
c. Proses ekstraksi dilakukan sebisa mungkin menjadi kecil
Namun sebelum melakukan ekstraksi data, kita perlu membuat peta logika data yang menggambarkan hubungan antara feature dari sumber data dan feature data yang akan diolah.
Langkah — langkah pembuatan peta logika data adalah sebagai berikut :
a. Pertama, mengidentifikasi sumber data yang dibutuhkan dalam pengambilan keputusan
b. Kedua, menganalisa sumber data dengan aplikasi data-profilling. Data-profilling merupakan proses memeriksa ketersediaan data dari sumber informasi yang ada (misalnya : database atau file) dan mengumpulkan ringkasan informatif tentang data tersebut. Pada langkah kedua ini, perlu dihilangkan anomali data karena anomali data merupakan ketidakkonsistenan data seperti ditunjukkan pada tabel 1.
c. Ketiga, memahami kebutuhan data untuk bisnis
d. Keempat, memahami model data dari tempat penyimpanan data
e. Terakhir adalah melakukan validasi formula dan proses perhitungan data. Proses validasi bertujuan untuk mengkonfirmasi apakah formula dan proses perhitungan data sudah sesuai dengan yang diinginkan atau tidak.
Transformation
Tahap ETL selanjutnya adalah transformation. Pada langkah ini, data akan diolah sehingga punya satu format yang sama.
Biasanya, ada 5 hal yang dilakukan pada data:
- filtering, menyaring data dengan filter tertentu
- cleaning, menyesuaikan format penulisan, misalnya “Amerika Serikat” diubah jadi “AS”
- joining, ciri data yang serupa menjadi satu
- splitting, memecah ciri data yang berbeda menjadi dua atau lebih
- sorting mengurutkan data berdasarkan ciri tertentu
Loading
Langkah terakhirnya bernama loading. Akhirnya, data yang selesai diproses masuk ke data warehouse.
Kadang kala, proses ini terjadi sangat cepat. Tiap data selesai diolah, ia langsung menjalani proses loading.
Komentar
Posting Komentar