Recently Published
Analisis CRISP-DM Menggunakan Metode Klasifikasi Decision Tree
Analisis data menggunakan tahapan CRISP-DM dengan metode klasifikasi Decision Tree pada Student Performance Dataset dari UCI Machine Learning Repository. Penelitian ini bertujuan memprediksi status kelulusan mahasiswa berdasarkan beberapa faktor akademik seperti nilai sebelumnya, waktu belajar, jumlah kegagalan mata kuliah, dan absensi. Proses analisis meliputi business understanding, data understanding, data preparation, modeling, evaluation, dan interpretation. Hasil analisis menunjukkan bahwa nilai akademik sebelumnya dan jumlah kegagalan mata kuliah menjadi faktor yang paling berpengaruh terhadap kelulusan mahasiswa. Model Decision Tree juga memberikan visualisasi yang mudah dipahami dalam proses pengambilan keputusan klasifikasi.
Decision Tree
Analisis Decision Tree menggunakan metode entropy dan information gain untuk menentukan atribut terbaik sebagai root node dalam proses klasifikasi. Dataset yang digunakan terdiri dari atribut Cuaca, Angin, dan Bermain. Proses analisis dilakukan melalui perhitungan manual serta implementasi menggunakan bahasa R dengan package rpart dan rpart.plot. Hasil analisis menunjukkan bahwa atribut Angin memiliki nilai information gain terbesar sehingga menjadi root node pada pohon keputusan. Model kemudian digunakan untuk melakukan prediksi data baru dan menghasilkan keputusan Bermain = Tidak. Hasil perhitungan manual dan software menunjukkan hasil yang sama sehingga membuktikan bahwa proses pembentukan Decision Tree telah dilakukan dengan benar.
TIME SERIES - DATA BIKE
Visualisasi data timeseries yaitu lineplot dan smoothing plot
Analisis Data Kontinu Bivariat (Diamonds)
Berikut adalah Hasil analisis menggunakan data set kontinu Bivariat (Diamonds) yang memuat tentang hubungan antar variabel variabel kontinu yang hasilnya bisa menjawab pola hubungan melalui visualisasi yang disajikan.
Visualisasi Data Kontinu (Univariate dan Bivariate) – Bike Sharing Dataset
Laporan ini membahas analisis eksploratif data pada Bike Sharing Dataset dengan fokus pada visualisasi data kontinu secara univariate dan bivariate. Analisis dilakukan menggunakan histogram, density plot, boxplot, violin plot, serta scatter plot untuk memahami distribusi dan hubungan antar variabel seperti suhu, kelembapan, musim, dan jumlah penyewaan sepeda.
Analisis Numerik Kontinu: Studi Kasus Optimalisasi Harga Berlian
Analisis 53,940 data berlian untuk solusi masalah pricing & revenue optimization.
TEMUAN: Premium Paradox (Premium overpriced vs Ideal), Dead Zone Rp 75-150 juta, Sweet Spot 46% di segment menengah.
Tools: R Studio | Visualisasi: Histogram, Density, Box Plot, Violin Plot
Diamond Categorical Market Analysis
Laporan ini menyajikan analisis kategorik pada dataset diamonds (53.940 observasi) dengan fokus pada variabel Cut, Color, dan Clarity. Visualisasi yang digunakan meliputi bar chart, grouped bar chart, stacked bar (jumlah absolut), dan 100% stacked bar (proporsi) untuk membedakan antara ukuran pasar dan komposisi internal setiap kategori.
Hasil analisis menunjukkan bahwa kategori Ideal dan Premium mendominasi dari sisi volume, sementara warna G, E, dan H memiliki frekuensi tertinggi. Dari sisi kejernihan, segmen SI1 dan VS2 menjadi kelompok paling besar. Perbandingan antara grafik absolut dan proporsi menunjukkan bahwa sebagian besar kategori memiliki struktur komposisi yang relatif konsisten, sehingga perbedaan utama terletak pada volume, bukan pada perubahan distribusi internal.
Visualisasi dirancang dengan pendekatan profesional dan fokus warna terkontrol untuk memperjelas insight utama serta mendukung pengambilan keputusan berbasis data.