Data Science
Diabetes model
Apa itu data science ?
Data science adalah bidang yang fokus utamanya pada mengelolah data untuk menghasilkan informasi, wawasan, dan keputusan dengan menggunakan kombinasi
- Statistika & Matematika
- Pemrograman
- Machine Learning / AI
- Pengolahan Data (Data Cleaning & Data Engineering)
- Visualisasi Data
Jadi, model pada data science merupakan representasi matematis dari sebuah proses yang ada didunia nyata. Contohnya
- Kita berikan sebuah data sebagai input (kedalam model)
- Model tersebut akan belajar dari pola yang sudah diajarkan sebelumnya
- Kemudian model tersebut akan memberikan (prediksi, keputusan, dan informasi)
Tujuan utamanya adalah generalisasi. Kita tidak mau model yang dihasilkan terlalu menghafal data yang sudah diajarkan, tetapi kita mau model yang dibuat mampu memberikan prediksi terhadap data baru yang belum pernah diajarkan sebelumnya.

Data science Lifecycle
1. Business Understanding
Pada tahap ini menentukan pertanyaan yang mau dijawab. Tanpa tujuan yang jelas data yang dikumpulkan tidak akan berguna
2. Data Collection
Pada tahap ini mengumpulkan semua data yang relevan dengan tahap 1, dari berbagai sumber misalnya database, csv, excel, API
3. Data Cleaning & Preparation
Pada tahap ini memperbaiki data yang hilang, menghapus data yang duplicate, mengubah format data agar konsisten
4. Exploratory Data Analysis (EDA)
Memahami data. Membuat grafik dan statistik sederhana untuk menemukan pola, tren, dan hubungan antar variabel
5. Feature Engineering
Melakukan manipulasi data yang dianggap paling relevan dengan model yang mau dibuat, contohnya ada data tanggal lahir dari pada menggunakan data tanggal lahir kita bisa ubah menjadi usia
6. Model Building
Memilih algoritma yang cocok untuk data berdasarkan tahap ke 4 lalu melatih model tersebut dengan data yang sudah disiapkan
7. Evaluation
Menguji model dengan menggunakan data yang belum pernah di ajarkan
8. Deployment
Melakukan deploy model yang telah di buat agar bisa diakses pengguna (bisa dalam bentuk aplikasi atau API)
9. Monitoring
Melakukan monitoring terhadap model yang telah di deploy
Jenis Model Machine Learning
Ada banyak sekali jenis model, tetapi hampir semuanya bisa dikelompokkan ke dalam 3 jeni: Supervised, Unsupervised, dan Reinforcement Learning.
1. Supervised Learning
Model dilatih menggunakan data yang sudah memiliki label (input dan output yang diketahui). Tujuannya adalah untuk memprediksi hasil dari data baru berdasarkan pola yang dipelajari. Contoh algoritma : KNN, Random Forest, Decision tree classifier, SVM, dll
2. Unsupervised Learning
Model menemukan pola dan struktur dari data yang tidak memiliki label. Tujuannya adalah untuk memahami data tanpa bimbingan awal. Contoh algoritma : K-Means, DBScan, PCA, Autoencoder, Apriori
3. Reinforcement Learning
Model belajar melalui interaksi dengan lingkungan dengan menerima reward (hadiah) untuk tindakan yang benar dan punishment (hukuman) untuk tindakan yang salah. Tujuannya adalah untuk memaksimalkan total reward. Contoh algoritma : Q-Learning, SARSA
Model Evaluasi
Jika model yang sudah dibuat telah selesai, lalu bagaimana cara kita tahu model yang dibuat itu bagus atau tidak? Kita menggunakan Metrik evaluasi (tergantung dengan jenis model nya). Metrik evaluasi yang umum digunakan :
Contoh Metrik untuk klasifikasi
1. Accurary
Persentase tebakan yang benar. (Total Benar / Total Data). Akurasi bisa menyesatkan jika datanya tidak seimbang. (Misal: model memprediksi 99% "Bukan Spam" hanya karena 99% data email memang bukan spam. Padahal ia gagal total menangkap 1% email spam yang penting).
2. Confusion Matrix
Tabel yang merangkum hasil prediksi vs. kenyataan. Ini jauh lebih informatif daripada akurasi. Ini memberi kita informasi:
- True Positive (TP): Prediksi "Ya", kenyataan "Ya" (Benar).
- True Negative (TN): Prediksi "Tidak", kenyataan "Tidak" (Benar).
- False Positive (FP): Prediksi "Ya", kenyataan "Tidak" (Salah Tipe I).
- False Negative (FN): Prediksi "Tidak", kenyataan "Ya" (Salah Tipe II - seringkali paling berbahaya, misal: prediksi "tidak sakit" padahal "sakit").
3. Precision dan Recall
- Precision: Dari semua yang diprediksi "Ya", berapa persen yang benar-benar "Ya"?
- Recall: Dari semua yang seharusnya "Ya", berapa persen yang berhasil ditemukan model?
Contoh Metrik untuk Regresi
1. Mean Squared Error (MSE) / Root Mean Squared Error (RMSE)
Mengukur rata-rata "seberapa jauh" tebakan model meleset dari nilai sebenarnya.
Semakin kecil nilai RMSE, semakin baik modelnya (semakin dekat prediksinya ke kenyataan).