Pertemuan 1
Data Mining
CRISP-DM (Cross-Industry Standard Process for Data Mining)
CRISP-DM (Cross-Industry Standard Process for Data Mining) adalah sebuah metodologi yang digunakan secara luas dalam proses data mining untuk mengelola proyek-proyek analisis data. Metodologi ini memberikan pendekatan sistematis dalam menjalankan proyek data mining dari awal hingga akhir. Berikut adalah beberapa poin penting mengenai CRISP-DM:
Metodologi Terstruktur: CRISP-DM menyediakan kerangka kerja terstruktur yang terdiri dari serangkaian langkah yang jelas dan terurut. Langkah-langkah ini membantu para profesional data untuk merencanakan, mengelola, dan mengeksekusi proyek data mining dengan efisien.
Enam Tahapan Utama: CRISP-DM terdiri dari enam tahapan utama yang mewakili siklus hidup lengkap dari sebuah proyek data mining:
- Understanding the Business Understanding: Memahami tujuan bisnis, kebutuhan, dan tujuan dari proyek data mining.
- Data Understanding: Mengeksplorasi dan memahami data yang tersedia untuk memastikan kualitas dan kecocokannya untuk analisis.
- Data Preparation: Menyiapkan data dengan membersihkan, mengintegrasikan, dan memilih data yang relevan.
- Modeling: Membangun model data mining dengan menggunakan teknik-teknik seperti klasifikasi, regresi, clustering, atau lainnya.
- Evaluation: Menilai model yang telah dibangun untuk memastikan kualitas dan kecocokannya dengan tujuan bisnis.
- Deployment: Mengimplementasikan model yang sudah diverifikasi ke lingkungan produksi dan mengintegrasikannya dengan proses bisnis yang ada.
Iteratif dan Fleksibel: CRISP-DM mengakui bahwa proyek data mining sering kali memerlukan iterasi di sepanjang tahapan. Metodologi ini fleksibel dan memungkinkan penyesuaian berdasarkan temuan dan kebutuhan selama proyek berlangsung.
Pendekatan Berbasis Bisnis: Fokus utama CRISP-DM adalah pada pemahaman yang dalam terhadap tujuan bisnis dan masalah yang ingin dipecahkan. Setiap tahapan dirancang untuk mendukung pemahaman yang lebih baik terhadap tantangan bisnis yang spesifik.
Dukungan Industri Lintas: CRISP-DM telah diterima dengan baik di berbagai industri karena kesederhanaan, struktur yang jelas, dan aplikabilitasnya yang luas dalam berbagai jenis proyek data mining.
Dengan menggunakan CRISP-DM, organisasi dapat memaksimalkan nilai dari data mereka dengan menjalankan proyek data mining secara sistematis dan efektif, mulai dari pemahaman awal hingga implementasi model yang teruji ke dalam operasi bisnis sehari-hari.
SEMMA adalah singkatan dari Sample, Explore, Modify, Model, and Assess. Ini adalah metodologi proses analisis data yang dikembangkan oleh SAS Institute, yang mirip dengan CRISP-DM (Cross-Industry Standard Process for Data Mining), tetapi lebih fokus pada analisis data dan pemodelan dalam konteks penggunaan alat dan teknik yang disediakan oleh SAS.
Berikut adalah penjelasan singkat mengenai setiap tahapan dalam metodologi SEMMA:
Sample: Tahap pertama adalah memilih sampel dari populasi data yang tersedia. Sampel ini harus mewakili populasi secara keseluruhan untuk memastikan hasil analisis yang valid dan bermakna.
Explore: Tahap ini melibatkan eksplorasi data untuk memahami karakteristiknya. Ini termasuk statistik deskriptif, visualisasi data, dan teknik eksplorasi lainnya untuk mengidentifikasi pola, anomali, dan insight awal.
Modify: Setelah pemahaman awal terhadap data, tahap ini melibatkan persiapan data yang lebih mendalam. Ini termasuk membersihkan data dari nilai-nilai yang hilang atau tidak valid, mengintegrasikan data dari sumber yang berbeda, dan mengubah format data agar sesuai dengan kebutuhan analisis.
Model: Tahap ini mencakup pengembangan model analisis data menggunakan teknik statistik atau machine learning. Model dapat berupa model prediktif, seperti regresi atau klasifikasi, atau model deskriptif seperti clustering untuk mengelompokkan data.
Assess: Tahap terakhir dalam SEMMA adalah mengevaluasi kualitas model yang dikembangkan. Evaluasi ini melibatkan pengujian model terhadap data yang tidak terlihat sebelumnya untuk mengukur kinerja prediktifnya. Hasilnya dianalisis dan diinterpretasikan untuk menentukan apakah model tersebut sesuai dengan tujuan awal dan apakah dapat diandalkan untuk pengambilan keputusan.
SEMMA adalah pendekatan yang fleksibel dan dapat disesuaikan dengan berbagai jenis proyek analisis data, terutama jika organisasi menggunakan platform SAS atau alat analisis data lainnya yang didukung oleh SAS Institute. Metodologi ini membantu organisasi untuk merumuskan strategi analisis data yang terstruktur dan efektif dari awal hingga akhir proyek.
CCC (Computational, Cognitive, Communication)
"CCC" dalam konteks "Computational Cognitive Communication" mengacu pada bidang penelitian dan pengembangan yang menggabungkan komputasi, kognisi, dan komunikasi. Berikut adalah penjelasan lebih lanjut mengenai CCC:
Komputasi: Mengacu pada penggunaan teknik dan algoritma komputasi untuk memodelkan, mensimulasikan, atau menganalisis proses kognitif dan komunikasi.
Kognisi: Melibatkan studi tentang proses-proses mental, termasuk persepsi, pemahaman, belajar, memori, dan pengambilan keputusan dalam konteks komunikasi.
Komunikasi: Memeriksa bagaimana informasi disampaikan, dipahami, dan diproses oleh individu atau entitas komunikasi, termasuk aspek-aspek linguistik, psikologis, dan sosial dari komunikasi.
Tujuan: Tujuan dari CCC adalah untuk mengembangkan model, algoritma, dan teknologi yang dapat meningkatkan pemahaman, prediksi, atau interaksi dalam konteks komunikasi berdasarkan pemahaman komputasi dan kognitif.
Penerapan: CCC dapat diterapkan dalam berbagai domain, termasuk sistem interaksi manusia-komputer, pemrosesan bahasa alami, analisis sentimen, analisis media sosial, dan banyak lagi. Contoh penerapan CCC termasuk pengembangan sistem yang dapat memahami dan merespons teks atau ucapan manusia, menganalisis perilaku pengguna online, atau memodelkan interaksi sosial dalam lingkungan virtual.
Dengan demikian, CCC mewakili bidang interdisipliner yang menggabungkan pengetahuan dalam komputasi dan ilmu kognitif untuk memperbaiki dan memahami proses komunikasi manusia dan komputer secara lebih baik dan efisien.

Komentar
Posting Komentar