Rabu, 13 April 2022
Jumat, 08 April 2022
LATIHAN M5 KONSEP DATA MINING
Honey
Millenia Fitri
53418167
4IA18
Konsep
data mining
1. Jika
diketahui A={1,2,3,4}, B={1,2,4}, dan C={1,2,4,5}, berapakah Jaccard (A,B),
Jaccard(B,C), dan Jaccard(A,C)?
2. Berikutnya
untuk kasus query dan document. Misalnya kita punya:
query:
ideas of march
doc1:
caesar died in march
doc2:
the long march
Cari
Koefisien Jaccard antara query dengan doc1 dan doc2.
3. Diketahui
3 dokumen :
d1:
“Jack London traveled to Oakland”
d2:
“Jack London traveled to the city of Oakland”
d3:
“Jack traveled from Oakland to London”
Nilai
dari Koefisian Jaccard J(d1,d2) dan J(d1,d3) jika dilakukan dengan n-gram
analisis dengan n=2 (bigram) adalah:
PDF: Konsep Data Mining
Selasa, 29 Maret 2022
Komputer Quantum
Komputer kuantum adalah jenis teknologi komputer yang melakukan pemrosesan informasi menggunakan qubit. Sistem qubit ini memungkinkan penggunaan transistor bernilai 1 atau 0 secara bersamaan. Berbeda dengan komputer klasik atau komputer pada umumnya yang hanya bisa menggunakan satu transistor saja, yaitu 1 atau 0. Komputer biasa digunakan untuk mengerjakan pengolahan data ringan, komputer kuantum dapat menjalankan pekerjaan yang lebih rumit.
Komputer kuantum adalah teknologi yang menggunakan sistem komputasi yang berbasis pada prinsip teori kuantum, yaitu prinsip perilaku teori dan material pada tingkat atom dan subatom yang berbeda. Komputer ini menggunakan bit kuantum (qubit) yang dapat menyandikan informasi dengan nilai 1 dan 0 secara bersamaan.
Dengan kemampuan ini, komputer kuantum dapat memproses data jauh lebih cepat dibandingkan komputer klasik atau komputer biasa. Tidak heran jika banyak perusahaan besar di dunia menggunakan teknologi ini untuk meningkatkan kinerja di segala sisi. Teknologi ini dapat mendukung pengolahan dan analisis data yang lebih akurat dan efisien.
keunggulan komputer kuantum adalah:
- Komputer kuantum memiliki kemampuan akses yang lebih cepat dibandingkan komputer klasik maupun super computer.
- Komputerkuantum dapat melakukan perhitungan dalam 200 detik, sedangkan komputer tercepat di dunia membutuhkan waktu hingga 10.000 tahun untuk memecahkan hitungan tersebut.
- Meskipun memiliki kecepatan yang lebih tinggi, namun komputer kuantum mengonsumsi energi yang jauh lebih rendah.
- Sistem algoritma kuantum dapat memecahkan masalah lebih cepat dan efisien dibandingkan jenis komputer lainnya.
- Kekuatan komputer kuantum tumbuh secara eksponensial.
Selasa, 15 Maret 2022
Tugas Data Mining
4IA18 - Kelompok 2
Fahmi Indriawan - 52418394
Honey Millenia Fitri - 53418167
Kagin Mikail - 53418575
Jurnal Rekayasa Teknologi Nusa Putra Vol. 8, No.1, Agustus 2021 : Hal 20 -26
PENERAPAN DATA MINING DENGAN METODE
APRIORI
PADA PENJUALAN SEMBAKO
Data yang dilampirkan berupa text degan atribut atributenya mie, telor, minyak, gula, terigu. Dimana dimesninya disini adalah 4 atribute
Data yang digunakan penulis di preproseskan menggunakan teknik data transformation yang bernama Association Rule mining Association Rule Mining adalah teknik data mining untuk menemukan aturan asosiatif antara suatu kombinasi item. Metodologi dasar analisis asosiasi terbagi menjadi dua tahap :
1.Analisa pola frekuensi tinggi
2.Pembentukan aturan asosiatif
Hasil yang di keluarkan data mine ini adalh hasil perhitungan akurasi support dan confidence diamana Pola asosiasi yang ter-bentuk dengan nilai minimum support 30% dan nilai minimum confidence 70% menghasilkan 6 aturan asosiasi. dan hasil pola kombinasi itemset-tertinggi yang diperoleh adalah telor → mie, dan telor → minyak dengan nilai support 37,04% dan nilai confidence 88,33%.
Tools yang digunakan adalah Algoritma Apriori Data Mining adalah aktifitas menggali data dari kumpulan data yang sangat besar untuk men-cari sebuah informasi yang memiliki kegunaan tersendiri sesuai kebutuhan
IMPLEMENTASI DATA MINING PEMILIHAN PELANGGAN POTENSIAL MENGGUNAKAN ALGORITMAK-MEANS
–menjelaskan data yang digunakan: type data, atribut, type atribut masing-masing, dimensi
tipe data yang digunakan adalah angka yang terdiri dari 30 data yang sudah di ambil dari sejarah pembelian sebelumnya pada toko.
–menjelaskan preprocessing yang digunakan
preprocessing yang digunakan adalah cleaning dan transformation
(cleaning)sebelum proses data mining dapat dilaksanakan perlu pembersihan data yang membuang duplikasi data, memeriksa data yang inkonsisten dan memperbaiki kesalahan pada data.
(transformation) coding adalah transformasi pada data yang dipilih, sehingga data tersebut sesuai untuk proses data mining.
–menjelaskan task mining yang dilakukan
clustering adalah task mining yang digunakan dimana data di clusterkan yang akan di pilih secara random (K)
–menjelaskan hasil yang diperoleh
hasil yang diperoleh adalah mendapatkan data pelanggan potensial dengan menggunakan tools tanagra.
–menjelaskan tools yang digunakan
tools yang digunakan adalah tanagra, Jadi Tanagra merupakan salah satu software dalam data mining yang dibangun dengan tujuan untuk memberikan akses pada beberapa algoritma data mining
JISKa (Jurnal Informatika Sunan Kalijaga), Vol. 2, No. 3, Januari, 2018, Pp. 167–174
ISSN 2527-5836
PENERAPAN DATA MINING DALAM MENGELOMPOKKAN
KUNJUNGAN WISATAWAN KE OBJEK WISATA UNGGULAN DI
PROV. DKI JAKARTA DENGAN K-MEANS
Sample data sebanyak 8 record dari laporan jumlah kunjungan wisatawan ke objek wisata unggulan di Prov. DKI Jakarta. Berikut ini jumlah kunjungan wisatawan ke objek wisata unggul pada Prov. DKI Jakarta (2007-2013).
Data didapatkan dengan reduksi dengan data yang digunakan dibatasi 8 record dari laporan kunjungan wisatawan ke objek wisata unggulan DKI Jakarta.
Analisis Pengelompokan/ Clustering merupakan proses membagi data dalam suatu himpunan ke dalam beberapa kelompok yang kesamaan datanya dalam suatu kelompok lebih besar dari pada kesamaan data tersebut dengan data dalam kelompok lain. Pada proses analisis cluster metode yang digunakan untuk membagi data menjadi subset data berdasarkan kesamaan atau kemiripan yang telah ditentukan sebelumnya. Jadi analisis cluster secara umum dapat dikatakan bahwa:
a. Data yang terdapat dalam satu cluster memiliki tingkat kesamaan yang tinggi, dan
b. Dan yang terdapat dalam suatu cluster yang berbeda memiliki tingkat kesamaan yang rendah
Untuk melakukan penilaian terhadap pengelompokan jumlah wisatawan ke objek wisata unggulan di Prov. DKI jakarta dapat diterapkan dengan metode clustering K-Means. Data diolah untuk memperolah jumlah wisatawan yang berkunjung ke objek wisata unggulan di Prov. DKI Jakarta. Data tersebut diolah menggunakan Apliaksi XLSTAT. Variabel yang digunakan jumlah pengunjung. Data diolah dengan melakukan K-Means yang dikelompokkan menjadi 3 cluster yaitu cluster tinggi (C1) yakni jumlah kunjungan wisatawan tinggi, cluster sedang (C2) yakni:
jumlah kunjungan wisatawan sedang dan cluster rendah (C3) yakni jumlah kunjungan wisatawan rendah. Centroid data C1= 15.438.488, Centroid data C2= 4.464.577 dan Centroid data C3= 342.332.
Sehingga diperoleh hasil dari K-Means bahwa C1 terdiri dari 1 objek wisata unggulan yakni Taman Impian Jaya Ancol, C2 terdiri dari 2 objek wisata unggulan yakni Taman Mini Indonesia Indah Dan Kebon Binatang Ragunan, C3 terdiri dari 5 objek wisata unggulan yakni Monumen Nasional, Museum Nasional, Museum Satria Mandala, Museum Sejarah Jakarta Dan Pelabuhan Sunda Kelapa. Hasil dari penelitian menunjukkan bahwa 5 objek wisata unggulan yang yang berada di cluster paling rendah menjadi catatan bagi pemerintah Prov. DKI. Jakarta. Dengan adanya perbaikan sarana dan prasarana objek wisatawan unggulan dapat meningkatkan jumlah kunjungan wisatawan yang berdampak pada pengenalan objek wisata dan peningkatan devisa negara.
Algoritma K-Means merupakan salah satu metode pengelompokan data non hierarki (sekatan) yang berusaha mempartisi data yang ada ke dalam bentuk dua atau lebih kelompok. Metode ini mempartisi data ke dalam kelompok sehingga data berkarakteristik sama dimasukkan ke dalam satu kelompok yang sama dan data yang berkarakteristik berbeda dikelompokkan kedalam kelompok yang lain. Adapun tujuan pengelompokkan data ini adalah untuk meminimalkan fungsi objektif yang diatur dalam proses pengelompokan, yang pada umumnya berusaha meminimalkan variasi di dalam suatu kelompok dan memaksimalkan variasi antar kelompok.
Jurnal Teknologi dan Sistem Informasi (JTSI)
Vol. 2, No. 2, Juni 2021, 100 – 108
E-ISSN: 2746-3699
ANALISIS DATA MINING UNTUK CLUSTERING KASUS COVID-19
DI PROVINSI LAMPUNG DENGAN ALGORITMA K-MEANS
Dari jurnal ini data yang di representasikan berupa text dan memiliki 15 atribute dan 14 dimensi.
Data ditransformasikan setelah dikumpulkan dengan algoritma K-Means
Task Mining yang digunakan menggunakan metode Clustering yang mengacu pada pengelompokan seperti record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Clustering adalah kumpulan dari record yang memiliki kemiripan satu sama lain, dan berbeda dengan record di klaster lain. Clustering dalam data mining berguna untuk menemukan pola distribusi di dalam sebuah data set yang berguna untuk proses analisis data.
Hasil yang dikeluarkan oleh datamine ini berupa evaluasi cluster.Pada pengujian mencari nilai Davies-bouldin index (DBI) menggunakan perhitungan manual dan menggunakan bantuan tools RapidMiner terdapat perbedaan, hasil yang didapat sama-sama mendekati 0 yang artinya semakin kecil nilai DBI yang didapat (non-negatif > = 0), semakin baik clusternya. diperoleh dari pengelompokan K-means yang digunakan. Untuk hasil perhitungan secara manual dan menggunakan bantuan alat RapidMiner
Untuk hasil perhitungan secara manual dan menggunakan bantuan alat RapidMiner dapat dilihat pada Tabel dibawah
Tools yang digunakan adalah Raid miner RapidMiner merupakan perangkat lunak yang bersifat terbuka (open source). RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi.
APLIKASI DATA MINING UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA
–menjelaskan data yang digunakan: type data, atribut, type atribut masing-masing, dimensi
Tipe data yang digunakan berupa text dan angka yang akan di gunakan dalam menentukan nilai confidance dan support dengan jumlah data lebih dari 20 data
–menjelaskan preprocessing yang digunakan
Preprocessing yang dilakukan adalah data cleaning (pembersihan data), data integration ( integrasi data) dan data tranformation (transformasi data)
–menjelaskan task mining yang dilakukan
Task mining yang dilakukan adalah clustering dimana data akan di dikelompokan dengan varian per clusternya semirip mungkin.
–menjelaskan hasil yang diperoleh
Hasil yang diperoleh adalah nilai support dan confidance hubungan antara tingkat kelulusan dan dengan data induk mahasiswa
–menjelaskan tools yang digunakan
Tools yang digunakan adalah aplikasi data mining buatan personal yang di buat dengan aplikasi delphi.
Sumber
http://jim.teknokrat.ac.id/index.php/sisteminformasi/article/view/868/355
http://ejournal.uin-suka.ac.id/saintek/JISKA/article/view/23-06
https://core.ac.uk/download/pdf/295346525.pdf
https://rekayasa.nusaputra.ac.id/article/view/105
https://journal.ipm2kpe.or.id/index.php/INTECOM/article/view/141