Apa itu Text Mining dan Cara Kerjanya

Machine Learning Nov 04, 2020

Text mining merupakan salah satu subjek data mining, karena teks juga adalah data. Namun karena cakupannya sangat luas sehingga penggunaan istilah Text Mining dan Data Mining dibedakan. Data mining menambang pengetahuan dari kumpulan data yang banyak dan biasanya terstruktur. Perbedaannya terdapat dari tugas data miningnya, seperti klasifikasi, klasterisasi, asosiasi, estimasi atau prediksi, bukan pada karakteristik data yang diolahnya.

Text mining merupakan penambangan pengetahuan dari data yang berupa teks dan data jenis ini sifatnya tidak terstruktur. Banyak data teks yang bisa kita temui dalam kehidupan sehari-hari, dan data tersebut bisa kita olah sesuai dengan tujuan penelitian kita. Data teks itu seperti artikel di media online, chat grup whatsapp, status atau tweet di media sosial dan lain sebagainya. Menurut penelitian, terdapat lebih dari 80% data yang ada di internet bersifat tidak terstruktur, seperti data teks, video, audio, image dan lainnya.

Perbedaan data terstruktur dan tidak terstruktur

Fungsi dari text mining sangat banyak, karena cakupannya adalah teks, maka apapun yang kita ingin gali dari teks tersebut bisa kita lakukan dengan teknik Text Mining. Dari yang paling mudah adalah menganalisis sentimen berdasarkan chat / status / tweet dari banyak orang terhadap suatu kasus tertentu. Misalnya menganalisis sentimen para pengguna aplikasi game online Mobile Legend, lebih banyak mana orang yang suka atau orang yang tidak suka.

Sentiment Analysis

Contoh lainnya adalah kita ingin mengkategorisasikan artikel sesuai dengan kata kunci pada artikelnya. Mudah saja melakukan itu jika artikelnya ada 100, tapi jika artikelnya ada ribuan bahkan ratusan ribu, disinilah letak fungsi dari text mining untuk mengolah data tersebut sehingga bisa dikelompokkan dengan cepat dengan algoritma tertentu. Contoh berikutnya kita ingin mengetahui akun mana yang berkelompok dan yang bertentangan dengan kelompok tersebut, itu disebut dengan Social Network Analysis. Data yang diambil dari Twitter atau Facebook atau media sosial lainnya.

Social Network Analysis

Contoh lainnya adalah pada saat kita ingin mengetahui profil seseorang berdasarkan artikel berita yang sudah ditulis para jurnalis dan juga berdasarkan data dari wikipedia. Jadi kita ingin mengambil profil seseorang, mulai dari nama, tempat tanggal lahir, jenis kelamin, alamat, zodiak, makanan favorit, minuman favorit dan lain sebagainya. Kasus-kasus seperti itu bisa kita selesaikan dengan text mining. (pada artikel selanjutnya kita akan bahas tugas text mining lebih rinci).

Tahapan Text Mining

Tahapan dalam text mining dapat dilakukan dengan cara sebagai berikut,

  1. Knowledge Discovery Goal
  2. Data Preparation
  3. Data Pre processing
  4. Data Modelling
  5. Evaluation
  6. Knowledge and Result
Tahapan Text Mining dan Data Mining

Sebenarnya tidak banyak perbedaan antara tahapan dalam text mining dan data mining. Namun fokus text mining lebih banyak pada tahap kedua yaitu data pre processing.

Pre processing Data

Pada tahapan data pre processing, data yang sudah disiapkan harus benar-benar bersih dari noise agar mendapatkan akurasi yang bagus saat dimodelkan. Tahapan pre processing pada text mining seperti Case Folding, yaitu membuat huruf menjadi kecil semua, tidak ada lagi huruf kapital. Selanjutnya ada Tokenization. Proses tokenisasi berfungsi untuk mengurutkan kata dalam kalimat.

Contoh Tokenisasi setelah Case Folding

Kemudian ada Stopword yang menghilangkan kata yang dianggap tidak bermakna, seperti yang, di, ke, saya, kamu, dan lain sebagainya.

Contoh Stopword

Stemming untuk mengembalikan kata pada kata dasarnya, seperti "saw" menjadi "see", atau dalam bahasa Indonesia stemming bisa disebut dengan menghilangkan imbuhan seperti "mengerjakan" menjadi "kerja".

Contoh Stemming

Ada juga pembobotan pada teks. Biasanya pembobotan ini digunakan untuk mencari kata kunci dari suatu dokumen. Misalnya, kita ingin mengkategorisasikan artikel berdasarkan kata kuncinya seperti Olah raga, agama, politik dan lain sebagainya. Cara kerjanya adalah dengan melihat seberapa banyak istilah olah raga muncul dari suatu dokumen. Jika banyak, maka dianggap artikel olah raga begitu pula seterusnya. Pembobotan ini bisa menggunakan TF IDF. Namun biasanya TF IDF akan menghasilkan hasil yang sama antara satu dokumen dengan dokumen lainnya sehingga sulit untuk dikategorisasikan. Sehingga bisa dilanjutkan dengan algoritma Vector Space Model agar lebih optimal.

Tantangan Dalam Text Mining

Tantangan pada bidang text mining masih sangat banyak. Karena sifat data yang tidak terstruktur, menyebabkan pengolahan data teks menjadi lebih sulit dibandingkan data yang terstruktur seperti data warehouse. Data yang tidak terstruktur dapat menyebabkan data yang kurang jelas, tidak konsisten, kontradiktif dan lain sebagainya. Penggunaan teks yang tidak sesuai standar juga akan menyulitkan dalam proses pengolahan, seperti penggunaan istilah slang, gaul, alay dan singkatan-singkatan. Akibatnya, algoritma text mining harus selalu dilatih untuk mengurai berbagai tantangan tersebut menggunakan persamaan-persamaan matematis atau algoritma lain untuk mengoptimasi kasus yang sudah ada sebelumnya.

Contoh Kalimat yang Menjijikan

Mungkin sampai sini dulu nanti kita akan bahas yang lebih detail dan menarik di artikel berikutnya. Terima kasih dan semoga bermanfaat.

Tag

Admin Multinity

Seorang admin di Multinity tercinta.