Penerapan Tokenisasi, Stopword Removal, dan Stemming
Disusun oleh :
Agus Prastyo (15.01.53.0122)
M.Ade Rahmat H (15.01.53.0130)
Muhammad Zainurroziqin (15.01.53.0125)
Dosen Pengampu :
Dr. Drs. Eri Zuliarso,M.Kom
Fakultas Teknologi Informasi Program Studi Teknik Informatika Universitas Stikubank Semarang
2017
BAB I
PENDAHULUAN
- Latar Belakang
Pada perkembangan teknoaogi saat ini yang pesat mempengaruhi saah satu aspek kehidupan di masyarakat . Salah satu aspek kehidupan masyarakat tersebut adalah banyaknya penyimpanan dokumen secara digital berupa teks. Karena banyak dokumen yang disimpan secara digital dan banyak penumpukan dokumen, hal ini menyebabkan pencarian dokumen yang relevan terasa sulit dan memakan waktu yang lama. Pasalnya, hampir seluruh dokumen-dokumen yang ada tidak memiliki struktur yang pasti, dan tidak semua kata mencerminkan makna atau isi yang terkandung dalam sebuah dokumen. Sehingga informasi di dalamnya tidak dapat diekstrak secara langsung oleh pencari dokumen.
Maka dari itu metode-metode untuk mencai teks terus ditingkatkan. Salah satunya yaitu Information Retrieval System (IRS). IRS merupakan pencarian informasi dalam satu atau lebih dokumen, atau mencari informasi dari database. IRS menggunakan perhitungan untuk menentukan apakah informasi tersebut relevan bagi penggunanya. Di dalam IRS akan melalui beberapa tahapan, yaitu Text Preprocessing, Pembobotan, dan Indexing.
Text Preprocessing diperlukan untuk memilih kata yang akan digunakan sebagai indeks. Indeks adalah kata-kata yang mewakili sebuah dokumen dan digunakan untuk membuat permodelan Information Retrieval System (IRS). Text Processing juga melalui beberapa tahapan, yaitu Tokenisasi, Stopword Removal, dan Stemming. Dalam makalah ini difokuskan pada langkah pertama IRS, yaitu Text Processing.
- Rumusan Masalah
- Apa pengertian dari Information RetrievalSystem(IRS)?
- Apa pengertian dari Tokenisasi, Stopword Removal, dan Stemming?
- Bagaimana proses dari Tokenisasi, Stopword Removal, dan Stemming?
- Tujuan
Pembaca memahami pengertian, proses, dan manfaat dari Tokenisasi, Stopword Removal, dan Stemming.
BAB II
- PEMBAHASAN
Pengertian Information Retrieval System
Information RetrievalSystem (IRS) atau Sistem Temu Kembali Informasi merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Berdasarkan referensi dijelaskan bahwa Information Retrieval merupakan suatu pencarian informasi (biasanya berupa dokumen) yang didasarkan pada suatu query (inputanuser) yang diharapkan dapat memenuhi keinginan user dari kumpulan dokumen yang ada. Sedangkan, definisi query dalam Information Retrieval menurut referensi merupakan sebuah formula yang digunakan untuk mencari informasi yang dibutuhkan oleh user, dalam bentuk yang paling sederhana, sebuah querymerupakan suatu keywords (kata kunci) dan dokumen yang mengandungkeywords merupakan dokumen yang dicari dalam IRS.
Prinsip kerja Information Retrieval System jika ada sebuah kumpulan dokumen dan seorang user yang memformulasikan sebuah pertanyaan (request atau query). Jawaban dari pertanyaan tersebut adalah sekumpulan dokumen yang relevan dan membuang dokumen yang tidak relevan (Salton, 1989).
IRS akan mengambil salah satu dari kemungkinan tersebut. IRS dibagi dalam dua komponen utama yaitu sistem pengindeksan (indexing) menghasilkan basis data sistem dan temu kembali merupakan gabungan dari user interface dan look-up-table. IRS didesain untuk menemukan dokumen atau informasi yang diperlukan oleh user.
Information Retrieval System bertujuan untuk menjawab kebutuhan informasi user dengan sumber informasi yang tersedia dalam kondisi seperti sebagai berikut (Salton, 1989);
- Mempresentasikan sekumpulan ide dalam sebuah dokumen menggunakan sekumpulan konsep.
- Terdapat beberapa pengguna yang memerlukan ide, tapi tidak dapat mengidentifikasikan dan menemukannya dengan baik.
- Information Retrieval System bertujuan untuk mempertemukan ide yang dikemukakan oleh penulis dalam dokumen dengan kebutuhan informasi pengguna yang dinyatakan dalam bentuk key word query/istilah penelusuran.
- Arsitektur Information Retrieval System
Proses Information Retrieval System seperti pada gambar 2.1 menggunakan arsitektur yang sederhana. Sebelum dilakukannya proses temu kembali diperlukan pendefinisian database. Selanjutnya mengikuti tahapan proses; Dokumen-dokumen yang akan digunakan,Operasi yang akan digunakan dalam pencarian, dan model pengolahan teks (Baeza, 1999, h.9)
Pemrosesan Teks (Text Preprocessing) adalah suatu proses pengubahan bentuk data yang belum terstruktur menjadi data yang terstruktur sesuai dengan kebutuhan untuk proses mining yang lebih lanjut (sentiment analysis, peringkasan, clustering dokumen, dsb.). Singkatnya, Preprocessing adalah mengubah teks menjadi term index.Tujuannya adalah untuk menghasilkan sebuah set term index yang bisa mewakili dokumen.
Langkah-langkah dalam pemrosesan teks antara lain tokenisasi(tokenizations), pembuangan stopword(stopword removal), pembentukan kata dasar (stemming).
- Tokenisasi
Tokenizing atau tokenisasi adalah proses yang paling awal dalam melakukan text mining. Dalam proses ini,input stream yang didapat dari file texs akan dipecah-pecah menjadi bagian bagian yang lebih kecil. Sebagai contoh pemecahan kalimat menjadi kat- kata (tokens). Dalam penelitian ini, proses tokenisasi dilakukan menggunakan bahasa pemrograman C#,dan data mentah yang digunakan dalam bentuk “.txt” dengan format TSV atau Tab Separated Value. Maka hal yang perlu dilakukan untuk melakukan tokenisasi ini adalah dengan membaca file teks dengan fungsi teamreader.Dan kemudian memproses setiap baris yang didapat dengan menggunakan fungsi stringsit,untuk mendapatkanay kata-kata dari sebuah kalimat.
Gambar 2.2 Flowchart Proses Tokenisasi
Seperti yang terlihat pada gambar 2.2 pada proses preprosesing untuk tokenisasi, semua term dalam dokumen yang dibaca diganti dengan huruf kecil.Setelah itu tiap term akan dicek apakah tanda baca atau tidak. Jika tanda bacamaka akandihapus/dibuang. Proses akan dilanjutkan untuk membuat termmenjadi token-token yang terpisah.
- Pembuangan Stopword (Stopword Removal)
Proses pembuangan stopword dimaksudkan untuk mengetahui suatu katamasuk ke dalam stopword atau tidak. Pembuangan stopwordadalah prosespembuangan term yang tidak memiliki arti atau tidak relevan. Term yangdiperoleh dari tahap tokenisasi dicek dalam suatu daftar stopword, apabila sebuahkata masuk di dalam daftar stopwordmaka kata tersebut tidak akan diproses lebihlanjut. Sebaliknya apabila sebuah kata tidak termasuk di dalam daftar stopwordmaka kata tersebut akan masuk keproses berikutnya. Daftar stopwordtersimpandalam suatu tabel, dalam penelitian ini menggunakan daftar stopword yangdigunakan oleh Tala (2003), yang merupakan stopword Bahasa Indonesia yang berisi kata-kata seperti ; ini, itu, yang, ke, di, dalam, kepada, dan seterusnyasebanyak 780 kata. Seperti terlihat pada gambar 2.3 pembuangan stopword dilakukan denganmengecek pada tabel stopword. Bila term cocok dengan salah satu isi tabel stopword, maka term tersebut dianggap sebagai stopwordakan dibuang dan tidakakan diikutkan pada proses stemming. Dari proses pembuangan stopword akan menghasilkan term tanpa stopword.
- Pembentukan Kata Dasar (Stemming)
Proses stemming adalah proses pembentukan kata dasar. Termyangdiperoleh dari tahap pembuangan stopwordakan dilakukan proses stemming.Algoritma stemming yang digunakan adalah modifikasi Porter stemmer dari(Tala, 2003). Stemming digunakan untuk mereduksi bentuk term untuk menghindari ketidakcocokan yang dapat mengurangi recall, di mana term-termyang berbeda namun memiliki makna dasar yang sama direduksi menjadi satubentuk.
Struktur pembentukan kata dalam Bahasa Indonesia adalah sebagai berikut:
[awalan-1] + [awalan-2] + dasar + [akhiran] + [kepunyaan] + [sandang]
Masing-masing bagian tersebut (yang dalam kotak bisa ada atau tidak), digabungkan dengan kata dasar membentuk kata berimbuhan.
Penggunaan algoritma stemming Tala bertujuan untuk mempercepat waktuimplementasi dan diharapkan performa yang stabil walaupun data dokumenbertambah terus. Algoritma Tala menggunakan algoritma rule based stemmingseperti halnya dengan algoritma porter pada stemming bahasa Inggris.
Pada stemmer Tala terdapat 5 langkah utama dengan 3 langkah awal dan 2 langkah pilihan, langkah-langkah tersebut sbb:
- Menghilangkan partikel.
- Menghilangkan kata sandang dan kepunyaan.
- Menghilangkan awalan 1.
- Jika suatu aturan terpenuhi jalankan sebagai berikut : Hilangkan Akhiran., Jika suatu aturan terpenuhi, hilangkan awalan 2. Jika tidakproses stemming selesai.
- Jika tidak ada aturan yang terpenuhi jalankan sebagai berikut : Hilangkan awalan 2, Hilangkan Akhiran, Proses stemming selesai.
Selain itu Tala juga membagi imbuhan menjadi 5 cluster yang nantinya digunakan untuk menghilangkan imbuhan pada setiap tahapnya.
Dapat dilihat pada gambar 2.4 tahap pertama proses stemming adalah mengecek jumlah karakter lebih besar dari 4, jika karakter lebih dari 4 akandilakukan proses menghilangkan kata sandang dan kepunyaan. Setelah prosesberhasil dilakukan akan dilanjutkan proses menghilangkan awalan. Sebelumproses menghilangkan awalan dilakukan akan dicek terlebih dahulu apakahkarakter lebih dari 3. Jika tidak maka akan disimpan sebagai kata dasar. Jikakarakter lebih dari 3 akan dicek apakah awalan adalah string “meny”, “peny” jikabenar maka dihasilkan kata dasar dengan karakter awal diganti dengan karakter“s”. Jika tidak akan dicek apakah awalan adalah string “mem”, “pem”. Jika benarmaka akan dihasilkan kata dasar dengan karakter awal diganti dengan karakter“p”. Jika awalan tidak string tersebut (meny, peny, mem, pem) maka awalan akandihilangkan dan akhir proses akan dihasilkan kata dasar.
- Aplikasi Information Retrieval System
Salah satu aplikasi dari IRS adalah mesin pencari yang dapat diterapkan di berbagai bidang. Dalam hal ini, kami menggunakan IRS untuk membuat mesin pencari dokumen perundang-undangan. Pada mesin pencari dengan IRS, user dapat memasukkan query yang bebas dalam arti kata query yang sesuai dengan bahasa manusia dan sistem dapat menemukan dokumen yang sesuai dengan query yang ditulis oleh user. Berikut tampilan awal dan halaman upload file-nya.
Berikut adalah tampilan hasil upload file ke dalam database yang sudah melalui proses Tokenisasi, Stopword Removal, dan Stemming.
BAB III
PENUTUP
- Kesimpulan
- Token adalah kata-kata yang dipisah-pisah dari teks aslinya tanpa mempertimbangkan adanya duplikasi.
- Tokenisasi adalah proses mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter tanda baca yang terdapat pada token. Hingga pada akhirnya yang diperoleh hanya kumpulan kata-kata dari suatu teks/dokumen.
- Stoplist atau stopword adalah kata-kata yang tidak deskriptif (tidak penting) yang dapat dibuang dengan pendekatan bag-of-words.
- Stopword removal disebut juga filtering, adalah tahap pemilihan kata-kata penting dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk mewakili dokumen.
- Proses stemming adalah proses pembentukan kata dasar.
- Stemming digunakan untuk mereduksi bentuk term untuk menghindari ketidakcocokan yang dapat mengurangi recall, di mana term-term yang berbeda namun memiliki makna dasar yang sama direduksi menjadi satu bentuk.
- Saran
- DAFTAR PUSTAKA
Amin, Fatkhul. 2012. Sistem Temu Kembali Informasi dengan Metode Vector Space Model. Fakultas Teknologi Informasi, Universitas Stikubank, Semarang
Wella Pudia.2017. Makalah Tentang Tokenisasi, Stopword Removal, dan Stemming. Universitas Stikubank, Semarang
eprints.unisbank.ac.id/1578/2/03_LaporanOntolog-Herny.pdf
malifauzi.lecture.ub.ac.id/files/2016/02/Text-Pre-Processing-v2.pptx