Kamis, 21 Desember 2017

Mengenal Apa Itu Stop Word, Download Stop Word List Dalam 28 Bahasa Negara

ARSPuja Labs - Mengenal Apa Itu Stop Word, Download Stop Word List Dalam 28 Bahasa Negara

Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna.  Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google.  Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”.  Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.


source: wp.com

Dalam dunia pemrogramman khusunya di proses klasifikasi data, stop word sangat diperlukan yaitu digunakan stop words untuk mengurangi jumlah kata yang harus diproses. Sangat berguna untuk proses Text Mining.

Dalam  sistem temu kembali informasi (Search engine, pencarian, Information retrieval), dokumen yang diretreive akan melalui proses indexing sebelum dicocokkan dengan query. Beberapa tahapan dalam indexing diantaranya adalah Tokenisasi, Pembuangan stopwords, pemotongan imbuhan (stemming), pembobotan(weighting) dan pembuatan index.

Tokenisasi berfungsi untuk memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token atau potongan kata tunggal dan pengubahan setiap kata menjadi huruf kecil(lowercase). Stemming berfungsi untuk menghilangkan variasi morfologi kata dengan cara menghilangkan imbuhan pada setiap kata. Stopwords merupakan daftar kata yg umum (kata yang mempunyai fungsi tapi tidak mempunyai arti).

Di sini kami menyediakan List Stop Word dari 28 Bahasa Negara. Seperti Bahasa Indonesia, Inggris, Argentina dan lainnya, yang langsung bisa didownload di bawah ini:

DOWNLOAD: STOP WORD LIST.rar

Silahkan gunakan sesuai kebutuhan untuk data list stop word diatas. :)



Sumber: https://sites.google.com/site/kevinbouge/stopwords-lists

#Ars #kevinbouge

2 komentar


Silahkan berkomentar dengan sopan dan tidak mengandung unsur SARA sesuai topik artikel diatas. Diluar itu komentar anda akan penulis hapus. Terimakasih :)
EmoticonEmoticon