ARSPuja Labs - Mengenal Apa Itu Stop Word, Download Stop Word List Dalam 28 Bahasa Negara
Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google. Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”. Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.
Dalam dunia pemrogramman khusunya di proses klasifikasi data, stop word sangat diperlukan yaitu digunakan stop words untuk mengurangi jumlah kata yang harus diproses. Sangat berguna untuk proses Text Mining.
Dalam sistem temu kembali informasi (Search engine, pencarian, Information retrieval), dokumen yang diretreive akan melalui proses indexing sebelum dicocokkan dengan query. Beberapa tahapan dalam indexing diantaranya adalah Tokenisasi, Pembuangan stopwords, pemotongan imbuhan (stemming), pembobotan(weighting) dan pembuatan index.
Tokenisasi berfungsi untuk memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token atau potongan kata tunggal dan pengubahan setiap kata menjadi huruf kecil(lowercase). Stemming berfungsi untuk menghilangkan variasi morfologi kata dengan cara menghilangkan imbuhan pada setiap kata. Stopwords merupakan daftar kata yg umum (kata yang mempunyai fungsi tapi tidak mempunyai arti).
Di sini kami menyediakan List Stop Word dari 28 Bahasa Negara. Seperti Bahasa Indonesia, Inggris, Argentina dan lainnya, yang langsung bisa didownload di bawah ini:
DOWNLOAD: STOP WORD LIST.rar
Silahkan gunakan sesuai kebutuhan untuk data list stop word diatas. :)
Sumber: https://sites.google.com/site/kevinbouge/stopwords-lists
#Ars #kevinbouge
Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google. Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”. Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.
source: wp.com
Dalam dunia pemrogramman khusunya di proses klasifikasi data, stop word sangat diperlukan yaitu digunakan stop words untuk mengurangi jumlah kata yang harus diproses. Sangat berguna untuk proses Text Mining.
Dalam sistem temu kembali informasi (Search engine, pencarian, Information retrieval), dokumen yang diretreive akan melalui proses indexing sebelum dicocokkan dengan query. Beberapa tahapan dalam indexing diantaranya adalah Tokenisasi, Pembuangan stopwords, pemotongan imbuhan (stemming), pembobotan(weighting) dan pembuatan index.
Tokenisasi berfungsi untuk memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token atau potongan kata tunggal dan pengubahan setiap kata menjadi huruf kecil(lowercase). Stemming berfungsi untuk menghilangkan variasi morfologi kata dengan cara menghilangkan imbuhan pada setiap kata. Stopwords merupakan daftar kata yg umum (kata yang mempunyai fungsi tapi tidak mempunyai arti).
Di sini kami menyediakan List Stop Word dari 28 Bahasa Negara. Seperti Bahasa Indonesia, Inggris, Argentina dan lainnya, yang langsung bisa didownload di bawah ini:
DOWNLOAD: STOP WORD LIST.rar
Silahkan gunakan sesuai kebutuhan untuk data list stop word diatas. :)
Sumber: https://sites.google.com/site/kevinbouge/stopwords-lists
#Ars #kevinbouge
2 komentar
terimakasih pak,
Terimakasih ilmunya
Silahkan berkomentar dengan sopan dan tidak mengandung unsur SARA sesuai topik artikel diatas. Diluar itu komentar anda akan penulis hapus. Terimakasih :)
EmoticonEmoticon