Sastrawi Tokenizer adalah library PHP untuk melakukan tokenization pada Bahasa Indonesia.
Saya sedang belajar NLP Bahasa Indonesia.
Text di atas dapat di-tokenize menjadi:
["Saya", "sedang", "belajar", "NLP", "Bahasa", "Indonesia", "."]
- Library PHP untuk melakukan tokenization pada Bahasa Indonesia.
- Mudah diintegrasikan dengan framework / package lainnya.
- Mempunyai API yang sederhana dan mudah digunakan.
http://sastrawi.github.io/tokenizer.html
Sastrawi Tokenizer dapat diinstall dengan Composer.
- Buka terminal (command line) dan arahkan ke directory project Anda.
- Download Composer sehingga file
composer.phar
berada di directory tersebut. - Tambahkan Sastrawi Sentence Detector ke file
composer.json
Anda :
php composer.phar require sastrawi/tokenizer:0.*
Jika Anda masih belum memahami bagaimana cara menggunakan Composer, silahkan baca Getting Started with Composer.
Copy kode berikut di directory project anda. Lalu jalankan file tersebut.
<?php
// demo.php
// include composer autoloader
require_once __DIR__ . '/vendor/autoload.php';
$tokenizerFactory = new \Sastrawi\Tokenizer\TokenizerFactory();
$tokenizer = $tokenizerFactory->createDefaultTokenizer();
$tokens = $tokenizer->tokenize('Saya membeli barang seharga Rp 5.000 di Jl. Prof. Soepomo no. 67.');
var_dump($tokens);
Sastrawi-tokenize CLI membaca teks dari STDIN dan menulis token-tokennya ke STDOUT.
$ echo Saya sedang belajar NLP Bahasa Indonesia. | php vendor/bin/sastrawi-tokenize
Untuk menampilkan bantuan:
$ php vendor/bin/sastrawi-tokenize --help
Sastrawi Tokenizer dirilis di bawah lisensi MIT License (MIT). Library ini memuat daftar singkatan Bahasa Indonesia dengan lisensi Creative Common BY SA yang bersumber dari http://id.wiktionary.org/wiki/Wiktionary:Daftar_singkatan_dan_akronim_bahasa_Indonesia.