#CKIP_Client
CKIP_Client是連接中央研究院詞庫小組研發之中文斷詞系統與中文剖析系統的Ruby程式界面。
感謝中央研究院詞庫小組多年來之研究成果!
請先至中文斷詞系統網站或中文剖析系統網站申請:帳號/密碼
再安裝本Gem
gem install ckip_client
安裝完成後至Gem所在資料夾中修改帳號密碼資料。
資料夾位置通常在:/usr/local/lib/ruby/gems/1.9.1/gems/
進入:ckip_client-0.0.5/lib/config/
於 segment.yml 檔案中輸入中文斷詞系統之帳號密碼,
於 parser.yml 檔案中輸入中文剖析系統之帳號密碼,
至此安裝設定就緒。
將文章斷詞:
CKIP.segment( text )
剖析文章:
CKIP.parser( text )
也可以讓輸出結果濾除詞性資料,在輸入時加入第二個參數 'neat'
CKIP.segment( text , 'neat' )
CKIP.parser( text , 'neat' )
文字編碼:
輸入的字串編碼可以是 UTF-8 或 Big5 或是 Big5-UAO 三種其中之一。
而輸出結果一律為 UTF-8 編碼。
require 'ckip_client'
text = File.open('text.txt').read
puts CKIP.segment( text )