論壇
門戶
內部優惠
喜歡
話題
VIP會員
搜索
新浪微博
登錄
注冊
100%
100%
首頁
>
網絡技術
>
網絡技術
>
部分常用分詞工具使用整理
回復
« 返回列表
hadoop小學生
精靈王
注冊日期
2018-09-13
發帖數
160
QQ
3234520070
火幣
360枚
粉絲
0
關注
0
加關注
寫私信
打招呼
閱讀:
1413
回復:
0
部分常用分詞工具使用整理
樓主
#
更多
只看樓主
倒序閱讀
發布于:2019-05-29 09:55
保存
100%
100%
[]
點擊進入!全天更新內部隱藏優惠券商品集
以下
分詞
工具均能在
python
環境中直接調用(排名不分先后)。
1、
jieba(結巴分詞) 免費使用
2、
hanlp
(漢語言處理包) 免費使用
3、
SnowNLP(中文的類庫) 免費使用
4、
FoolNLTK(中文處理工具包) 免費使用
5、
Jiagu(甲骨NLP) 免費使用
6、
pyltp(哈工大語言云) 商用需要付費
7、
THULAC(清華中文詞法分析工具包) 商用需要付費
8、
NLPIR(漢語分詞系統) 付費使用
1、
jieba(結巴分詞)
“結巴”
中文分詞
:做最好的 Python 中文分詞組件。
項目
Github地址:jieba
安裝
:
pip install jieba
使用
:
import jieba
jieba.initialize()
text = '化妝和服裝'
words = jieba.cut(text)
words = list(words)
print(words)
2、
HanLP(漢語言處理包)
HanLP是一系列模型與算法組成的NLP工具包,由大快搜索主導并完全開源,目標是普及
自然語言處理
在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。
項目
Github地址:
pyhanlp
安裝:
pip install pyhanlp
使用
:
import pyhanlp
text = '化妝和服裝'
words = []
for term in pyhanlp.HanLP.segment(text):
words.append(term.word)
print(words)
3、
SnowNLP(中文的類庫)
SnowNLP是一個python寫的類庫,可以方便的處理中文文本內容,是受到了TextBlob的啟發而寫的,由于現在大部分的自然語言處理庫基本都是針對英文的,于是寫了一個方便處理中文的類庫,并且和TextBlob不同的是,這里沒有用NLTK,所有的算法都是自己實現的,并且自帶了一些訓練好的字典。
項目
Github地址:snownlp
安裝:
pip install snownlp
使用:
import snownlp
text = '化妝和服裝'
words = snownlp.SnowNLP(text).words
print(words)
4、
FoolNLTK(中文處理工具包)
可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞。
項目
Github地址:FoolNLTK
安裝:
pip install foolnltk
使用:
import fool
text = '化妝和服裝'
words = fool.cut(text)
print(words)
5、
Jiagu(甲骨NLP)
基于
BiLSTM模型,使用大規模語料訓練而成。將提供中文分詞、詞性標注、命名實體識別、關鍵詞抽取、文本摘要、新詞發現等常用自然語言處理功能。參考了各大工具優缺點制作,將Jiagu回饋給
自然語言處理
2。
項目
Github地址:jiagu
安裝:
pip3 install jiagu
使用:
import jiagu
jiagu.init()
text = '化妝和服裝'
words = jiagu.seg(text)
print(words)
6、
pyltp(哈工大語言云)
pyltp 是 LTP 的 Python 封裝,提供了分詞,詞性標注,命名實體識別,
依存句法分析
,語義角色標注的功能。
項目
Github地址:pyltp,3.4模型下載鏈接:
網盤
安裝:
pip install pyltp
使用:
import pyltp
segmentor = pyltp.Segmentor()
segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路徑
text = '化妝和服裝'
words = segmentor.segment(text)
words = list(words)
print(words)
7、
THULAC(清華中文詞法分析工具包)
THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包,具有中文分詞和詞性標注功能。
項目
Github地址:THULAC-Python
安裝:
pip install thulac
使用:
import thulac
thu = thulac.thulac(seg_only=True)
text = '化妝和服裝'
words = thu.cut(text, text=True).split()
print(words)
NLPIR(漢語分詞系統)
主要功能包括中文分詞;英文分詞;詞性標注;命名實體識別;新詞識別;關鍵詞提取;支持用戶專業詞典與
自然語言處理
7分析。
NLPIR系統支持多種編碼、多種操作系統、多種開發語言與平臺。
項目
Github地址:pynlpir
安裝:
pip install pynlpir
下載證書覆蓋到安裝目錄,
NLPIR.user 例如安裝目錄:/usr/lib64/python3.4/site-packages/pynlpir/Data
使用
:
import pynlpir
pynlpir.open()
text = '化妝和服裝'
words = pynlpir.segment(text, pos_tagging=False)
print(words)
pynlpir.close()
喜歡
0
評分
0
最新喜歡:
DKHadoop用著還不錯!
回復
100%
發帖
回復
« 返回列表
普通帖
您需要登錄后才可以回帖,
登錄
或者
注冊
100%
返回頂部
關閉
最新喜歡
广东体彩26选5