hadoop小學生
圣騎士
圣騎士
  • 注冊日期2018-09-13
  • 發帖數142
  • QQ3234520070
  • 火幣319枚
  • 粉絲0
  • 關注0
閱讀:667回復:0

NLP自然語言處理中英文分詞工具集錦與基本使用介紹

樓主#
更多 發布于:2019-05-31 11:31
一、中文分詞工具

1)Jieba

圖片:圖1.png


2)snowNLP分詞工具

圖片:圖2.png


3)thulac分詞工具

圖片:圖3.png


4)pynlpir 分詞工具

圖片:圖4.png


5)StanfordCoreNLP分詞工具
1.from stanfordcorenlp import StanfordCoreNLP
2.with StanfordCoreNLP(r'E:\Users\Eternal Sun\PycharmProjects\1\venv\Lib\stanford-corenlp-full-2018-10-05', lang='zh') as nlp:
3.    print("stanfordcorenlp分詞:\n",nlp.word_tokenize(Chinese))
6)hanlp分詞工具

圖片:圖5.png


分詞結果如下:

圖片:圖6.png


二、英文分詞工具

1. NLTK:

圖片:圖7.png


二者之間的區別在于,如果先分句再分詞,那么將保留句子的獨立性,即生成結果是一個二維列表,而對于直接分詞來說,生成的是一個直接的一維列表,結果如下:

圖片:圖8.png


2. SpaCy:

圖片:圖9.png


3. StanfordCoreNLP:

圖片:圖10.png


分詞結果

圖片:圖11.png


喜歡0 評分0
DKHadoop用著還不錯!
游客

返回頂部
广东体彩26选5