1、NLTK(自然语言工具包)用于分词、词形还原、词干提取、解析、句法分析、词性标注等任务。该库具备可用于几乎所有NLP任务的工具。
2、spaCy是NLTK的主要竞争者。这两个库可用于同样的任务。
3、scikit-learn提供一个用于机器学习的大型库,包含用于文本预处理的工具。
4、gensim是用于话题空间建模、向量空间建模和文档相似度的工具包。
5、Pattern库是作为web挖掘模块提供服务的,因此,它也支持NLP任务。
6、polyglot是另一个用于NLP的Python包。它不是很流行,但也可以用于大量NLP任务。