FudanNLP (FNLP)

Github 地址

主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。

fastNLP

Github 地址

中文的NLP工具包,提供多种神经网络组件以及复现模型(涵盖中文分词、命名实体识别、句法分析、文本分类、文本匹配、指代消解、摘要等任务);

Stanford CoreNLP

主页地址
是基于java的程序包,提供一系列 jar 包用于命名实体识别(NER)、共指消解(Coreference)、依赖分析

StanfordNLP

Github 地址

主要用于词法特征标记和依赖项解析,比如词性标注(POS),词元分析(Lemma), 依赖分析(dependency relation)

Pytorch-NLP

Github 地址

个人比较文本预处理工具包,可以很快将自己的新数据集转化为可以用于训练的batch,引入词向量也很方便。

Transformer

Github 地址

能够直接展示自动补全的writing是其一大特色, 可见他们的Online demo

Neural machine translation

OpenNMT

Github pytorch 地址 Github tensorflow 地址

个人感觉非常好用,不过pytorch的版本需要pytorch1.12,非CUDA 9.2以上的版本需要自己编译pytorch。

pytorch文档中直接提供了Seq2Seq以及transformer的直接使用方法【Seq2Seq Transformer】,同时还提供Image2Text,Speech2Text以及Video2Text的使用方法

tensorflow的使用方法也很直接。

FairSeq

Github 地址

Facebook AI Research 专门为 Torch定制的翻译模型,后面也开源了pytorch版本

基于卷积神经网络的翻译模型首先是Facebook提出来的,所以在这个工具包里面是满满的卷积网络

UniLM

Github 地址

当前最强的seq-to-seq的语言模型