FudanNLP (FNLP)
主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。
fastNLP
中文的NLP工具包,提供多种神经网络组件以及复现模型(涵盖中文分词、命名实体识别、句法分析、文本分类、文本匹配、指代消解、摘要等任务);
Stanford CoreNLP
主页地址
是基于java的程序包,提供一系列 jar 包用于命名实体识别(NER)、共指消解(Coreference)、依赖分析
StanfordNLP
主要用于词法特征标记和依赖项解析,比如词性标注(POS),词元分析(Lemma), 依赖分析(dependency relation)
Pytorch-NLP
个人比较文本预处理工具包,可以很快将自己的新数据集转化为可以用于训练的batch,引入词向量也很方便。
Transformer
能够直接展示自动补全的writing是其一大特色, 可见他们的Online demo
Neural machine translation
OpenNMT
Github pytorch 地址 Github tensorflow 地址
个人感觉非常好用,不过pytorch的版本需要pytorch1.12,非CUDA 9.2以上的版本需要自己编译pytorch。
pytorch文档中直接提供了Seq2Seq以及transformer的直接使用方法【Seq2Seq Transformer】,同时还提供Image2Text,Speech2Text以及Video2Text的使用方法
tensorflow的使用方法也很直接。
FairSeq
Facebook AI Research 专门为 Torch定制的翻译模型,后面也开源了pytorch版本
基于卷积神经网络的翻译模型首先是Facebook提出来的,所以在这个工具包里面是满满的卷积网络
UniLM
当前最强的seq-to-seq的语言模型