TensorLayerX的自然语言处理算法库,拥有覆盖多场景的模型库、简洁易用的API与兼容多种硬件的部署能力,旨在为开发者提升文本领域建模效率,并提供在多种计算平台上的NLP领域最佳实践。
文本分类(Text Classification)是自然语言处理中最基础的任务之一,它是指用计算机算法对将文本序列按照一定的分类体系或标准进行自动分类标记。比如在IMDB电影评论数据集上训练的文本分类模型,可以将一段电影评论文本归类为好评、差评两种类型。
TensorLayerX提供了预训练的文本分类模型:
条件文本生成(Conditional Text Generation)任务,是指在给定原文本序列x的前提下,最大化与目标文本序列y的似然值。诸如语言模型、机器翻译、文本摘要这类任务都可以被归纳为条件文本生成。
TensorLayerX提供了最新的条件文本生成方法,可以用于机器翻译、文本摘要等任务:
文本标记识别(Text Token Classification)是将标签分配给文本中的某些标记(token)。一些常用的标记识别子任务是命名实体识别 (NER) 和词性 (PoS) 标记。可以训练 NER 模型来识别文本中的特定实体,例如日期、个人和地点;例如,词性标注可以识别文本中的哪些词是动词、名词和标点符号。
TensorLayerX提供了最新的文本标记识别算法: