特斯联:打造普惠AI 自训练学习算法让机器“听得懂”

文章正文
发布时间:2024-07-31 16:55

【环球网科技报道 记者 林迪】“自然语言处理( NaturalLanguage Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向,广泛应用于机器翻译、舆情监测、观点提取、语音识别等场景。自然语言处理技术在发展过程当中长期面临着包含内容的有效界定、不规范输入等在内的技术难点。”近日,特斯联相关技术负责人对记者表示, NLP自训练学习算法可降低人工参与,让机器“听得到”,更“听得懂”。

据介绍,特斯联所打造的科创中心致力于通过弱监督大模型训练体系及联邦学习安全训练体系,向不具备AI能力或弱AI能力的用户提供AI算法孵化服务能力。目前针对计算机视觉、自然语言处理、推荐预测、知识图谱四个方向共十三个细分项,特斯联与学术生态及产业合作伙伴已展开深入合作。在自然语言处理方向,特斯联打造了基于对比学习与自监督的NLP自训练学习算法,通过自监督的预训练算法、特征表示学习算法,及自训练系统,解决上述挑战。   

具体来看,特斯联核心算法团队基于数千项目的业务数据,提出了基于自监督的预训练算法、特征表示学习算法,及自训练系统,最大限度从领域数据、大量无标签数据、已有无标签样本、已知标签样本特征中,挖掘潜在内嵌信息,反哺到未知标签数据上,减少人工干预,提升学习效率。

在自监督的预训练算法方面,特斯联通过对自有数千项目生产的数据进行提取,获得大量无标签数据,并基于bert模型实行自监督无人工干预的预训练,让bert模型深入地学习到领域内知识,从而保证模型得到领域内数据更精确的特征表示。然后,算法将所有训练集和测试集的数据去掉标签,并结合所有未标注的数据,进入预训练模型实行自监督预训练,让预训练模型更充分学习到任务数据的内在语义特征,更精准地预测无标签数据。

在特征表示学习算法方面,特斯联提出通过一个改进的全局特征相似度,充分挖掘样本特征内在的联系和表示,从而构建捕捉样本间细粒度特征的学习模块。

特征表示学习算法模型主要采用bert、roberta、macbert,其base和large模型级联分别对应如图GPU1、GPU2、GPU3,得到输出的embedding特征表示为E1、E2、E3。GPU0部分为bert、roberta、macbert模型级联,使用fgm对抗性训练技术,最终得到输出embedding特征表示为E0。这里使用stacking的集成学习思想,结合四种特征表示concat(E0,E1,E2,E3),再进入分类器得到模型输出,让特征的表示更加丰富,融合各模型知识,以不同的视角去获得特征表示,以此为后续的任务提供更有效的支持。

在自训练系统方面,自训练系统为一个自监督训练系统,其流程分为两个阶段:第一阶段,采用自监督对比学习技术,充分利用无标签数据进行自监督训练,让模型清晰地表达现有数据;第二阶段,使用少量带标签数据对模型微调,让模型在任务数据上达到较好效果。

为进一步提升模型的性能,特斯联对于已收集到的大量无标签数据,也可使用微调后的模型对无标签数据生成标签。这里可通过设定阈值限制选择高置信度的标签,将这些标签混合原始的标注数据继续微调模型,进一步提升模型性能。

据上述技术负责人介绍,自监督训练系统解决了标注数据不足,少标签数据的问题,可在极少人工干预的情况下,让不懂AI算法的人员训练出属于自己的AI模型。

在人机对话系统的实践中,大量算法需要首先进行用户的意图识别,但用户的许多意图数据量很少,难以对用户各个意图进行大量的数据标注。这在实际的工业落地中是一个极大的挑战,也是NLP自训练学习算法可以发挥作用的场景。

特斯联NLP自训练学习算法可帮助厂家将此产业难题分解为几个pipeline式的子问题,逐一解决。

据了解,厂家可先从对话系统中搜集大量未标注的用户对话语料,然后根据特斯联九章算法赋能平台提供的指标选择训练模型和训练目标,直接使用无标注的语料开启预训练。在开启预训练流程后,NLP自训练学习算法会自动挖掘用户各个意图之间的语义相关联系和区别,学习界定各个不同意图的边界方法,充分捕捉用户输入的潜在语义表达。完成预训练流程后,NLP自训练学习算法会自动使用未标注语料,进行自监督的对比学习训练,进一步学习区分不同用户输入和意图。随后的下游任务训练流程,仅需要对用户对话语料数据进行少量的标注,配合半监督技术进行下游的微调训练。待训练完成后,即可获得最终的意图识别模型,帮助满足诸如人机对话、机器人文本客服、机器人语音客服等实际工业场景中的需求。

最后,该技术负责人指出,随着技术的不断迭代,自然语言识别的能力也已从“让机器听得到”发展到了“让机器听得懂”的阶段,未来突破的方向则是让机器不仅能够“听得懂”还能“做得到”,这离不开整个产业的共同努力。“借由科创中心,特斯联希望打造流程化、低门槛的AI基础设施,使各细分领域的玩家可以共同站在当前AI发展的成果的基础之上,探索更前沿的创新,使人工智能技术真正高效地参与到产业实践当中。”

首页
评论
分享
Top