AAIG-自然语言理解实验室论文被ACL 2022录用,为更鲁棒可解释的算法服务而努力!

Original AAIG 阿里巴巴人工智能治理研究中心 2023-11-28

收录于合集 #产业实践 37个

近日，ACL 2022录用结果出炉，AAIG-自然语言理解实验室论文被ACL 2022录用。以下为论文介绍以及实验室介绍：

Prototypical Verbalizer for Prompt-based Few-shot Tuning

作者：崔淦渠，胡声鼎，丁宁，黄龙涛，刘知远
类型：Long Paper
摘要：针对预训练语言模型(PLM)的提示微调(prompt-based tuning)在少次学习中十分有效。通常，提示微调会将输入文本包装成填空问题。为了做出预测，这种方法通过一个表达器(verbalizer)将输出的单词映射到标签上。该表达器可以是人工设计的，也可以是自动构建的。然而，人工表达器严重依赖于特定领域的先验知识，而自动寻找合适的标签词仍然是一项挑战，本文提出了直接从训练数据中构建的原型表达器ProtoVerb。

具体而言，ProtoVerb通过对比学习将学到的原型(prototype)向量作为表达器。通过这种方式，原型归纳了训练实例，并且能够包含丰富的类级别语义。我们在主题分类和实体分类任务上进行了实验，实验结果表明，ProtoVerb的性能明显优于现有的自动生成的表达器，特别是在训练数据极其匮乏的场景下。更令人惊讶的是，即使是在未微调的预训练语言模型上，ProtoVerb也能够提升提示微调的性能，这表明ProtoVerb也是一种优雅的非微调预训练模型利用方式。该工作与清华大学刘知远老师团队合作完成。

1
AAIG-自然语言理解实验室
致力于解决内容风控场景高对抗、强变异的语言理解难题，研究文本分类、文本抽取、文本匹配、文本生成等自然语言理解技术，落地更加鲁棒可解释的算法服务，团队提供技术已服务于集团内电商、直播、视频、新零售、健康、出行、本地生活等各类业务场景，日调用量达百亿级，自主研究成果发表于ACL、EMNLP、IJCAI、SIGIR、WWW等国际顶会，与清华、中科院、浙大、复旦等国内知名高校建立学术合作关系。
2
研究方向

🌟 低资源文本分类

低资源文本分类专注于在仅有少量样本、风险描述的情况下，使新场景新风险下的分类稳定达到可用标准，为各类场景新风险落地提供基本能力。技术方向包括弱监督学习、迁移学习、少样本文本分类、多标签文本分类等。典型的应用场景包括细粒度风险多标签分类、内容场景命中消歧和新分类扩展、新风险内容识别、国际场景新语言新分类扩展。

🌟 文本对抗还原

文本对抗还原聚焦对抗图谱的定义和构建和文本对抗的识别等核心技术，识别文本内容中的对抗情况。通过提升对抗图谱的建设能力和文本变异还原能力不断突破技术深度，提升线上风险识别能力和下游业务模型的识别准召。并最终赋能阿里集团商品、交互的内容安全场景和跨语言业务场景，输出对抗生成用于构建科学可信的评测集，建立文本对抗的业界benchmark。

🌟 多元信息抽取

多元信息抽取围绕事件抽取、实体抽取、属性情感抽取等核心技术，对来源、形式、结构多样的复杂信息进行抽取，沉淀安全内部关于抽取任务的最佳实践。在各业务点位上，使用任务转换路线的方法，进行创新性探索研究。应用场景包括属性情感计算、漏防数据风险片段抽取、知识自动生产信息抽取、订单地址风险识别、舆情事件结构化等。

🌟 基础模型可信评估

基础模型可信评估主要面向基于开发语料得到的大规模预训练模型，避免这类模型自身存在的风险传递给下游任务，主要专注于自动选择和生成评测数据并给出定量指标和统计显著性指标等。技术方向包括了文本生成、虚假新闻识别、情感识别等。在提供内容安全、红线、虚假新闻识别结果的同时输出相关模型的鲁棒性和可解释性指标，确保模型评估的客观性。应用于生成式应用的NLP接口（如文本生成等）和业务模型，对其进行风险检测和鲁棒性与可解释性的定量评估。

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

AAIG-自然语言理解实验室论文被ACL 2022录用,为更鲁棒可解释的算法服务而努力!

关注公众号发现更多干货

您可能也对以下帖子感兴趣