赛事一览
预训练语言模型应用调优算法
  • 报名开始时间 2022-08-06
  • 报名结束时间 2022-10-07
  • 总奖金池 ¥1000000

一、项目概况

1、大赛介绍:

  • 数字经济时代,算法作为一种战略性科技要素已成为推进数字技术与实体经济深度融合的核心支撑。为发挥国家实验室作用,推动粤港澳大湾区大数据与人工智能算法生态体系建设,琶洲实验室(黄埔)受广州市黄埔区政府委托,自2022起创办《粤港澳大湾区(黄埔)国际算法算例大赛》(以下简称“大赛”),旨在打造大湾区首个以算法为主题的国际型竞赛,以此推动原始创新, 并带动数字经济的高质量发展。

  • 大赛以当前数字技术发展趋势和现实应用需求为牵引,面向全国遴选优质算法、汇聚全球高精尖技术、招揽国际算法高端人才。大赛坚持以科学性、引领性、实用性为原则,聚焦大数据、人工智能、物联网、云计算、元宇宙等新一代数字技术和互联网+、智能+等数字经济场景。 大赛采取每年聚焦不同主题的方式开展。首届算法大赛聚焦后深度学习时代AI 基础算法和智慧城市、智能制造等领域内的行业算法场景。

 

2、大赛赛程安排:

2022年7月20日-11月15日

  • 07月20日:开启预报名

  • 08月06日10:00:大赛正式开启报名,下载数据集,线下开发

  • 08月16日10:00:【初赛A榜】开始提交验证集测试结果CSV文件

  • 10月07日10:00:大赛截止报名

  • 10月07日12:00:【初赛A榜】截止提交结果

  • 10月8日10:00-10月12日12:00:前20名的参赛队伍到【初赛B榜】提交Docker文件(提交格式见赛题说明)

  • 10月13日-10月23日:进行成绩审核及复现

  • 10月24日(待定,根据测评进度):【初赛B榜】结果宣布。任务前14名进入决赛阶段(擂台赛)

  • 10月25日-11月01日:出题方提供决赛数据。任何一只决赛队伍均可申请成为新擂主,并提供数据集,主办方进行审核并统一发布

  • 11月1日10:00-11月6日18:00:公布训练集,选手线下训练并提交文件(1次)

  • 11月7日-11月17日:评测组使用新的测试集进行测评及审核成绩

  • 11月底:决赛答辩

 

3、大赛参赛人员

大赛面向全社会开放,个人、高等院校、科研单位、企业、创客团队等人员均可报名参赛;

每位选手仅能加入一支参赛队伍,每只队伍组队上限5人。

注:(1)大赛组织机构单位中除了擂台赛,涉及题目编写、数据接触的人员禁止参赛;

     (2)主办方和竞赛制赛道出题方可参赛,不参与排名。

 

“关于组队”

您需要以团队为单位来参与竞赛,即便您是单人参赛也需要创建一支队伍。

组队详情:点击https://www.cvmart.net/document


 

4、报名须知:

1)在琶洲实验室(黄埔)官方活动页面https://iacc.pazhoulab-huangpu.com/进行报名参赛,后登录注册极市平台进行下载数据集,线下开发后提交CSV格式预测结果文件;

2)确保报名信息真实有效,一经发现,将取消参赛资格及激励;

3)参赛必读手册:https://www.cvmart.net/community/detail/6631 

4)大赛官方微信群,扫码加入社群,及时获取大赛信息

 

二、赛制设置

1、擂台制赛道介绍

  • 擂台赛赛道瞄准解决国家重大需求的基础算法,聚焦后深度学习的人工智能及相关领域的核心问题,驱动人工智能及相关学科领域的关键技术发展。擂台制赛道由大赛组织方邀请领域内的顶尖专家教授作为赛题定义者,从学术前瞻性及未来人工智能相关学科的发展趋势出发,根据学术领域的研究与认知,设计具有科学性和前瞻性的赛题,面向全世界遴选优质算法,打造全球人工智能算法高地。

  • 擂台制赛道分为初赛和决赛两个个阶段,擂主直接进入复赛。初赛由开发者下载数据集进行线下开发,决赛擂主将于入围14名选手共同进行开发,为体现赛事公平性,将统一征集相关赛题数据集,增加应用场景,进行决赛角逐。

 

2、赛题介绍

本擂台赛聚焦大规模预训练语言模型的调优,要求参赛队伍仅在调用预训练语言模型推理能力的前提下,针对6个自然语言理解相关的小样本学习任务进行模型调优。

 

3、赛题比赛规则

大赛分为初赛和决赛两个比赛环节。

 

- 线下初赛

初赛时间:2022年8月6日至2022年10月07日

初赛形式:初赛分为A、B榜。

【初赛A榜】

选手通过赛题页-数据集,下载竞赛训练数据集,基于竞赛数据集在本地进行算法训练开发;本地开发完成后,选手将预测结果写入CSV文件中,然后上传提交至平台;

【初赛B榜】

A榜前20名队伍将Docker文件以及模型参数上传链接,写进TXT文件中打包成zip包提交,由主办方进行评测并公布B榜排位结果。

 

- 线下决赛 

决赛时间:2022年11月1日-11月15日

决赛形式

【擂台赛】

  • 决赛采取擂台赛的形式,首先由出题方(擂主)提供之前未公开、与初赛同类型的数据进行算法设计与评测,参赛队伍在该数据上进行测试并排位。

  • 同时,任何决赛参赛队伍均可申请成为新擂主,并发布相应的训练集、验证集进行擂台赛,所有队伍在新擂主发表的数据集上重新测试并进行排位。决赛队伍也可不申请成为擂主,仅参加别的擂主发布的数据赛题进行比赛评测。

 

 

4、注意事项

  • 初赛完毕后即决出最终入围决赛排名。排名前20的队伍进入【决赛榜】上传模型及前向代码zip包,组委会进行结果复现,没有作弊行为的前14名将入围决赛。

  •  初赛前14名及决赛前8名的队伍,需要向主办方提供完整的训练与测试代码、模型参数以及详细的训练流程说明(包括GPU设置,数据使用情况、模型情况、训练参数设置、训练流程等,打包成docker)进行官方复现与测试,并能在合理的时间内完成复现。在主办方进行代码测试和复现过程中,相关的队伍有义务配合主办方进行代码复现(包括合成数据的复现)。无法提供代码进行测试及复现的队伍、或不配合进行代码测试及复现的队伍,将被取消获奖资格。

  • 各决赛参赛队伍提交的代码和数据的版权归各相应提供方所有。

  • 若发现有队伍存在违规作弊行为,决赛名额以及最终排名依照综合性能指标顺延。

  • 违规作弊行为包括但不限于:

    • 模型代码与文档描述不符

    • 提交代码无法复现出评测结果

    • 利用测试集训练模型

    • 违规使用私有数据集进行训练

    • 违规使用私有数据集进行数据合成

    • 其它存在违反本次比赛规则的行为


一、背景及意义   

  • 近年来,预训练语言模型极大地推动了自然语言处理领域的发展。随着预训练语言模型规模的增长,人们发现在很多任务上,仅通过少量标注样本即可取得不错的性能。然而,由于大规模语言模型的运行成本高,以及出于商业盈利考虑,许多大规模语言模型的参数并不公开,而是通过开放模型推理API的形式向用户提供服务,我们将这一场景称为“语言模型即服务”(Language-Model-as-a-Service, LMaaS)。在LMaaS场景下,用户无法得到预训练语言模型的参数和梯度,仅能得到调用推理API的反馈结果。因此,如何仅通过调用语言模型推理API来完成常见的自然语言处理任务成为一个重要的研究方向。由于仅依赖服务方提供模型推理算力,避免了反向传播,因而这种方式极大地降低了模型优化成本,对大规模预训练模型的实际落地具有重要意义。

  • 在LMaaS场景下,可以通过设计提示语(Prompt)来驱动语言模型得到答案。例如,对于情感分析任务,要分类一条样本“这部电影太赞了!”的情感极性,我们可以添加例如“这部电影太赞了!这句话的情感倾向是”的提示语来得到语言模型的预测结果。通过比较语言模型预测“正向”和“负向”的概率大小即可得到该样本的情感极性。此外,上下文学习、基于特征的学习、数据集生成等方法也被用于LMaaS场景(相关文献参见https://github.com/txsun1997/LMaaS-Papers)。最近,复旦大学、华东师范大学、鹏城实验室的团队提出了黑箱优化(Black-Box Tuning)方法,使用无梯度优化方法来优化连续提示语(Continuous Prompt),在多个语言理解任务的少样本学习场景下取得了与梯度下降可比的效果。

 

二、赛题描述

  1. 参赛者需要在仅调用预训练语言模型推理能力的前提下完成若干小样本学习任务。

  2. 具体地,假设预训练模型推理函数为其中预训练模型的推理过程为黑箱函数(即模型参数不公开),为提示语(Prompt), 为待推断样本。

  3. 给定少量带标签训练样本,参赛者需设计算法来根据推理结果优化提示语,即:

  4. 其中为样本标签,为损失函数。参赛者可以使用提供的少样本验证集{},对所优化的提示语进行选择,最终对每个任务提交一个提示语进行测试集评测。

  5. 本次比赛中使用的预训练语言模型接受离散和连续两种形式的提示语。

  6. 注意,本次比赛中每个任务内所有样本使用相同的提示语,不支持为每个样本单独设置提示语。

  7. 参赛者须使用指定的开发环境及其中包含的预训练语言模型推理接口(API),该接口形式如下:

其中返回值包括

  • :预训练语言模型在词表上的预测结果,形状为

  • :每一层预训练语言模型的隐状态以及输入层的词嵌入,形状为

输入参数包括:

  • :参赛者需要优化的变量,允许两种形式:

1)离散的自然语言提示语,长度小于128的词元(Token)列表;

2)连续的提示语参数,可以仅提供输入层的连续提示,形状为,也可以提供每一层输入的连续提示,形状为.

  • :少量文本形式的训练样本。

prompt = random.randn(50, hidden_dim)   // 随机初始化提示语 best_performance = 0   // 初始化最优性能 budget = 10000   // 设置迭代轮数 best_prompt = None   // 初始化最佳提示语为空 for i in range(budget):   // 开始优化迭代 logits, hidden_states = lm_forward_api(prompt, train_data_x)   // 调用模型推理API得到预测结果及隐状态 loss = loss_func(logits, train_data_y)   // 计算损失函数值 prompt = update(loss, hidden_states)   // 根据当前损失函数值(及隐状态)更新提示语 if i % valid_every == 0:   // 验证集测试提示语性能 logits, hidden_states = lm_forward_api(prompt, dev_data_x)   // 调用模型推理API得到验证集预测结果 performance = metric(logits, dev_data_y)   // 根据预测结果计算准确率或F1分数 if performance > best_performance:   // 更新最优性能及最优提示语 best_prompt = prompt                  best_performance = performance

 

 

三、参赛规则

1、初赛规则:

  • 参赛者需下载初赛阶段的开发环境,其中包含6个自然语言理解任务,每个任务包含5组训练数据及其对应的验证集数据。

  • 针对每组训练数据,参赛者可以调用开发环境中提供的语言模型推理API来得到语言模型在这组训练数据上的预测结果,通过比较,与标签来评估当前提示语的质量。

  • 参赛者需通过不断调用模型推理API来优化针对各组训练数据的提示语,并使用对应的验证集选择最优的提示语,最终每个任务得到5个经优化的提示语,最终,参赛者需为每一任务使用在5组数据上优化得到的5个提示语进行测试集预测,并将预测结果提交测试。

  • 官方代码:https://github.com/Hzfinfdu/PLMTuningCompetition

 

2、决赛规则:

  • 参赛者需下载决赛阶段的开发环境,其中包括情感分析、话题分类、句对分类三类任务,每一任务包含与初赛阶段不同的数据集,每个任务包含5组训练数据和验证数据。

  • 参赛者可使用与初赛相同的流程进行提示语调优和选择,最终为每个任务提交一个提示语进行测试集评测。决赛数据集相关信息待初赛结束后公布。决赛阶段采用未公开的预训练模型,仅公开模型架构类型和预训练任务,不公开模型代码、参数及具体结构,参赛者仅可调用环境提供的黑箱推理API来获得模型推理结果。

    注意事项:

        比赛任务仅为测试算法设计的通用性,参赛者须使用统一的优化算法在所有任务上进行提示语调优,不得为每一任务单独开发特定算法。

    1. 参赛者仅被允许使用开发环境所提供的训练样本和验证集样本对提示语进行优化和选择,任何使用额外带标签数据的行为被视为作弊并取消参赛资格。

    2. 参赛者被允许使用公开预训练模型(参数不多于500M且不得使用RoBERTa)进行数据增强(例如扩充上下文学习候选集)、离散提示语生成、提示语预训练等技术来对提示语进行优化,但不得改变或增加指定的带标签训练及验证数据。

    3. 初赛阶段公开数据加载代码及预训练语言模型代码和参数,但仅用以帮助参赛者理解模型推理过程,参赛者不得对数据加载代码及模型代码进行任何修改,也不得使用除环境提供推理API返回结果外的任何模型信息进行提示语调优(如直接为目标预训练模型进行提示语预训练),一经发现,取消进入决赛资格。在决赛阶段,不再公开模型代码和参数,但基本逻辑与初赛公开的代码保证一致,仅公开训练样本。

 

四、算法输入输出需求     

面向“语言模型即服务”场景的大规模预训练模型调优算法。

输入:提示语(连续或离散)、少样本训练集和验证集。

输出:优化后的提示语。

目标:找到能在验证集上取得较高准确率的提示语。 

 

五、数据集说明     

本阶段评测任务包括六个自然语言理解数据集:

  1. SST-2:SST (Stanford Sentiment Treebank) 是一个带有情感标注的电影评论数据集,本次比赛从中随机抽取5个子集构成5个少样本学习数据集,模型需要对其中的每一个样本预测其情感极性为正向还是负向。

  2. Yelp:Yelp情感分析数据集基于Yelp网站上的评论构建,其中一星和二星评论被标注为负向,三星和四星评论被标注为正向,本次比赛从中随机抽取5个子集构成5个少样本学习数据集,模型需要对其中的每一个样本预测其情感极性为正向还是负向。

  3. AG’s News:AG’s News话题分类数据集中包括从超过两千个新闻源中收集的大量新闻语料,本次比赛从中随机抽取5个子集构成5个少样本学习数据集,模型需要对其中的每一个样本预测其话题类别为世界、体育、商务还是科技。

  4. TREC:TREC (Text REtrieval Conference)是一个问题分类数据集,包括6个一级标签和47个二级标签,本次比赛从中随机抽取5个子集构成5个少样本学习数据集,模型需要对其中的每一个样本预测其问题类别为描述、实体、简称、人文、数字还是位置。

  5. MRPC:MRPC (Microsoft Research Paraphrase Corpus)是一个句对分类数据集,其中包括从网络新闻抽取得到的句对,每一句对被人工标注为语义等价或不等价,本次比赛从中随机抽取5个子集构成5个少样本学习数据集,模型需要对其中的每一条样本中的句对预测其语义关系为等价还是不等价。

  6. SNLI:SNLI (Stanford Natural Language Inference)是一个自然语言推理数据集,其中每条样本包括两段短文本,这些文本对被标注为蕴含、矛盾或中性,本次比赛从中随机抽取5个子集构成5个少样本学习数据集,模型需要对其中的每一条样本预测其标签。

    以上比赛数据集的统计信息如下表:

任务

数据集

类别数

训练集

验证集

情感分析

SST-2

2

32 * 5

32 * 5

Yelp

2

32 * 5

32 * 5


话题分类

AG’s News

4

32 * 5

32 * 5

TREC

6

48 * 5

48 * 5


句对分类

MRPC

2

32 * 5

32 * 5

SNLI

3

48 * 5

48 * 5


以上数据集的训练集和验证集中各类别样本数目均相等,且训练集同时作为上下文学习(In-Context Learning)的候选集,测试集不公开,参赛者须使用指定工具生成测试集预测结果并提交评测。每一数据集上的模型得分为5组结果的平均,每组结果为使用一个子集优化得到的提示语的预测结果。

数据集

样本

标签

SST-2

contains no wit , only labored gags

negative

Yelp

Best breakfast spot in the area, If you like diner food it is the place to go…

positive

AG’s News

Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Street's dwindlingband of ultra-cynics, are seeing green again.

business

TREC

What sprawling U.S. state boasts the most airports ?

location

MRPC

Sentence1: Amrozi accused his brother , whom he called " the witness " , of deliberately distorting his evidence .

Sentence2: Referring to him as only " the witness " , Amrozi accused his brother of deliberately distorting his evidence .

equivalent

SNLI

Premise: This church choir sings to the masses as they sing joyous songs from the book at a church.

Hypothesis: The church has cracks in the ceiling.

neutral

 

六、提交结果

1、【初赛A榜】

提交格式:CSV预测文件

开始提交时间:8月16日

提交内容:比赛过程中,参赛者通过开发环境提供的测试集评测工具对经优化的提示语进行评测并得到测试集预测CSV文件。对于每一数据集,参赛者须分别使用其中的5组少样本数据集优化得到的提示语来生成预测结果,因而最终每一数据集须提交5组CSV预测文件。

参赛者每天可提交两次测试集预测CSV文件并获得测试分数,每次至少须提交一个数据集上的所有子集生成的CSV预测文件(5个),至多可以提交所有数据集上的CSV预测文件,即6*5=30个CSV预测文件。

提交次数:每天2次

2、【初赛B榜】

提交格式:云盘链接zip包

提交选手:排行榜前20名

提交内容

1. Docker文件(含运行环境、代码、模型checkpoint等)
2. 实验报告(含算法描述、代码描述、复现步骤、实验结果、算法运行时间、额外数据使用情况、额外模型来源及使用情况)
如有必要,参赛者需配合主办方完成代码复现

将以上内容全部上传至云盘并将链接写进txt文件中,打包成zip包,提交至初赛B榜

提交次数:1次

初赛B榜审核群:扫码添加极市小助手极小新企业微信进入初赛B榜审核群

3、【决赛A榜】:同初赛A榜

4、【决赛B榜】:同初赛B榜

 

六、评测标准

参赛者每个数据集的分数为提交的5个CSV预测文件的平均分数,参赛者最终综合性能指标为所有数据集的平均得分。对于MRPC和TREC我们使用F1作为性能指标,其他数据集使用准确率作为性能指标。

初赛阶段:

根据参赛者提交的测试集预测文件进行性能评测,得到综合性能指标,排名前14名的队伍在通过代码检查确保无违规作弊行为后进入决赛,若发现有队伍存在违规作弊行为,决赛名额依照综合性能指标顺延。

决赛阶段:

根据参赛者提交的测试集预测文件进行性能评测,得到综合性能指标,排名前8名的队伍在通过代码检查确保无违规作弊行为后进入答辩环节,

评测委员会将根据参赛者的技术思路和决赛性能指标进行综合评分,评选出最终获奖队伍。