赛事一览
数据选择与标记校正算法设计
  • 报名开始时间 2022-08-06
  • 报名结束时间 2022-10-07
  • 总奖金池 ¥1000000

一:项目概况

1、大赛介绍:

  • 数字经济时代,算法作为一种战略性科技要素已成为推进数字技术与实体经济深度融合的核心支撑。为发挥国家实验室作用,推动粤港澳大湾区大数据与人工智能算法生态体系建设,琶洲实验室(黄埔)受广州市黄埔区政府委托,自2022起创办《粤港澳大湾区(黄埔)国际算法算例大赛》(以下简称“大赛”),旨在打造大湾区首个以算法为主题的国际型竞赛,以此推动原始创新, 并带动数字经济的高质量发展。

  • 大赛以当前数字技术发展趋势和现实应用需求为牵引,面向全国遴选优质算法、汇聚全球高精尖技术、招揽国际算法高端人才。大赛坚持以科学性、引领性、实用性为原则,聚焦大数据、人工智能、物联网、云计算、元宇宙等新一代数字技术和互联网+、智能+等数字经济场景。 大赛采取每年聚焦不同主题的方式开展。首届算法大赛聚焦后深度学习时代AI 基础算法和智慧城市、智能制造等领域内的行业算法场景。

 

2、大赛赛程安排:

2022年7月20日-11月15日

  • 07月20日10:00:大赛开启预报名

  • 08月06日10:00:初赛正式开赛,数据集发布,下载数据集线下开发

  • 08月16日10:00:【初赛A榜】正式开始提交测试结果NPY文件在

  • 10月07日10:00:大赛截止报名

  • 10月07日12:00:【初赛A榜】截止提交结果

  • 10月08日10:00-10月12日12:00:前20名的参赛队伍到【初赛B榜】提交Docker文件链接

  • 10月13日-10月21日:进行成绩审核及复现

  • 10月25日(待定,根据评测进度):【初赛B榜】结果宣布。任务前14名进入决赛阶段(擂台赛)

  • 10月25日-11月01日:出题方提供决赛数据。任何一只决赛队伍均可申请成为新擂主,并提供训练集、测试集,主办方进行审核并统一发布

  • 11月01日-11月06日:公布训练集,选手线下训练并提交文件

  • 11月7日-11月17日:评测组使用新的测试集进评测及审核成绩

  • 11月底:大赛决赛及答辩

 

3、大赛参赛人员

大赛面向全社会开放,个人、高等院校、科研单位、企业、创客团队等人员均可报名参赛;

每位选手仅能加入一支参赛队伍,每只队伍组队上限5人。

注:(1)大赛组织机构单位中除了擂台赛,涉及题目编写、数据接触的人员禁止参赛;
     (2)主办方和竞赛制赛道出题方可参赛,不参与排名。

 

“关于组队”

您需要以团队为单位来参与竞赛,即便您是单人参赛也需要创建一支队伍。

组队详情:点击https://www.cvmart.net/document


 

4、报名须知:

1)在琶洲实验室(黄埔)官方活动页面进行报名参赛,后登录平台进行下载数据集,线下开发后提交NPY预测结果文件;

2)确保报名信息真实有效,一经发现,将取消参赛资格及激励;

3)参赛必读手册:https://www.cvmart.net/community/detail/6631

4)大赛官方微信群,扫码加入社群,及时获取大赛信息

 

二、赛制设置

1、擂台制赛道介绍

  • 擂台赛赛道瞄准解决国家重大需求的基础算法,聚焦后深度学习的人工智能及相关领域的核心问题,驱动人工智能及相关学科领域的关键技术发展。擂台制赛道由大赛组织方邀请领域内的顶尖专家教授作为赛题定义者,从学术前瞻性及未来人工智能相关学科的发展趋势出发,根据学术领域的研究与认知,设计具有科学性和前瞻性的赛题,面向全世界遴选优质算法,打造全球人工智能算法高地。

  • 擂台制赛道分为初赛和决赛两个个阶段,擂主直接进入决赛。初赛由开发者下载数据集进行线下开发,决赛擂主将与入围14名选手共同进行开发,为体现赛事公平性,将统一征集相关赛题数据集,增加应用场景,进行决赛角逐。

 

2、赛题介绍

本次比赛要求参赛者能够查阅相关资料,结合低质数据(特别是蕴含噪音标记数据)的特点,发展尽可能高效、简洁、对多种异源任务适用的数据选择和标记校正算法,特别是期望所研发算法能够具有良好的有效数据遴选与错误标记校正功能,进而使得训练而得的深度网络模型对测试数据具有良好的泛化预测能力。

 

3、赛题比赛规则

大赛分为初赛和决赛两个比赛环节。

 

- 线下初赛

初赛时间:2022年8月6日-10月07日

初赛形式:初赛分为A、B榜。

【初赛A榜】

选手通过赛题页-数据集,下载竞赛数据集,基于竞赛数据集在本地进行算法训练开发;本地开发完成后,选手将预测结果写入NPY文件中,然后上传提交至平台;结果提交截止后排名前20名进入【初赛B榜】

【初赛B榜】

A榜前20名队伍将【Docker文件以及模型参数】上传云盘链接,将链接写进txt文件打包成zip包提交,由主办方计算惩罚项得分,并算出最后的得分。选取分数最高的14支队伍进入决赛。

 

- 线下决赛 

决赛时间:2022年11月1日-11月15日

决赛形式:

【擂台赛】

决赛采取擂台赛的形式,首先由出题方(擂主)提供之前未公开、与初赛同类型的数据进行算法设计与评测,参赛队伍在该数据上进行测试并排位。同时,任何决赛参赛队伍均可申请成为新擂主,并发布相应的训练集、验证集进行擂台赛,所有队伍在新擂主发表的数据集上重新测试并进行排位。决赛队伍也可不申请成为擂主,仅参加别的擂主发布的数据赛题进行比赛评测。

 

-答辩环节:

本赛道为科学性算法设计赛道,着重于考察算法的基础性、原创性、理论性与深刻性,【决赛B榜】参赛队员提交竞赛方法描述(PDF、PPT)评测委员会将根据参赛者的技术思路、理论深度、决赛实验效果进行综合评分。

 

4、参赛须知

1) 本竞赛仅可使用比赛主办方与擂主提供的数据,不得使用私有数据进行训练和数据合成。

2)初赛A榜,每支队不限制提交次数,初赛B榜仅可提交1次。算法效果得分取各队伍最佳的成绩进行排序给出。

3) 决赛参赛擂主必须按照本次竞赛设置提供训练任务,而且必须在指定时间内依照主办方要求提供训练任务所需的数据、基准代码及相关介绍,由主办方审核进行统一发布。

4)各队伍参赛者需按照比赛要求,并参考提供的结果提交示例,规范算法结果。评测委员会依此计算最终算法效果得分。因提交不规范导致无参赛成绩者自行负责。

5)本赛道为科学性算法设计赛道,着重于考察算法的基础性、原创性、理论性与深刻性,因此除考察算法效果外,比赛最总得分会将算法科学性、算法成本、算法效率、算法实际可行性、算法可复现性纳入考量,具体比赛评分细则和量化指标请参考比赛评价指标。

6)参赛队伍需保证提交的模型参数和对训练数据集的校正标记由提交的训练代码训练获得、对测试集的预测标记由提交模型测试获得。在主办方进行代码测试和复现过程中,相关队伍有义务配合主办方进行代码复现。无法进行代码复现的队伍或不配合进行代码测试和复现的队伍将被取消获奖资格。

7)各决赛参赛队伍提供的代码和数据的版权归各相应提供方所有。

8)若发现有队伍存在违规作弊行为,决赛名额以及最终排名依照比赛评价指标顺延。

9)决赛要求用初赛阶段提出的算法在决赛的任务上进行训练和测试,原则上决赛与初赛使用的算法应一致,差异较大的取消比赛资格。


一、背景及意义

  • 近年来,以深度学习为代表的机器学习算法在诸多应用领域取得了令人瞩目的成就。究其背后成功的最大因素,很大程度依赖于预先收集的质量高且容量大的有监督数据集。然而,真实应用场景中获得的训练数据集通常大多质量参差不齐、良莠混杂,其中最为典型的就是标记噪声问题,即数据标记出现错误的情况。拥有强大拟合能力的深度学习技术在此类低质量标记数据上学得的标记预测模型往往出现显著过拟合问题,无法在测试数据上获得良好的泛化表现。这一问题也因而成为后深度学习时代亟需解决的重要瓶颈问题。

  • 数据选择与标记校是处理此类问题时最常采用的关键技术。数据选择技术主要通过评估数据质量来对其进行针对性遴选或不同程度抑制/放大其在训练中发挥的作用,标记校正技术需要挑选出数据中蕴含错误标记的样本并对其标记进行纠正并将其在训练中重新利用。近年来,多种思路不同的数据样本选择和标记校正方案被提出,但大多是针对特定任务进行特别设计,缺乏对广泛任务的通用性、一般性与普适性。考虑到现实应用中的数据形式复杂多样,学习任务差异性显著,发展对多种异源任务适用的数据选择和标记校正普适算法对推动机器学习,特别是深度学习技术,在真实应用场景中有效应用具有重大促进价值。

 

二、赛题描述

以下简要介绍问题的设定。

  • 对于一个分类问题,假设其干净标记的训练数据集

  • 其中代表第个数据,,代表该数据对应的干净标签。

  • 在真实应用场景中,我们通过较低代价采集而得的数据不可避免的会存在错误标记,我们将其记为其中代表第个数据获得的噪音标记。

  • 一般地,我们使用如下的概率转移公式来理解噪音标记的生成过程,即          (1)

  • 其中表示样本的干净标签被错标为标签的概率,

   且一般要求

  • 如果我们对每个数据 定义一个指示变量表示被选择参与训练,表示不选入,或者表示以概率程度选入。

  • 一般地,数据选择与标签校正算法需要完成对的指定,进而实现对有效训练数据进行遴选,并对选出的噪音标记数据进行标记校正的目的。要求参赛选手对给定的噪音标记数据集为输入构建算法(所设计的算法不局限于对的显式指定,只要最终能够实现对有效数据的遴选、对错误标记的校正都是值得鼓励的),实现对多种异源噪音标记问题的数据自动选择与标记自动校正功能,同时保证训练获得的深度模型在测试数据集上能够获得良好泛化表现。

(一)初赛题目

初赛共分为四个任务,所采用的数据集特点如下:

  • 任务1-3为模拟标记噪音数据集,其不同类型的标记噪音基于标准的干净标记数据集通过如上式(1)的方式生成;

  • 任务4为实际标记噪音数据集,是实际中通过众包或者网络爬虫等方式收集的真实数据集。

 

  • 任务1:该任务产生的噪音标记数据集假设每个类样本被错误标注为其他类的概率是相同的,即:

其中为数据集噪音率。

 

  • 任务2:该任务产生的噪音标记数据集假设只在某些类产生标签噪音。考虑到数据集中类与类的相似性和差异性,在标注数据集时噪音更容易发生在相似类之间,即:

其中是相似类的集合,是类标记为类的噪音率。

 

  • 任务3:该任务产生的噪音标记数据集假设对每个样本产生的噪音率是不同的。考虑到数据集中不同样本的标注难度不同,在标注数据集时噪音更容易发生难样本上,即:

     

   其中对不同样本会产生不同的噪音率。

 

  • 任务4:采用收集于真实场景的数据集,要求采用与以上三个任务格式统一的算法对本任务提供的真实数据集进行分类。

(二)决赛题目

决赛共分为两个任务,其中任务5为模拟标记噪音数据集任务6为实际标记噪音数据集

  • 任务5模拟标记噪音数据集,其中噪音的生成方式和初赛一致,但噪音形式更加多样。真实应用场景中对数据的处理和使用会有一些限制,这里特别考虑数据隐私问题。为此,本任务对数据进行脱敏预处理,只提供脱敏后的数据矩阵和对应的噪音标记,统一用pkl格式存储表示。

  • 任务6实际标记噪音数据集,数据源自实际场景采集的大规模噪音标签数据集,其噪音生成方式未知。

 

注意:

每个任务中各个数据集均提供了相应baseline代码,其中数据加载代码和backbone模型不允许进行修改。为强调基础算法创新,不推荐使用预训练模型(如有监督或者自监督学习获得的模型权重等),以及除该比赛提供数据以外的训练数据(决赛可参考使用初赛数据)。  

 

请使用本文件中对应的代码文件替换之前提供的baseline中相应的代码文件

链接:https://pan.baidu.com/s/1bhjaHn5o-WdwTh5Y9wCpjg?pwd=sfpc 
提取码:sfpc                              

 

三、数据集说明     

初赛阶段

每个数据集会提供文件夹data、test和label.txt,其中data文件夹中包含了需要进行训练的所有数据,label.txt文件包含了所有数据的标记(带有噪音,并不提供数据真实的标记),test文件中包含了需要进行测试的所有数据(不包含标记)。所有数据集均是在现有开源数据中采样获得的。

 

任务1本任务采用的基准数据集是CIFAR-10、CIFAR-100、Tiny ImageNet、Twitter、SST:

 

CIFAR-10:该数据集有10个类,每个类包含5000张训练图像和1000张测试图像,

关于数据集的详细介绍访问https://www.cs.toronto.edu/~kriz/cifar.html;

 

CIFAR-100:该数据集有100个类,每个类包含500张训练图像和100张测试图像。其100个类可以分为20个超类。每个图像都带有一个“精细”标记(它所属的类)和一个“粗略”标记(它所属的超类),关于数据集的详细介绍访问https://www.cs.toronto.edu/~kriz/cifar.html;

 

Tiny ImageNet:该数据集有200个类,每个类包含500张训练图像、50张验证图像和50个测试图像,关于数据集的详细介绍请访问https://www.kaggle.com/competitions/tiny-imagenet/overview;

 

Twitter:该语音数据集有10个类。包含8000条推文的训练集、800条推文的验证集和6015条推文的测试集,关于数据集的详细介绍请访问https://aclanthology.org/P11-2008.pdf;

 

SST:该数据集由单句电影评论组成,有2个类。包含6911条评论的训练集中、872条评论的验证集、1821条评论的测试集,关于数据集的详细介绍请访问

https://www.kaggle.com/datasets/atulanandjha/stanford-sentiment-treebank-v2-sst2。

 

任务2本任务采用的基准数据集是CIFAR-10、CIFAR-100、组合数据集、Twitter、SST:

组合数据集:该数据集使用来自鱼、鸟、食物、狗四个不同领域的数据集组合构成,每个数据集各6类,每个类包含900张训练图片和100张测试图片。不同数据集四个不同领域数据,因此不同数据集间的差距大于数据内的类间差距,数据采样于ImageNet、food-101、Tsinghua Dogs数据集,关于数据集的详细介绍请访问:

https://image-net.org/index.php

https://data.vision.ee.ethz.ch/cvl/datasets_extra/food-101/

https://cg.cs.tsinghua.edu.cn/ThuDogs/

 

任务3本任务采用的基准数据集是CIFAR-10、CIFAR-100。

 

任务4本任务需要对真实数据集进行分类;本任务使用的三个数据集是基于网络公开的真实数据集Webvision采样获取得到的,分别从该数据集中两次随机抽取50类、一次随机抽取100类构成三个子数据集。

 

WebVision:使用ImageNet数据集中的1000个类别,在Google图像和Flickr这两个网站上进行搜索爬取,获得的240余万幅图片。此处任意选取WebVision数据集中部分数据构成三个新的真实噪音数据集关于数据集的详细介绍请访问https://data.vision.ee.ethz.ch/cvl/webvision/dataset2017.html。

 

决赛阶段:

包括更多仿真和真实噪音标签数据集实验任务,具体的任务形式和数据会在决赛公开。

 

任务5仿真数据集,其中噪音的生成方式和初赛一致,噪音形式更加多样。将不再提供仿真数据集的具体介绍,只会以pkl的形式提供脱敏后的数据矩阵和对应的噪音标记。

 

任务6真实数据集,数据源自实际场景采集的大规模噪音标签数据集。

 

四、提交结果

初赛阶段:

【初赛A榜】

  • 提交格式:npy文件,命名:和示例同名

  • 提交内容:参赛者根据提供的baseline代码生成提交预测结果npy格式文件

  • 提交次数:每天最多10次

  • 开始提交时间:8月16日

  • 提交格式示例:(下载示例内容查看)

链接:https://pan.baidu.com/s/1p9TSAuEf7k12kWUG7HiKFw?pwd=tua3 
提取码:tua3 

 

【初赛B榜】

  • 提交格式:云盘链接zip包,命名:测试ID+团队名

  • 提交内容:根据评分标准成绩前20名选手,提交docker云盘链接,将链接写进txt文件中打包成zip包提交(将代码、模型及参数说明、环境与模型参数打包成Docker,其中包含文件夹code(其中包含所有训练代码,至少包含README.md文件提供代码详细伪代码和代码各部分功能、run.sh可以直接运行训练代码)、model.npy(训练获得的模型参数)、label_train.npy(算法生成的校正标记)和label_test.npy(模型在测试集上预测生成的标记),参赛者需承诺提交的模型参数model.npy,校正标记label_train.npy由提交的code代码训练获得、预测标记label_test.npy由提交模型model.npy测试获得。

  • 提交次数:1次

  • 提交格式示例:待更新

  • 初赛B榜审核群:截止提交后排行榜前20名扫码添加极市小助手极小新企业微信进入初赛B榜审核群

五、评测标准

初赛评价标准:

评审指标

指标说明

分数

算法效果

数据选择和标记校正质量(15分):对于模拟标记噪音数据集(任务1-3),计算校正后的标记 与潜在的真实标记 的准确率和召回率,二者各占一半得分;对于真实标记噪音数据集(任务4),因为没有真实的标记 , 因此不计入本项计算。任务1~3各5分。

算法预测准确度(45分):预测模型在测试集的准确率,共四个任务,每个任务分值分布为10,10,10,15分。

60分

惩罚项

算法科学性得分(8分):算法不能使用超过两个模型,否则扣8分。

算法成本得分(8分): 要求算法的GPU显存占用不超过baseline代码的1.5倍(相同batch size比较),比赛会额外提供一个小任务专门用于算法GPU显存占用计算,若超出baseline代码的时间在1.5~2倍之间扣4分,超过2倍以上扣8分。

算法效率得分(8分):要求训练时间代价不超过baseline代码的2.5倍(相同batch size比较),比赛会额外提供一个小任务专门用于训练时间计算,若超出baseline代码的时间在2.5~3倍之间扣4分,超过3倍以上扣8分。

算法实际可行性得分(8分):考虑到问题的一般性,不推荐使用预训练模型(如有监督或者自监督学习获得的模型权重等),以及除该比赛提供数据以外的训练数据,否则,直接扣8分。

算法可复现性得分(8分):要求运行代码和README.md提供的伪代码一致,保证算法的可复现性;根据出现不一致情形,酌情扣分,特别严重者,直接扣8分。

40分

总分

Score=算法预测准确度得分(60分)+惩罚项得分(40分)

100分

注:每次结果提交后,系统立即返回此次提交的算法效果得分。比赛结果提交日期截止后,评测委员会为算法效果得分前20名的队伍计算惩罚项得分,并依据上述评价标准统计出分数最高的14支队伍。