赛事一览
深度学习模型的对抗鲁棒性评估算法
  • 报名开始时间 2022-08-06
  • 报名结束时间 2022-10-07
  • 总奖金池 ¥1000000

一、项目概况

1、大赛介绍:

  • 数字经济时代,算法作为一种战略性科技要素已成为推进数字技术与实体经济深度融合的核心支撑。为发挥国家实验室作用,推动粤港澳大湾区大数据与人工智能算法生态体系建设,琶洲实验室(黄埔)受广州市黄埔区政府委托,自2022起创办《粤港澳大湾区(黄埔)国际算法算例大赛》(以下简称“大赛”),旨在打造大湾区首个以算法为主题的国际型竞赛,以此推动原始创新, 并带动数字经济的高质量发展。

  • 大赛以当前数字技术发展趋势和现实应用需求为牵引,面向全国遴选优质算法、汇聚全球高精尖技术、招揽国际算法高端人才。大赛坚持以科学性、引领性、实用性为原则,聚焦大数据、人工智能、物联网、云计算、元宇宙等新一代数字技术和互联网+、智能+等数字经济场景。 大赛采取每年聚焦不同主题的方式开展。首届算法大赛聚焦后深度学习时代AI 基础算法和智慧城市、智能制造等领域内的行业算法场景。

 

2、大赛赛程安排:

2022年7月20日-11月15日

  • 07月20日10:00:大赛开启预报名

  • 08月06日10:00:大赛正式开放报名,下载数据集,线下开发

  • 08月22日10:00:开始提交结果,线下评测

  • 10月07月10:00:大赛截止报名

  • 10月07日12:00:初赛截止提交比赛结果

  • 10月07日:开始征集决赛数据集

  • 10月07日-10月17日10:00:完成所有成绩评测

  • 10月17日18:00-10月18日12:00:排行榜前20名进入【初赛B榜】提交最终模型,若不提交模型,会参考之前提交的最好模型作为提交评测模型。

  • 10月18日-10月24日初赛结果成绩前20名成绩评测

  • 10月25日:公布入围决赛14名选手

  • 10月22日-11月01日:出题方提供决赛数据。任何一只决赛队伍均可申请成为新擂主,并提供训练集、测试集,主办方进行审核并统一发布

  • 11月01日-11月17日:测评组使用决赛数据进行测试及审核,最终排名

  • 11月底:大赛决赛及答辩

 

3、大赛参赛人员

大赛面向全社会开放,个人、高等院校、科研单位、企业、创客团队等人员均可报名参赛;

每位选手仅能加入一支参赛队伍,每只队伍组队上限5人。

注:(1)大赛组织机构单位中除了擂台赛,涉及题目编写、数据接触的人员禁止参赛;

     (2)主办方和竞赛制赛道出题方可参赛,不参与排名。

 

“关于组队”

您需要以团队为单位来参与竞赛,即便您是单人参赛也需要创建一支队伍。

组队详情:点击https://www.cvmart.net/document


 

4、报名须知:

1)在琶洲实验室(琶洲)官方活动页面进行报名参赛,后登录极市平台进行下载数据集,进行线下开发;

2)确保报名信息真实有效,一经发现,将取消参赛资格及激励;

3)参赛必读手册:https://www.cvmart.net/community/detail/6631

4)大赛官方微信群,扫码加入社群,及时获取大赛信息

 

二、赛制设置

1、擂台制赛道介绍

  • 擂台赛赛道瞄准解决国家重大需求的基础算法,聚焦后深度学习的人工智能及相关领域的核心问题,驱动人工智能及相关学科领域的关键技术发展。擂台制赛道由大赛组织方邀请领域内的顶尖专家教授作为赛题定义者,从学术前瞻性及未来人工智能相关学科的发展趋势出发,根据学术领域的研究与认知,设计具有科学性和前瞻性的赛题,面向全世界遴选优质算法,打造全球人工智能算法高地。

  • 擂台制赛道分为初赛和决赛两个个阶段,擂主直接进入复赛。初赛由开发者下载数据集进行线下开发,决赛擂主将于入围14名选手共同进行开发,为体现赛事公平性,将统一征集相关赛题数据集,增加应用场景,进行决赛角逐。

 

2、赛题介绍

本擂台赛面向图像分类任务,旨在发掘更加高效的对抗防御技术,提升计算机视觉模型在对抗攻击下的鲁棒性。

 

3、赛题比赛规则

大赛分为初赛和决赛两个比赛环节。

 

- 线上初赛

初赛时间:2022年8月6日至2022年10月7日

初赛形式

选手通过赛题页-数据集,下载竞赛训练数据集,基于竞赛数据集在本地进行算法训练开发;本地开发完成后,提交算法模型及相应加载文件压缩包,主办方将在统一的硬件和软件平台对各队伍模型进行执行,最终给出成绩。

初赛晋级规则

评测方根据参赛者提交的模型压缩包进行成绩审核,筛选出前14支队伍进入决赛。

 

- 线上决赛 

决赛时间:2022年11月1日-11月15日

决赛形式

【擂台赛】

  • 决赛采取擂台赛的形式,首先由出题方(擂主)提供之前未公开、与初赛同类型的数据进行算法设计与评测,参赛队伍在该数据上进行测试并排位。

  • 同时,任何决赛参赛队伍均可申请成为新擂主,并发布相应的数据集进行擂台赛,决赛队伍也可不申请成为擂主,仅参加别的擂主发布的数据赛题进行比赛评测。

【决赛内容】

  • 参赛队伍不用重新训练及测试,主办方将根据初赛的模型,用新增数据集对于参赛队伍模型进行重新测试,最终给出成绩,评选出前8名进入答辩环节。

 

注:初赛及决赛皆为线下评测委员会测试成绩,成绩一周更新一次,第一次提交模型后,成绩将展示为0,成绩评测完后排行榜会再继续更新

 

4、注意事项

  • 本竞赛不限制选手使用其它公开数据集或私有数据集,但必须在提交文档中说明使用的别的数据集的来源及规模。

  • 为避免不同测试环境导致的结果误差,推荐使用pytorch=1.8.2,cudatoolkit=10.2版本,额外需要的安装库需要在提交代码中包含或在txt中指定。

  • 参赛选手提交的模型不应包含梯度干扰模块影响模型鲁棒性的评估,例如梯度裁剪,梯度干扰,不可微分模块的引入等。工作人员会对参赛选手提供的代码进行评估,去除梯度干扰模块的影响。

  • 初赛阶段,每支队伍在榜单上的提交次数为1次/周。在决赛阶段,每支队伍提交次数为1次。排名取各队伍最佳成绩进行排序给出。

  • 决赛参赛擂主提供的数据集必须满足是ImageNet1K数据集所规定的1000个类别,并且数据是干净无噪声的样本,工作人员会对测试数据进行审查。参赛擂主提供数据集的样本数量为1000-5000,样本应均匀分布在ImageNet的1000个类别,即每个label给出1-5个样本。

  • 初赛完毕后即决出最终入围决赛排名。排名前14的队伍与擂主一起进入决赛。

  • 决赛最终取得比赛前8名的队伍,需要向主办方提供前向代码进行官方测试,代码版权仍归各参赛队伍所有。无法提供前向测试代码的队伍,将被取消获奖资格,仅颁发优胜奖的荣誉证书。

  • 若发现有队伍存在违规作弊行为,决赛名额以及最终排名依照综合性能指标顺延

  • 违规作弊行为包括但不限于:

  • 模型代码与文档描述不符

  • 提交代码无法复现出评测结果

  • 利用测试集训练模型


一、背景及意义

  • 近年来,以机器学习尤其是深度学习为代表的人工智能技术的迅速发展正在深刻改变人类的生产和生活方式,在机器人、虚拟助手、自动驾驶、智能交通、智能制造、智慧城市等各个行业,人工智能正在发挥越来越大的作用。但是人工智能在推动技术革命和产业进步的同时,其存在的安全风险往往被人忽视。

  • 研究发现,许多在数据集上表现良好的算法非常容易被人眼不可见的对抗样本所欺骗,导致AI系统判断失准。如图1所示,可以通过对图像添加微小的扰动,构造对抗样本,从而高概率地欺骗在正常样本上工作良好的深度学习图像分类模型。此外,深度学习模型在一些数据的自然变化(如图片旋转、平移、高斯噪声等)下也表现出了一定的脆弱性。

                                             图 1对抗样本示例

  • 为了提升深度学习模型的鲁棒性,发展安全可靠的新一代深度学习,近些年来研究者们提出了多种防御方法。本次挑战赛面向图像分类任务,旨在发掘更加高效的对抗防御技术,提升计算机视觉模型在对抗攻击下的鲁棒性。

  • 此外,随着不同的视觉模型架构以及预训练技术的发展,对模型鲁棒性也带来了一定的提升,本次比赛也期望探索面向模型鲁棒性的高效网络架构和训练技术,研究包括ViT等视觉大模型的鲁棒性。具体而言,本次比赛选取学术界使用较为广泛的ImageNet数据集,对选手提交的模型通过典型的对抗攻击算法计算模型在攻击下的准确率,作为主要的评估指标,研究卷积神经网络、ViT模型等深度学习模型的鲁棒性提升技术。

 

二、赛题描述

比赛分为两个阶段:初赛和决赛

初赛:主办方采用固定的种攻击方法(,如PGD等)对选手提交的模型进行白盒攻击。为了更加全面地评估模型的对抗鲁棒性,扰动范围分别设置为0、2、4和8进行测试,最终的分数利用加权平均的形式计算出来。

决赛:初赛排名的前14名与擂主一起进入决赛。在决赛中,比赛形式变为擂台赛,主办方将采用隐藏数据集、擂主数据集、更多的种对抗攻击方法进行鲁棒性测试,另外扰动范围的设置也会有所调整,计算规则与初赛一致。

 

三、数据集说明 

初赛训练数据集为ImageNet LSVRC 2012,测试数据集为相应的validation数据集,决赛阶段使用的训练数据集与初赛一致,测试数据使用主办方提供的隐藏数据集与擂主提交的测试数据集。

 

  • 简介:比赛所采用ImageNet数据集是计算机视觉系统识别任务所采用的经典数据集,由斯坦福大学的李飞飞教授带领创建。本比赛推荐使用数据集为ImageNet的分类任务的子集,是每年举办的ILSVRC图像识别大赛所采用的标准训练、测试数据。ImageNet数据集和ILSVRC竞赛对计算机视觉技术以及深度学习模型的发展具有重要意义,本大赛期望在经典的图像分类任务上进一步探究深度学习模型在大型数据集上的鲁棒性。

  • 数量:比赛训练数据采用ImageNet-1K中的标准训练数据,包含1000个类别的总计1,281,167张图像,选手可以自行添加额外数据集,例如ImageNet-21K等,比赛也会提供相应的pretrain模型。初赛中,比赛的测试数据采用ImageNet validation数据集,包含1000个类别的总计50000张图像;复赛中,比赛的测试数据采用以ImageNet validation为基础的大规模扩展测试集。

  • 标注:训练数据集ImageNet-1K标注采用标准形式,即文件所在目录名为类别名称(例如,n15075141_2837.JPEG所在类别n15075141也是图像文件所在目录的名称),类别名称与标注label之间的关系包含在label.txt中,逐行给出类别的数字标签。

另外,对抗样本生成可以利用开源工具ARES实现:https://github.com/thu-ml/ares

 

四、提交结果

初赛

  • 提交格式:模型zip压缩包,命名:注册团队名

  • 提交次数:每周1次

  • 开始提交时间:8月22日

 

  • 提交示例

    链接:https://pan.baidu.com/s/1zXxNvxkvnM4OHcFhRcHFUg 提取码:9wfs (选手提    

    交的模型加载目录model应为python模块,内部文件调用方式均为相对调用,请选手自行检查模型加载模块是否可以正常调用)

 

  • 参考映射文件(自行下载参考):预测label与imagenet图像类别目录之间的映射关系

    链接:https://pan.baidu.com/s/1LCO7UBjsVGF9CbQWp46PIg 
    提取码:b8eh 

 

  • autoattack里会警告的影响梯度回传的行为,是比赛中不被认可的操作如下

    链接: https://pan.baidu.com/s/1MGo1TLte-AATRSb_UI9TYg 提取码: 99p6 

 

  • 提交内容:比赛结果需要提交算法源码、模型checkpoint以及的模型加载文件的zip压缩包。以pytorch实现为例,模型继承自torch.nn.Module,需要指定模型的加载方法。模型中不应包含具有梯度干扰的模块,防止在对抗攻击过程中出现计算问题,模型的参数量大小(注:是参数量大小,不是模型实际大小)限制为350M。

  • :在提交的代码中,需要加载checkpoint时,采用模板推荐的脚本所在目录的相对路径来写,例如import osckpt = torch.load(os.path.dirname(__file__) + '/xxx.pth'),因为测试脚本在上级目录,单纯使用相对路径可能会出错,会影响测试效率。

     

  • 测试脚本将采用model=get_model()函数获取具体模型,选手提交测试脚本应包含get_model()调用函数,输出计算为output=model(input)。其中input是尺寸为(batch_size, 3, 224, 224),取值范围为0-1的RGB图像组(选手需自行确定normalization的参数,并在get_model()中实现),output为分类函数的logits,是一个尺寸为(batch_size, 1000)的tensor。

 

  • 提交方式

step1:将所需提交内容打包成zip包

step2:到平台工作台上传压缩包step3:复制地址,将地址写到result.txt中,打包成压缩包,命名:注册团队名

step4:上传到该赛题结果提交处即可

 

  • 初赛审核群:截止提交后排行榜前20名扫码添加极市小助手极小新企业微信进入初赛审核群

 

  • 决赛:决赛提交方式及内容同上

  • 决赛数据集:每组队伍需要提供一组测试数据集用于擂主数据集。

 

五、评测标准

评审指标

指标说明

权重分

算法精度(ACC指标)

算法精度(100分):

考虑K种不同攻击方法下的图像识别准确率(100%)

对于个测试图像样本,在每一个扰动下采用种攻击方法进行攻击,计算模型的准确率(鲁棒性)为:

其中代表所有的种攻击方法,为其中的某一个方法,为选手提交的图像分类模型,为数据样本对应的真实标签,为指示函数。上述计算公式的含义是对每一个数据采用所有种攻击方法进行攻击,如果所有攻击方法都没有使模型产生错误,则得分为1,否则为0。

在计算得到某一个扰动范数下的得分后,选手提交模型的最终得分为不同扰动范数的得分平均值,即

80%

算法成本效率

模型参数量得分(100分):模型的参数量大小(注:是参数量大小,不是模型实际大小)限制为350M,超过限制的模型大小则本部分不得分。

20%

总分

Score=算法精度(ACC指标)*80%+算法成本效率得分*20%