赛事一览
看图说话
  • 报名开始时间 2022-08-06
  • 报名结束时间 2022-10-07
  • 总奖金池 ¥1000000

一:项目概况

1、大赛介绍:

  • 数字经济时代,算法作为一种战略性科技要素已成为推进数字技术与实体经济深度融合的核心支撑。为发挥国家实验室作用,推动粤港澳大湾区大数据与人工智能算法生态体系建设,琶洲实验室(黄埔)受广州市黄埔区政府委托,自2022起创办《粤港澳大湾区(黄埔)国际算法算例大赛》(以下简称“大赛”),旨在打造大湾区首个以算法为主题的国际型竞赛,以此推动原始创新, 并带动数字经济的高质量发展。

  • 大赛以当前数字技术发展趋势和现实应用需求为牵引,面向全国遴选优质算法、汇聚全球高精尖技术、招揽国际算法高端人才。大赛坚持以科学性、引领性、实用性为原则,聚焦大数据、人工智能、物联网、云计算、元宇宙等新一代数字技术和互联网+、智能+等数字经济场景。 大赛采取每年聚焦不同主题的方式开展。首届算法大赛聚焦后深度学习时代AI 基础算法和智慧城市、智能制造等领域内的行业算法场景。

 

2、大赛赛程安排:

2022年8月6日-11月15日

  • 07月20日:开启预报名

  • 08月06日10:00:正式开赛,数据集发布,下载数据集线下开发

  • 08月16日10:00:开始提交测试结果文件在【初赛A榜】

  • 10月07日10:00:大赛截止报名

  • 10月07日12:00:【初赛A榜】截止提交结果

  • 10月7日12:00-10月9日12:00:前20名的参赛队伍添加小助手微信进群

  • 10月10日-10月11日:选手进行评测环境部署

  • 10月12日-10月21日:进行成绩审核及复现

  • 10月22日-10月25日:【初赛B榜】结果宣布。任务前15名进入决赛阶段

  • 11月1日10:00-11月3日10:00:公布决赛测试集,选手线下测试

  • 11月3日10:00-11月5日10:00:选手配置环境

  • 11月5日-11月15日:评测组进行评测

  • 11月17日:公布决赛答辩名单

 

3、大赛参赛人员

大赛面向全社会开放,个人、高等院校、科研单位、企业、创客团队等人员均可报名参赛;

每位选手仅能加入一支参赛队伍,每只队伍组队上限5人。

注:(1)大赛组织机构单位中除了擂台赛,涉及题目编写、数据接触的人员禁止参赛;

     (2)主办方和竞赛制赛道出题方可参赛,不参与排名。

 

“关于组队”

您需要以团队为单位来参与竞赛,即便您是单人参赛也需要创建一支队伍。

组队详情:点击https://www.cvmart.net/document


“关于海外选手报名”

English webpage:

https://codalab.lisn.upsaclay.fr/competitions/6734?secret_key=321cc475-8253-4882-a1d2-8151c6664e71

报名表单:http://extremevision.mikecrm.com/IMtMMEL

注:海外报名选手可以先进行注册,注册后填写报名表单,进行后台人工审核信息,1-2个工作日后邮箱反馈,即可到平台完成报名赛题。

 

“关于曙光算力使用”

内容:如何在曙光N卡服务器上进行训练环境配置以及算力配置。

对象:该文档用于对90%使用OpenMMLab 在曙光N卡服务器上训练模型的参赛者

PPT下载地址:http://yunyin.cn-gd.ufileos.com/User%20Manual(1).pptx

4、报名须知:

1)在琶洲实验室(黄埔)官方活动页面进行报名参赛,后登录极市平台进行下载数据集,线下开发后提交CSV预测结果文件;

2)确保报名信息真实有效,一经发现,将取消参赛资格及激励;

3)参赛必读手册:https://www.cvmart.net/community/detail/6631

4)直播回放链接:https://www.bilibili.com/video/BV15W4y1B7Wb/

5)大赛官方微信群,扫码加入社群,及时获取大赛信息

 

二、赛制设置

1、竞赛制赛道介绍

竞赛赛道瞄准行业领域发展的共性关键技术,聚焦智慧城市、智慧健康、智能制造、智慧金融等行业领域,开发优质算法,以人工智能技术作为推动力,实现革命性的产业创新。竞赛制赛道将由各领域的国内头部企业针对其发展的行业共性的“卡脖子”难题定义赛题任务,并提供真实场景数据,面向全球汇聚大数据与人工智能高精尖技术,招揽全球人工智能算法高端人才。

 

2、赛题介绍

本竞赛赛题提出全场景图生成任务,要求参赛者根据给定的复杂场景图片生成场景图和对应的全景分割图,进而实现更高阶视觉任务的理解和推理算法研究。

 

3、赛题比赛规则

大赛分为初赛和决赛两个比赛环节。

 

- 线上初赛

初赛时间:2022年8月6日至2022年10月7日

初赛形式:初赛分为A、B榜。

【初赛A榜】

选手通过赛题页-数据集,下载竞赛数据集,基于竞赛数据集在本地进行算法训练开发;本地开发完成后,并针对任务提交JSON文件,主办方进行评测并返回结果;

【初赛B榜】

A榜前20名队伍将Docker文件以及模型参数上传链接,写进txt文件打包成zip包提交,由主办方在B榜测试集上进行评测并公布B榜排位结果。确保无违规作弊行为后前15名进入决赛,若发现有队伍存在违规作弊行为,决赛名额依照综合性能指标顺延。

 

- 线上决赛 

决赛时间:2022年11月1日-11月15日

决赛形式:评测方根据参赛者【初赛B榜】提交的docker,使用新的数据集进行测试,取成绩排名前8名进入。

 

-答辩环节

评测委员会将根据参赛者的技术思路和复赛性能指标进行综合评分,评选出最终获奖队伍。

 

4、注意事项

  • 本竞赛仅可使用比赛主办方提供的数据、公开数据集(指在2022年7月20日前已经公开,且所有人均可获取的数据集)、合成数据(不可使用非公开数据集进行数据合成;若使用合成数据,需提交文档说明清楚数据合成方法),不得使用私有数据进行训练或数据合成。各参赛队伍必须在提交文档中说明清楚使用的其它公开数据集的来源、规模及下载地址。

  • 初赛前15名及决赛前8名的队伍,需要向主办方提供完整的训练与测试代码、模型参数以及详细的训练流程说明(包括GPU设置,数据使用情况、模型情况、训练参数设置、训练流程等,打包成docker)进行官方复现与测试,并能在合理的时间内完成复现。在主办方进行代码测试和复现过程中,相关的队伍有义务配合主办方进行代码复现(包括合成数据的复现)。无法提供代码进行测试及复现的队伍、或不配合进行代码测试及复现的队伍,将被取消获奖资格。

  • 各决赛参赛队伍提交的代码和数据的版权归各相应提供方所有。

  • 若发现有队伍存在违规作弊行为,决赛名额以及最终排名依照综合性能指标顺延。

违规作弊行为包括但不限于:

  • 模型代码与文档描述不符

  • 提交代码无法复现出评测结果

  • 利用测试集训练模型

  • 违规使用私有数据集进行训练

  • 违规使用私有数据集进行数据合成

  • 其它存在违反本次比赛规则的行为


一、背景及意义

  • 目前的计算机视觉任务大多关注在图像感知的层面。例如目标检测和图像分割任务只要求模型识别出图中存在的物体并找到其位置。然而,仅凭借这样的模型难以对场景进行全面和深入的理解。以下图 1 为例,如果人工智能模型只检测出图片中的人、大象、栅栏、树木等,该模型还远远达不到理解的层次,也无法基于对图片的理解进行下一步决策。

  • 在很多实际的 AI 落地场景中,包括智慧城市,智能驾驶,智慧工厂的视觉感知任务中,除了需要对场景中的目标进行分割外,还需要对图像中各个主体的相互关系做推理和预测。例如在智慧城市的监控图像中判断,一个人是否有违反文明出行的行为,例如跨越护栏,践踏草坪,投喂飞鸟等;在智能驾驶应用中,需要分析路边的行人是推着自行车、骑着自行车、还是只是靠近自行车,图像主体之间不同的关系对视觉任务的理解和推理非常重要;在智慧工厂应用中,需要判断操作员是否正确和周围环境交互,是否在安全区域内,是否与不安全设备有接触,是否在工作场景与其他人交谈分心。现有的方法是手动设置一些业务规则,例如设置感兴趣区域等方法,进行粗略的图像主体关系判断。而不是通过数据驱动的方法自动从数据中学习,所以目前的方法缺乏泛化性以及难以适应具体业务落地的复杂性。

  • 场景图生成(scene graph generation)在目标检测的基础上增加了对物体间关系进行预测的要求(如图 2)。传统的场景图生成任务的数据集通常对物体有一个检测框的标注,同时标注检测框之间的关系。然而,这类任务有几个固有缺陷:(1)检测框无法对物体进行准确的定位:如图 2 所示,检测框在标注人的时候不可避免地将人周围的物体包括在内;(2)无法对背景进行标注:如图 2 所示,大象后方的树丛用检测框标注会包括几乎全图,因此涉及背景的关系都不能被准确标出,这也让场景图无法全面涵盖图片的所有信息,无法做到全面的场景理解。

  • 因此,在这个比赛中,我们提出了全场景图生成(panoptic scene graph generation)[1]。如图 3 所示,该任务利用全景分割对物体和背景进行全面且准确的定位,从而解决场景图生成任务的固有缺陷,以推动领域向全面深入的场景理解的进步。

[1] Jingkang Yang, Yi Zhe Ang, Zujin Guo, Kaiyang Zhou, Wayne Zhang, Ziwei Liu. Panoptic Scene Graph Generation. In European Conference on Computer Vision (ECCV), 2022.

全场景图生成作为一个建立在传统检测分割任务上的新的上层任务,是一个非常有挑战的视觉任务,有以下几个难点有待参赛者解决。

1、问题抽象程度高:

相比于纯检测分割问题,全场景图生成的关键在于对图片中关系的推断和识别,因此引入了如下的挑战。

关系的模糊性:有一些关系的意思难以被准确定义。例如 crossing 可以使用在airplane crossing sky, car crossing road,person crossing road。模型需要学习到“穿过”这种模糊关系的含义。

关系的相似性:一些关系和其他关系的差异不显著。例如 running 和 walking,有 parked on 和 driving on。模型需要通过一些视觉细节来做出选择。

关系的准确性:我们在标注测试集时要求标注员能标更准确的关系(例如 walking on)就不标注更模糊的关系(例如 on)。这就要求模型不能简单地预测模糊的关系,而要更加注重对图中关系的准确描述。

2、数据复杂度高:

长尾效应:根据真实世界的数据分布,本任务提供的数据有天然的长尾效应。具体上讲,长尾效应同时表现在关系和物体/背景类别上。解决长尾问题可有效提升 mean recall @ 20 这个评价指标。

不准确的分割标注:本任务提供的数据集基于 coco 全景分割。分割中存在分割标注不准确,漏标的问题。参赛者需要考虑如何避免噪声标注的影响。

三元组的不完全标注:本任务的训练集并不是完全标注,即有一些图片的部分关系没有标出。参赛者需要考虑处理这类不完全标注的问题。

3、算法复杂度高:

对算法速度的要求: 如果算法先检测物体后再预测关系,假设检测出了n个物体,两两比较关系需要进行 n × (n-1) 比较,这会让推断速度很慢,不利于实际生产。任务要求设计的算法有较快的速度。

关注远距离物体之间的关系:有时图片上的关系出现在两个较远的物体之间。算法需要处理远距离物体之间的关系。

关系的层级结构:关系大体可以分成位置关系和动作关系。算法可能需要对关系的层级结构进行建模,以避免对一个种类的关系的忽视。

利用视觉推理进行关系识别:算法可能需要利用视觉推理进行关系识别,这是目前计算机视觉领域尚未全面探索的领域。

避免算法误入捷径:模型在预测关系时容易走捷径。这包括模型会不根据图片的实际内容,而只根据分割出的物体类别预测高频关系(如检测到 person 和 bicycle就认为一定是riding,然而图片实际是 person carrying bicycle),或倾向于输出简单关系。算法需要规避这一点

二、赛题描述

如下图 4 所示,本次赛题要求选手根据给定的复杂场景图片生成这张图的场景图(scene graph)和全景分割图(panoptic segments)。其中,场景图其实是由很多主谓宾三元组构成。模型在生成场景图时实质上是在输出若干主谓宾三元组。而主谓宾三元组中的主语和宾语需要对应全景分割图的一个分割块,即图像中的物体或背景。我们希望模型准确全面地识别出图中存在的关系。

7c033220fe61420e9b5c33f4ec589464.png

 

三、算法输入输出需求     

输入:一张待处理的图像

输出:该图像的全景分割图像以及20个利用全景分割图表示的主谓宾关系。

目标:准确预测图中物体间的关系。

 

四、数据集说明     

我们为参赛者提供了 45697 张训练图片和 1000 张验证集图片(向选手公开)。每张图片都进行了全景分割图和场景图的标注。整个数据集有 133 个物体/背景类别和 56 个关系类别。具体类别如下。我们在初赛保留 1177 张测试集图片的标注供评价使用(非公开)。我们希望参赛者仅通过提供的数据集进行模型训练,在我们提供的测试集上达到好的效果。

选手可通过网站http://psgdataset.org/explore.html探索标注示例;

通过http://psgdataset.org/data_stats.html了解标签分布;

参考Panoptic Scene Graph Generation论文了解标注方式。

标注文件细节可参考

https://github.com/Jingkang50/OpenPSG/blob/main/tools/Visualize_Dataset.ipynb。

物体/背景类别(133

关系类别(56

物体类别(80

 

['airplane', 'apple', 'backpack', 'banana', 'baseball bat', 'baseball glove', 'bear', 'bed', 'bench', 'bicycle', 'bird',

'boat', 'book', 'bottle', 'bowl', 'broccoli', 'bus', 'cake',

'car', 'carrot', 'cat', 'cell phone', 'chair', 'clock', 'couch',

'cow', 'cup', 'dining table', 'dog', 'donut', 'elephant', 'fire hydrant', 'fork', 'frisbee', 'giraffe', 'hair drier', 'handbag', 'horse', 'hot dog', 'keyboard', 'kite', 'knife', 'laptop', 'microwave', 'motorcycle', 'mouse', 'orange', 'oven', 'parking meter', 'person', 'pizza', 'potted plant', 'refrigerator', 'remote', 'sandwich', 'scissors', 'sheep', 'sink', 'skateboard', 'skis', 'snowboard', 'spoon', 'sports ball', 'stop sign', 'suitcase', 'surfboard', 'teddy bear', 'tennis racket', 'tie', 'toaster', 'toilet', 'toothbrush',    'traffic    light',   'train',    'truck',   'tv',

'umbrella', 'vase', 'wine glass', 'zebra']

 

[ '飞机', '苹果', '背包', '香蕉', '棒球棒', '棒球手套', '熊

', '床', '长椅', '自行车', '鸟', '船', '书', '瓶子', '碗', '西兰

花', '公共汽车', '蛋糕', '车', '萝卜', '猫', '手机', '椅子', '

时钟', '长椅', '牛', '杯子', '餐桌', '狗', '甜甜圈', '大象', '

消防栓', '叉子', '飞盘', '长颈鹿', '吹风机', '手提包', '

马', '热狗', '键盘', '风筝', '刀', '笔记本电脑', '微波炉', '

摩托车', '老鼠', '橘子', '烤箱', '停车收费表', '人', '比

萨', '盆栽植物', '冰箱', '遥控器', '三明治', '剪刀', '羊', '

水槽', '滑板', '滑雪板', '滑雪板', '勺子', '运动球', '停

止标志', '手提箱', '冲浪板', '玩具熊', '网球拍', '领带',

'烤面包机', '洗手间', '牙刷', '红绿灯', '火车', '卡车', '

电视', '伞', '花瓶', '红酒杯', '斑马', ]

 

 

背景类别(53)

 

[ 'banner', 'blanket', 'bridge', 'building-other- merged', 'cabinet-merged', 'cardboard', 'ceiling- merged', 'counter', 'curtain', 'dirt-merged', 'door- stuff', 'fence-merged', 'floor-other-merged', 'floor- wood', 'flower', 'food-other-merged', 'fruit', 'grass- merged', 'gravel', 'house', 'light', 'mirror-stuff', 'mountain-merged', 'net', 'paper-merged', 'pavement-merged', 'pillow', 'platform', 'playingfield', 'railroad', 'river', 'road', 'rock-merged', 'roof', 'rug-merged', 'sand', 'sea', 'shelf', 'sky-other-

merged', 'snow', 'stairs', 'table-merged', 'tent', 'towel', 'tree-merged', 'wall-brick', 'wall-other- merged', 'wall-stone', 'wall-tile', 'wall-wood', 'water- other', 'window-blind', 'window-other' ]

[ '横幅', '毯子', '桥', '建筑物', '储物柜', '纸板', '天花板

', '柜台', '窗帘', '泥土地', '门', '栅栏', '地面', '木地板', '

花', '食物', '水果', '草丛', '碎石', '房子', '灯', '镜子', '山

', '网', '纸', '人行道', '枕头', '平台', '运动场', '铁路', '河

', '马路', '岩石', '屋顶', '地毯', '沙地', '海', '架子', '天空

', '雪', '楼梯', '桌子', '帐篷', '毛巾', '树木', '砖墙', '墙', ' 石头墙', '瓷砖墙', '木墙', '水', '百叶窗', '窗户', ]

位置关系(6

 

在…上方 over, 在…前面 in front of, 在…旁边beside, 在…上面on,

在…里面 in, 紧挨着 attached to

 

常见的物体间关系(5)

 

悬挂自 Hanging from,  在…背上

on the back of,  从…掉下 falling

off, 从…下坡 going down, 被画在painted on

 

常见的生物动作(31)

 

走在 walking on, 跑在 running on, 穿过crossing, 站在 Standing on, 躺在 lying on, 坐在sitting on, 靠在leaning on, 飞过flying over, 跳过jumping   over,     从 … 跳出jumping from, 穿着 wearing, 握着 / 抱着holding,   拿着 / 背着

carrying,  看着 looking at,  引导

guiding, 亲吻 kissing, 吃 eating, 喝drinking, 喂feeding, 咬 biting, 抓catching,   捡起来 picking

(grabbing),   与 … 玩耍 playing

with, 追 chasing, 攀爬 climbing, 清洁 cleaning (washing, brushing), 弹奏/玩 playing, 触碰touching, 推pushing, 拉 pulling, 开opening,

 

人类行为(4)

 

烹饪 cooking,  和…说话 talking

to,  扔 / 抛 throwing (tossing), 切

slicing

 

交通场景(4)

 

驾驶 driving, 骑在 riding, 停在

parked on, 行驶在 driving on,

 

运动场景(3)

 

准备打 About to hit, 踢 kicking,挥舞 swinging,

 

背景关系(3)

 

进入 entering, 离开 exiting, 围绕着enclosing (surrounding, warping in)

 

五、提交结果

【初赛A榜】:

提交格式:ZIP包压缩文件;

压缩包文件命名:参赛选手ID+提交日期

解压后文件夹命名:submission

开始提交时间:8月16日

提交内容:json文件需要存储PNG格式图片的各个分割块对应的类别,以及20个主谓宾关系。主谓宾关系格式为“【主语对应的分割块编号,宾语对应的分割块编号,预测的关系编号】”。

相关结果生产代码和测试代码请参考

https://github.com/Jingkang50/OpenPSG

提交次数:每周2次

提交格式参考

【初赛B榜】:

提交格式:ZIP包压缩文件

提交内容:

1.代码运行环境镜像。
2.模型节点。
3.测试程序(统一格式封装)main.py:
包含函数:Output = getResult(Input):函数体内部包含选手设计的模型代码。
Input为测试数据集挂载路径。
Output 为模型对测试数据的输出结果。
4.同时需要提供ReadMe。

统一打包成Docker,将Docker上传至云盘并将链接写进txt文件,打包成zip包进行提交;

提交次数:1次

初赛审核群:截止提交后排行榜前20名扫码添加极市小助手极小新企业微信进入初赛审核群。

 

【决赛规则持续更新中】

 

六、评测标准

评分标准:

  • 针对每一张测试图片,我们期待模型输出场景图和对应的全景分割预测。

  • 对场景图的评价:对于场景图的主要的评价指标是 recall @ 20 和 mean recall @ 20。详情参考评测的实施细则部分。

  • 对全景分割的评价:我们同时希望模型对关系的合理利用可以帮助全景分割的效果的提升。我们利用全景分割的传统指标 PQ 进行评价。

  • 对模型预测速度的评价(决赛):我们希望模型能够快速处理图片,因此将模型运行效率也纳入评价指标。

  • 综合评价:通过以下的指标加权得到评价模型的综合得分:

  • 初赛:

    总评价值 = 30% × recall @ 20 + 60% × mean recall @ 20 + 10% × PQ

  • 决赛:

    总评价值 = 25% × recall @ 20 + 55% × mean recall @ 20 + 10% × PQ + 10% × 平均计算时间

 

评测的实施细则

在计算 recall @ 20 时,我们假设一张图片被标注了 n 个三元组。我们允许模型对每一张图片预测出 20 个主谓宾三元组,并统计模型预测的 20 个三元组中命中标注的三元组的个数 p。通过计算 p/n 得到单张图片的 recall @ 20。我们统计测试集的图片平均 recall @ 20 得到最终的指标。我们将测试集总图片数表示为?_???,该指标表示为:

 

在计算 mean recall @ 20 时,我们同样允许模型对每一张图片输出 20 个主谓宾三元组。在模型对整个 1000 张测试集图片预测完毕后,我们将得到 20x1000 个预测的三元组。假设整个数据集中有 t 个标注的三元组包含某谓语关系(如feeding),我们统计 2 万个预测的三元组中命中 t 个标注三元组的个数 k,通过计算 k/t 可得到针对单个关系的召回率。类似地,通过统计?_???=56 个关系的平均召回率得到最终的 mean recall @ 20,即:

 

需要注意的是,三元组的成功命中不仅仅要求预测三元组和标注三元组在标签上的匹配。以图3 的第二个标注三元组为例,仅仅预测出“person looking at elephant”是不够的,还需要模型输出的 person/elephant 分割和标注的 person/elephant 分割达到高于 0.5 的 IOU。

 

对于平均计算时间的评价,我们分成五个等级,如下表所示:

等级

A

B

C

D

E

时间

≤50ms

≤100ms

≤500ms

≤1s

≥10s

评分

1

0.8

0.6

0.4

0.2

七、比赛规则

初赛:1)不能使用额外数据训练模型;2)必须使用公开的开源模型做模型预训练;3)禁止用验证集训练模型;4)提交的模型输出结果必须符合大赛规范。

决赛:1)提交训练以及测试代码源码;2)提交预训练模型;3)提交代码文档和配置说明;4)模型训练以及测试过程可以由大赛主办方完全复现;

八、决赛评价标准

1、评价方法

针对每一张测试图片,我们期待模型输出场景图和对应的全景分割预测。

  • 对场景图的评价

对于场景图的主要的评价指标是recall @ 20和mean recall @ 20。详情参考评测的实施细则部分。

  • 对全景分割的评价

我们同时希望模型对关系的合理利用可以帮助全景分割的效果的提升。我们利用全景分割的传统指标PQ进行评价。

  • 对模型预测速度的评价

我们希望模型能够快速处理图片,因此将模型运行效率也纳入评价指标。

  • 综合评价

我们通过以下的指标加权得到评价模型的综合得分:

总评价值 = 25% x recall @ 20 + 45% x mean recall @ 20 + 20% x PQ + 10% x 平均计算时间

2、评测的实施细则

在计算recall @ 20时,我们假设一张图片被标注了n个三元组。我们允许模型对每一张图片预测出20个主谓宾三元组,并统计模型预测的20个三元组中命中标注的三元组的个数p。通过计算p/n得到单张图片的recall @ 20。我们统计测试集的图片平均recall @ 20得到最终的指标。我们将测试集总图片数表示为 ,该指标表示为:
在计算mean recall @ 20时,我们同样允许模型对每一张图片输出20个主谓宾三元组。在模型对整个1000张测试集图片预测完毕后,我们将得到20x1000个预测的三元组。假设整个数据集中有t个标注的三元组包含某谓语关系(如feeding),我们统计2万个预测的三元组中命中t个标注三元组的个数k,通过计算k/t可得到针对单个关系的召回率。类似地,通过统计N_rel=56个关系的平均召回率得到最终的mean recall @ 20,即:

需要注意的是,三元组的成功命中不仅仅要求预测三元组和标注三元组在标签上的匹配。以图3的第二个标注三元组为例,仅仅预测出“person looking at elephant”是不够的,还需要模型输出的person/elephant分割和标注的person/elephant分割达到高于0.5的IOU。

对于平均计算时间的评价,我们分成五个等级,如下表所示: