赛事一览
古籍文档图像分析与识别
  • 报名开始时间 2022-08-06
  • 报名结束时间 2022-10-07
  • 总奖金池 ¥1000000

一:项目概况

1、大赛介绍:

  • 数字经济时代,算法作为一种战略性科技要素已成为推进数字技术与实体经济深度融合的核心支撑。为发挥国家实验室作用,推动粤港澳大湾区大数据与人工智能算法生态体系建设,琶洲实验室(黄埔)受广州市黄埔区政府委托,自2022起创办《粤港澳大湾区(黄埔)国际算法算例大赛》(以下简称“大赛”),旨在打造大湾区首个以算法为主题的国际型竞赛,以此推动原始创新, 并带动数字经济的高质量发展。

  • 大赛以当前数字技术发展趋势和现实应用需求为牵引,面向全国遴选优质算法、汇聚全球高精尖技术、招揽国际算法高端人才。大赛坚持以科学性、引领性、实用性为原则,聚焦大数据、人工智能、物联网、云计算、元宇宙等新一代数字技术和互联网+、智能+等数字经济场景。 大赛采取每年聚焦不同主题的方式开展。首届算法大赛聚焦后深度学习时代AI 基础算法和智慧城市、智能制造等领域内的行业算法场景。

 

2、大赛赛程安排:

2022年7月20日-11月15日

  • 07月20日:开启预报名

  • 08月06日10:00:正式开赛,初赛训练集发布,下载数据集,线下开发

  • 09月15日10:00:初赛验证集发布

  • 09月15日10:00-9月26日10:00:提交验证集测试结果CSV文件在【初赛A榜】,每队每天限制提交1次

  • 09月26日10:00-9月30日18:00:【初赛A榜】前30名的参赛队伍到【初赛B榜】提交Docker文件成绩复现

  • 10月01日-10月07日:进行成绩审核及复现

  • 10月07日:【初赛B榜】结果宣布,任务前14名进入决赛阶段(擂台赛)

  • 10月07日-10月12日:出题方提供决赛数据。任何一只决赛队伍均可申请成为新擂主,并提供训练集、测试集,主办方进行审核并统一发布

  • 10月13日-10月14日:数据集审核 

  • 10月15日10:00-11月8日12:00:擂台赛决赛,选手下载数据,线下训练

  • 11月8日12:00-11月10日18:00:选手进行环境配置

  • 11月11日-11月17日:评测组进行成绩审核及复现,

  • 11月底:大赛公布排名及答辩

 

3、大赛参赛人员

  • 大赛面向全社会开放,个人、高等院校、科研单位、企业、创客团队等人员均可报名参赛;

  • 每位选手仅能加入一支参赛队伍,每只队伍组队上限5人。

注:(1)大赛组织机构单位中除了擂台赛,涉及题目编写、数据接触的人员禁止参赛;

     (2)主办方和竞赛制赛道出题方可参赛,不参与排名。

 

“关于组队”

您需要以团队为单位来参与竞赛,即便您是单人参赛也需要创建一支队伍。

组队详情:点击https://www.cvmart.net/document


 

4、报名须知:

1)在琶洲实验室(黄埔)官方活动页面进行报名参赛,后登录极市平台进行下载数据集,线下开发后提交CSV预测结果文件;

2)确保报名信息真实有效,一经发现,将取消参赛资格及激励;

3)参赛必读手册:https://www.cvmart.net/community/detail/6631

4)大赛官方微信群,扫码加入社群,及时获取大赛信息

 

二、赛制设置

1、擂台制赛道介绍

  • 擂台赛赛道瞄准解决国家重大需求的基础算法,聚焦后深度学习的人工智能及相关领域的核心问题,驱动人工智能及相关学科领域的关键技术发展。擂台制赛道由大赛组织方邀请领域内的顶尖专家教授作为赛题定义者,从学术前瞻性及未来人工智能相关学科的发展趋势出发,根据学术领域的研究与认知,设计具有科学性和前瞻性的赛题,面向全世界遴选优质算法,打造全球人工智能算法高地。

  • 擂台制赛道分为初赛和决赛两个个阶段,擂主直接进入复赛。初赛由开发者下载数据集进行线下开发,决赛擂主将于入围14名选手共同进行开发,为体现赛事公平性,将统一征集相关赛题数据集,增加应用场景,进行决赛角逐。

 

2、赛题介绍

本竞赛旨在征集先进的人工智能算法,解决高精度端到端古籍文档图像智能分析与识别技术难题,推动古籍OCR技术进步,为古籍数字化保护、整理和应用提供人工智能支撑方法。

 

3、赛题比赛规则

大赛分为初赛和决赛两个比赛环节。

 

- 线上初赛

初赛时间:2022年8月6日至2022年10月7日

初赛形式:初赛分为A、B榜。

【初赛A榜】

选手通过赛题主页-数据集,下载竞赛训练数据集,基于竞赛数据集在本地进行算法训练开发;本地开发完成后,选手将预测结果写入CSV文件中,然后上传提交至极市平台;

【初赛B榜】

A榜前30名队伍将Docker文件以及模型参数上传链接并打包成zip包提交,由主办方在B榜测试集上进行评测并公布B榜排位结果。

 

- 线上决赛 

决赛时间:2022年10月15日-11月15日

决赛形式

【擂台赛】

  • 决赛采取擂台赛的形式,首先由出题方(擂主)提供之前未公开、与初赛同类型的数据进行算法设计与评测,参赛队伍在该数据上进行测试并排位。

  • 同时,任何决赛参赛队伍均可申请成为新擂主,并发布相应的训练集、验证集进行擂台赛,所有队伍在新擂主发表的数据集上重新测试并进行排位。决赛队伍也可不申请成为擂主,仅参加别的擂主发布的数据赛题进行比赛评测。

【决赛内容】

  • 初赛B榜前14名的队伍与组委会提名的种子队伍共15支队伍进入决赛;

  • 选手下载决赛训练集进行线下训练,在规定时间内提交docker文件;

  • 主办方根据各参赛队伍在所有测试集上的成绩进行平均后得到最终的排位结果。

注:初赛A榜仅依据算法精度进行排名,B榜以及决赛同时根据算法精度和算法存储量速度效率进行归一化打分来进行排名。

 

4、参赛须知:

  • 本竞赛仅可使用比赛主办方与擂主提供的数据、公开数据集(指在2022年7月20日前已经公开,且所有人均可获取的数据集)、合成数据(不可使用非公开数据集进行数据合成;若使用合成数据,需提交文档说明清楚数据合成方法),不得使用私有数据进行训练或数据合成。各参赛队伍必须在提交文档中说明清楚使用的其它公开数据集的来源、规模及下载地址。

  • 初赛阶段,每支队伍每天在A榜提交次数为1次,而在B榜以及决赛阶段各队伍总共只能提交3次代码。排名取各队伍最佳的成绩进行排序给出。

  • 决赛参赛擂主提供的数据必须按本次竞赛任务设置提供中文古籍图像数据,而且必须在指定时间内提交数据和相应的标注,由主办方审核并进行统一发布。

  • 决赛参赛队伍进行结果评测时只需提交一个训练好的模型以在所有测试集上测试并进行最终排位。

  • 本次比赛旨在体现算法的先进性,不鼓励进行模型集成。如果参赛队伍采用多个模型进行集成,每增加1个模型,原始算法精度将乘以0.97作为惩罚。

  • 初赛前14名及决赛前8名的队伍,需要向主办方提供完整的训练与测试代码、模型参数以及详细的训练流程说明(包括GPU设置,数据使用情况、模型情况、训练参数设置、训练流程等,打包成docker)进行官方复现与测试,并能在合理的时间内完成复现。在主办方进行代码测试和复现过程中,相关的队伍有义务配合主办方进行代码复现(包括合成数据的复现)。无法提供代码进行测试及复现的队伍、或不配合进行代码测试及复现的队伍,将被取消获奖资格。

  • 各决赛参赛队伍提交的代码和数据的版权归各相应提供方所有。

  • 若发现有队伍存在违规作弊行为,决赛名额以及最终排名依照综合性能指标顺延。

 

违规作弊行为包括但不限于:

  • 模型代码与文档描述不符

  • 提交代码无法复现出评测结果

  • 利用测试集训练模型

  • 违规使用私有数据集进行训练

  • 违规使用私有数据集进行数据合成

  • 其它存在违反本次比赛规则的行为


一、背景及意义

  • 中国几千年辉煌的华夏文明,留下了海量的古籍文献资料,这些文字记录承载着丰富的历史信息和文化传承。为响应古籍文化遗产保护、古籍数字化与推广应用的国家战略需求,传承中华优秀传统文化,挖掘利用古籍文献中蕴含的丰富知识,古籍透彻数字化工作势在必行。

  • 由于古籍文档图像的版式复杂、不同朝代的刻字书写风格差异大、古籍文字图像存在缺失、污渍、笔墨污染、模糊、印章噪声干扰、生僻字异体字繁多等技术挑战,古籍文档图像的识别及理解依然是一个极具挑战、远未解决的技术难题。

  • 为解决我国海量古籍数字化难题,本竞赛旨在征集先进的人工智能算法,解决高精度古籍文字检测、文本行识别、端到端古籍识别技术难题,推动古籍OCR技术进步,为古籍数字化保护、整理和利用提供人工智能支撑方法,特此举办本次比赛。

                                                  图 1古籍文档示例

二、赛题描述

任务:古籍文档图像分析与识别 

输入:篇幅级别的古籍文档图片

输出:利用文档图像物理及逻辑版面结构分析、文字检测、文字识别、文字阅读顺序理解等技术输出结构化的文本行坐标以及识别内容,其中各个文本的检测结果与识别内容按阅读顺序进行排列输出。模型仅输出正文的检测识别结果。忽略如版心、卷号等非结构化的内容。

 

码表说明

本次比赛提供码表(下载链接见链接: https://pan.baidu.com/s/16wUeSZ4JKD6f1Pj9ZhlKww 提取码: i53n ),其中包含了初赛训练集、验证集(初赛A)及测试集(初赛B榜)中出现的字符类别。(注意:由于比赛设置了zero shot识别场景,训练集中出现的字符类别没有完全覆盖码表中的类别,目前公布的码表已完整覆盖初赛训练集及初赛A榜测试集的所有字符类别,初赛B榜码表可能会略有微调,后续将择机公布,请留意比赛官网通知。)

 

初赛B榜码表公布:

下载链接见链接:https://pan.baidu.com/s/1gaNlKHk6lh5FxC2QP4UuDg 
提取码:umzz 
(公布日期:202298) 

 

三、数据集说明     

  • 初赛数据集:训练集、验证集与测试集各包括1000幅古籍文档图像(共3000张图像),数据选自四库全书、历代古籍善本、乾隆大藏经等多种古籍数据。任务仅考虑古籍文档的正文内容,忽略如版心、卷号等边框外的内容。

  • 决赛数据集:由于采取【擂台赛】的形式,除了主办方提供的原始初赛数据集以及决赛数据之外,决赛参赛队伍可申请成为擂主并提供各自的数据集供其他进入决赛的队伍进行训练和测试,提供的训练集不少于1000张,测试集不多于1000张,提供的数据集标注格式应与主办方提供的数据格式相同。

 

数据集标注格式:

每幅图像文本行文字及内容根据文本行阅读顺序进行标注,包含在一个单独的json文件。标注格式如下所示:

{ “image_name_1”, [{“points”:  x1, y1, x2, y2, …, xn, yn, “transcription”: text}, {“points”:  x1, y1, x2, y2, …, xn, yn, “transcription”: text}, …], “image_name_2”, [{“points”:  x1, y1, x2, y2, …, xn, yn, “transcription”: text}, {“points”:  x1, y1, x2, y2, …, xn, yn, “transcription”: text}, …], …… }


  • x1, y1, x2, y2, …, xn, yn代表文本框的各个点。

  • 对于四边形文本,n=4;数据集中存在少量不规则文本,对于这类标注,n=16(两条长边各8个点)。

  • Text代表每个文本行的内容,模糊无法识别的字均标注为#。

  • 其中文本行的检测与识别标签按照正确的阅读顺序给出。端到端识别内容按照阅读顺序进行标注,仅考虑文档的正文内容,忽略如版心、卷号等边框外的内容。

  • 阅读顺序的编排如图2所示。

                       图2 端到端古籍文档图像结构化识别理解中的阅读顺序标注可视化

 

四、提交结果

【初赛A榜】

  • 提交格式:测试图片同名的CSV文件的zip压缩包

  • 提交文件命名与样式:results

  • 提交内容:每张图片对应一个CSV文件,CSV文件中包含文本的检测框坐标以及对应的识别结果,并且这些文本都要按照预测得到的阅读顺序进行排列。

Csv文件内部格式如下:

x1, y1, x2, y2, x3, y3,…, xn, yn, transcription_1

x1, y1, x2, y2, x3, y3,…, xn, yn, transcription_2

x1, y1, x2, y2, x3, y3,…, xn, yn, transcription_n

 

(其中xn, yn代表坐标,这些坐标按顺时针进行排列,transcription_n代表文本的识别内容)

  • 提交内容样式示例:

    链接:https://pan.baidu.com/s/1h9smrGBwfJ78IP3WUlkEYQ 
    提取码:suzi 

  • 提交次数:每天1次

  • 开始提交时间:9月15日

 

【初赛B榜】

  • 提交格式:云盘链接zip包

  • 提交内容:将代码、模型及参数说明、环境与模型参数打包成Docker,将Docker上传至云盘并将链接写进txt文件,打包成zip包进行提交;

  • 提交次数:最多3

  • 前向脚本示例:

    链接:https://pan.baidu.com/s/1Hi6bTn0_sR4Oioe0mimp6g 
    提取码:X6R4 

  • 初赛B榜审核群:排行榜前20名扫码添加极市小助手极小新企业微信进入初赛B榜审核群

 

  • 参赛者完整复现代码文件提交说明:

   链接:https://pan.baidu.com/s/1UuNaSq7qs_SyZmfFWB8T4A 
   提取码:d7vr 

注:参赛队伍需按照指引写好前向推理代码,包括图像输入接口与模型输出接口。

【决赛榜】

提交内容同【初赛B榜】

五、评测标准

评审指标

指标说明

权重分

算法精度(端到端NED评测指标、阅读顺序检测指标)

算法精度得分(100分):

文本识别性能指标(80%):包括两部分。

  • 首先使用IoU计算预测文本框和标签文本框的匹配情况,选出和标签文本框IoU最大且最大IoU>0.5的预测框为匹配的文本序列串;

  • 接着对匹配的文本串计算归一化的编辑距离(NED)。

  • 考虑到误检的惩罚,对于没有与标签文本框匹配的检测文本框,会与空序列计算编辑距离。为最终的指标结果。

  • 其中,,为匹配的文本序列串,,分别为各自的文本行长度。为匹配对的文本行个数。

阅读顺序识别性能指标(20%):为了同时检验模型的阅读顺序检测性能,参赛选手需要在输出检测识别结果时对模型文本框进行重新排序,根据排序后的结果和标签计算指标结果。

指标借鉴Average Relative Distance(ARD)。

为最终的指标结果。

  • 其中A表示目标序列,B表示模型的生成序列,表示序列A中的第k个文本行。

  • 表示当中第个元素在生成序列中时,返回此时在中的索引。

  • 返回当前图片的阅读顺序检测指标。

  • 为最终的指标结果。

进行归一化计算后(说明见评分细则),

算法精度 =(0.8*+0.2*)*100

80%

算法成本效率

算法成本指标得分(50分):根据模型参数的存储量大小进行评估。

算法效率指标得分(50分):在推荐使用的相同评测环境(GPU)下,根据从图像输入程序开始,到输出结果结束计算算法的前向速度计算效率得分。

 

对成本与效率得分进行归一化后(说明见评分细则),

算法整体成本效率=0.5*成本得分+0.5*效率得分

20%

总分

Score=算法精度归一化得分*80%+算法成本效率归一化得分*20%


评分细则

针对四个指标的最终得分,先进行归一化计算,再根据归一化得分计算整体的算法精度与成本效率,并最终得出总分。归一化方式如下:

 

1、 根据性能指标的排名设定赋分区间如下表所示:

前20%前20%-40%前40%-60%前60%-80%后20%(100,95)(94-90)(89-85)(84,80)(79,75)

 

2、对于任意区间,排位最高的队伍指标为,赋该区间内最高分,排位最低的队伍指标为,赋该区间内最低分(如排前20%的队伍中,指标最高的得100分,最低的得95分),而中间队伍的归一化得分计算如下:

F代表该队伍的性能指标。

 

3.   该score作为的归一化得分,参与加权得到最终的总分。

 

4.   本次比赛旨在体现算法的先进性,不鼓励进行模型集成。如果有队伍采用多个模型进行集成,每增加1个模型,原始算法精度将乘以0.97作为惩罚。