大赛介绍
“天马杯全球高校科技创新大赛”(以下简称大赛),是由马上消费金融股份有限公司主办的高校级别的科技主题杯赛。在新时代国家信息化发展“数字中国”大战略背景下,2021届大赛主题为“敢为所AI,无惧未来”,围绕人工智能核心技术助力实体经济建设的宗旨,依托马上消费强大的科技实力与丰富的行业数据,吸引高校人才共同发现、创造具体落地场景的技术方案。以赛引才、以赛促研、以赛兴业,通过大赛的举办为优秀的高校人才提供企业就业机会,为广大高校学子的创业、创新提供观点与思路的交流,引导更多青年人才在乡村振兴赋能、数字中国建设等方面进行有价值的探索。
赛题背景
视觉赛道 - AI鸡群数量监测
农业农村农民问题是关系国计民生的根本性问题,科技助力乡村振兴是马上消费作为国民企业的责任。本届大赛的视觉赛道选取马上消费“乡村振兴”智慧养鸡平台中的AI鸡群数量盘点场景,通过摄像头拍摄并自动计算鸡群数量,科技赋能替代原来费时费力的人工盘点,帮助养鸡场提高鸡群盘点效率,实现鸡群自动化管理。此项赛题涉及密集目标检测,属视觉类典型技术,对AI算法实现精准计算提出了较高挑战。
乡村振兴的必由之路是加快农业农村现代化,必要环节就是科技赋能。此赛题的场景正是科技赋能乡村振兴的“缩影“,通过科技加持带动农村产业发展,支持农民增加收入!
语音赛道 - 无监督学习ASR
虽然使用带标签数据的监督学习ASR模型在学术和工业上都取得了巨大的成功,但是我国幅员辽阔,民族众多,在方言、少数民族语言等小语种上想要获取海量标注数据存在非常大的困难。如何使用少量的场景或者方言数据,就能达到好的识别效果?本届大赛语音赛道的赛题“无监督学习ASR”,正是为了解决不同场景下、不同语种下数据资源不足,无法使用现有ASR技术的难点问题。
随着我国经济的发展,各行业服务水平的提升,无监督学习ASR能够低成本覆盖更多的应用场合,更多的语种,例如服务于广大农村用户群体,这是一个很有发展潜力的研究方向!
NLP赛道 - 科技新闻分类与摘要
这是一个信息爆炸的时代,在有限的时间能够对所关心领域的信息进行有效获取,成了越来越多人的必要需求。例如,马上消费金融所在的金融科技领域的新闻信息海量,其中分为很多子领域,比如与金融科技相关的监管政策、金融巨头动态、金融科技公司动态等等,不同的子领域产生的新闻风格、内容都有很大的差异。有效利用算法对现有领域的金融科技新闻进行摘要提取和精准推送,并且把模型迁移到其它领域的数据集上,是本届大赛NLP赛道“科技新闻分类与摘要”的应用场景。
信息爆炸时代,利用模型对信息进行精准分类和摘要,以及在不同领域数据上进行有效迁移,正变得越来越有价值,也受到学术界和工业界的广泛关注和研究!
赛事安排
初赛环节
初赛通过线上方式进行,参赛选手在规定时间下载相应赛题的比赛数据,登录比赛官网提交数据后由评审组进行评审,成绩优胜者进入决赛,每个赛道排名前十的队伍有机会进入决赛。
决赛为现场比赛(决赛地点为重庆),入围决赛团队将进行现场答辩,大赛邀请高校&行业协会&企业的技术专家组成评委团,评委团综合打分后决出大赛最终的各个奖项,进行现场颁奖。
决赛环节
大赛时间安排
9.28-10.20 |
大赛报名启动 各赛道数据开放 |
10.31 |
报名通道关闭 线上初赛进行中 |
11.20 |
初赛成果提交 线上初赛数据关闭 |
11.20-11.30 |
初赛成绩评审 决赛入围名单公布 |
12.1-12.15 |
线下决赛举行 大赛颁奖典礼 |
参赛要求
1、参赛范围:全日制在校在读大学生,包括本科、硕士、博士。
2、参赛选手以团队组队形式参赛,每队1-5人,每人只可参加一个团队。
3、报名方式:登录马上消费金融官方网站报名参加天马杯大赛。
4、报名时间:9月28日报名通道正式开启,10月31日报名通道关闭。
奖项设置
一等奖 | 1名 | 奖金50000元/队 | 马上消费金融人工智能研究院offer |
二等奖 | 2名 | 奖金20000元/队 | 马上消费金融人工智能研究院offer |
三等奖 | 2名 | 奖金10000元/队 | 马上消费金融人工智能研究院offer |
优秀奖 | 2名 | 奖金5000/队 | 马上消费金融人工智能研究院offer |
大赛声明
若出现以下情况,将视为违规,大赛组委会将有权取消参赛者或者参赛队的资格。
1、参赛报名信息虚假,不符合大赛报名以及组队要求的参赛者/参赛队。
2、参赛作品涉嫌弄虚作假,或者抄袭,侵犯他人知识产权等行为。
3、参赛期间或者参赛作品发现或者被举报认定存在其他的违法、违规行为。
联系我们
大赛邮箱:stic@msxf.com
联系电话:18682298169 主
办机构:马上消费人工智能研究院&马科大研究院
联办单位:西北工业大学、北京希尔贝壳科技有限公司
赛事官网
语音赛道赛题说明
无监督学习ASR赛题说明
1、使用带有标注信息的资源进行有监督学习的ASR模型,在学术和工业上都取得了巨大的成功。但是我国幅员辽阔,民族众多,在方言、少数民族语言等小语种上想要获取海量标注数据存在非常大的困难。如何使用少量的场景数据或者方言数据,就能达到好的识别效果呢?AI人工智能领域试图探索不需要语音-文字转录数据的语音识别系统。为了解决在不同场景下、不同语种下和数据资源不足的情况下,现有ASR技术性能损失严重的问题。我们寻求更优模式,更优算法来实现低资源ASR系统,期待本次大赛高手过招!
2、初赛任务:本赛题使用受限数据。
(1) 针对方言、小语种语音识别系统,在数据资源不足,标注难以获取的情况下,使用半监督,无监督建模成为一种可能。本次赛题旨在探索低资源语音识别更高准确度,更优算法。
(2) 考虑到比赛为了突出技术深度,避免数据带来的增益过大;鼓励参赛队伍能够深度参与这次活动,本次比赛中只允许使用官方提供的 Aishell-1开源数据集。不允许使用外部数据,包括其它语音识别数据集、纯文本数据集,以及语音合成数据等;可以在开源的预训练模型,如wav2vec基础上fine-tune;不允许使用模型融合系统。
(3) 发音词典可以采用Aishell-1提供的发音词典,也可以采用公开渠道可获取的词典,包括通过商业渠道或者开源项目提供的发音词典。
(4) 主办方提供预训练模型和baseline基线系统。并且提供单卡T4(16G)GPU服务器用于完成比赛任务(数量有限,先到先得)。
3、初赛赛程:初赛分为A榜评测和B榜评测。A榜评测开放时间为10月1日到11月15日,B榜评测时间为11月16日-11月19日,最终初赛成绩以B榜排行榜为依据选拔晋级队伍进入决赛。
◆9月28日 10:00:00 官网报名组队启动
◆10月01日 10:00:00 发布训练集、开发集和A榜测试集数据,A榜评测在线提交结果启动,A榜排行榜启动,每队每日可提交两次
◆10月22日 10:00:00 发布预训练模型,baseline系统
◆10月31日 23:59:59 官网报名组队截止
◆11月15日 23:59:59 A榜提交结果截止,A榜排行停止刷新
◆11月16日 10:00:00 发布B榜测试集数据,开放B榜结果提交,每队可提交多次但仅评测最后一次提交数据
◆11月19日 23:59:59 B榜在线提交结果截止
◆11月20日 18:00:00 B榜排行榜评测出分,按B榜成绩排序Top15队伍提交比赛系统和说明文档(A榜成绩不计入)。组委会对提交的比赛系统和说明文档进行复现和评审。
◆11月30日 10:00:00 决赛入围名单公布,经过评审后初赛排名TOP 10队伍入围决赛
4、数据描述
◆ 预训练模型:组委会10月22日发布
◆ 训练集:Aishell-1训练集
◆ 开发集:Aishell-1开发集
◆ A榜测试集:Aishell-1测试集
◆ B榜测试集:比赛组委会11月16日发布
5、评价指标
◆ 比赛将以补充测试集上的字错误率(CER)进行最后队伍名次的排序。
CER = (S + D + I ) / N
CER,Character Error Rate,S为替换的字数,D为删除的字数,I为插入的字数,N为总字数
◆ 最终解释权归大赛组委会所有。
6、语音赛道组委会
联席主席:谢磊 教授 西北工业大学
联席主席:王洪斌 高级总监 马上消费金融有限公司
委员: 刘敏 总监 马上消费金融有限公司
委员: 卢晶 研究员 马上消费金融有限公司
委员: 卜辉 CEO 北京希尔贝壳科技有限公司
B版测试集
微信公众号
联系我们
商务合作:bd@aishelldata.com
技术服务:tech@aishelldata.com
联系电话:+86-010-80225006
公司地址:
北京市海淀区西北旺东路10号院东区10号楼新兴产业联盟大厦3层316室
开源数据