同盾科技声纹识别建模大赛
以一线业务的实战经验为素材,与广大AI技术开发者一起针对声纹识别在风控领域的应用做更深入的探索。
赛事简介
本次“同盾科技声纹识别建模大赛”立足于选拔出色AI人才,致力于打造“智能风控”,为高潜力人才与高增长行业建立起精准对接的桥梁。此次同盾联合科赛、希尔贝壳,并由腾讯云全程支持计算资源,发起声纹大赛。基于同盾科技核心业务展开,以一线业务的实战经验为素材,与广大AI技术开发者一起针对声纹识别在风控领域的应用做更深入的探索。
数据提供方:希尔贝壳
云资源支持:由腾讯云|云+创业全力
决赛获奖名单
一等奖:河姆渡小分队
二等奖:咖喱棒, SeuTao
三等奖:HelloKittty, C-baseline, cehn
大赛命题
要求基于给定的训练数据建立模型,从而可对任给定的两段语音数据,模型输出这两段语音是由同一个人说的概率p, p∈[0,1]。
比赛日程
• 比赛时间:2018-08-01 至 2018-10-22
• 初赛阶段:2018-08-01(12:00:00) 至 2018-09-07(23:59:59)
• 初赛评审阶段:2018-09-08 至 2018-09-10
• 复赛阶段:2018-09-11 (12:00:00)至 2018-10-10(23:59:59)
• 复赛评审阶段:2018-10-11 至 2018-10-15
• 决赛线下路演:2018-10-22(14:00:00)
• 比赛阶段:
• 初赛:2018-08-01 至 2018-09-10
• 选取初赛排行榜前30名的队伍进入复赛
• 复赛:2018-09-11 至 2018-10-15
• 选取复赛排行榜前10名的队伍进入决赛
• 线下决赛路演:2018-10-22
• 当天进行选手作品答辩,评出获得一、二、三等奖和优秀奖的队伍
评审标准
自动评审:
提供每天5次的评测与排名机会,实时更新排行榜,按照评测分数从高到低排序。若队伍一天内多次提交结果,新结果版本将覆盖原版本。
评测指标说明:
初赛
• 评审使用EER值来判断分类模型的好坏。
复赛评审
• 评测指标EER
• 评审采用Public/Private榜,答案文件中,40%的数据被用于Public榜的评测,其余60%的数据被用于Private榜评测
*比赛结束后Private成绩将被自动公开,最终比赛成绩由private榜确定。
每阶段比赛结束后,我们会检查选手提交的结果是否
• 无作弊
• 提交了K-Lab notebook
• 在K-Lab中可以成功复现
在上述条件均满足的队伍中,初赛排行榜前30,和复赛排行榜分数排名前10名的队伍将晋级到下一阶段。若参赛队伍在上述条件中有一条未满足,则没有晋级资格。
* 进行复赛进决赛评审时,进入复赛的全部30支队伍需提交notebook
决赛评审
• 复赛成绩权重:60%
• 决赛答辩成绩:40%
• 决赛答辩评分规则:
维度 | 说明 | 权重 |
创新性 | 方案的技术创新程度,包括技术的新颖性、独创性和先进性,符合本领域的技术发展趋势, ⽽非简单复用现有成熟方案 |
35% |
完整性 | 技术关键路径的完整性,包括技术方案的调研⽐比较、测试评估的科学性、 模型训练调优的体系化,以及上述这些措施在最终结果中的体现 |
35% |
可行性 | 技术方案在实际应⽤用中的可⾏行行性,包括对计算资源、对数据量量的要求 ,调⽤用延迟⼤小 |
30% |
备注: 如果选手的决赛成绩相同,复赛排行榜名次高者获胜。
奖项设置
奖金设置:
• 本次大赛共设置三个奖项,奖金一共¥276,000人民币。
奖项 | 一 | 二 | 三 | 优秀 |
队伍数 | 1 | 2 | 3 | 4 |
每支队伍奖金(¥) | 80,000 | 50,000 | 20,000 | 9000 |
其他奖励:
• 为进入决赛的优秀选手提供两个实习名额(若优秀选手较多,可适当增加名额)
数据说明&查看路径
初赛数据集访问路径
• 请在K-Lab Kernel中输入如下指令访问数据集:
!ls /mnt/datasets/tongdun_competition/1st_round/
• 可以看到如下文件/文件夹
• pair_id.txt
• training_set_spk_info.csv
• training_set/
• test_set/
初赛中使用的数据分为训练集和测试集两部分
• 训练集:
• 共1000个说话人,具体关于训练集中录音人相关信息的内容,请查看文件目录下的training_set_spk_info.csv
• 训练集中每个文件夹名为该录音人的ID,其中包含所有该录音人所说的语音
• 测试集:
• 共包含1200对语音音频组合,pair_id.txt预置在了数据集中
初赛阶段:
• K-Lab使用腾讯云CPU,4核16G内存。K-Lab的单次运行时长为6小时,运行时长的最后90分钟内皆可选择是否“延长可用时长”。
• 任务:
• 训练/验证:使用所提供的说话人各自的语音音频数据与说话人性别,在K-Lab中建立模型、验证模型,可对任给定的两段语音数据,模型输出这两段语音是由同一个人说的概率p, p∈[0,1]
• 输出结果:根据训练集中所提供的pair_id.txt,对测试集中的1200对语音分别输出是由同一人说的概率p,并将结果文件(csv)通过K-Lab上传至自动测评系统得到EER分数
• 测试集说明:测试集包含1200对语音音频组合,pair_id.txt预置在了复赛使用的数据集中。示例如下:
•
pairs_id |
0001_0002 |
0003_0004 |
0004_0005 |
* 每一行表示一对音频组合。'0001_0002'表示测试集目录test_set下的音频0001.wav和0002.wav; '0003_0004'表示测试集目录下的音频0003.wav和0004.wav,以此类推。
• 本次比赛初赛的训练数据随机从希尔贝壳中文普通话语音数据库中,每人抽取5分钟左右的数据,共1000名来自中国不同口音区域的发言人参与录制。录制过程在安静室内环境中,同时使用3种不同设备: 高保真麦克风(44.1kHz,16bit);Android系统手机(16kHz,16bit);iOS系统手机(16kHz,16bit)。录音内容涉及财经、科技、体育、娱乐、时事新闻等12个领域。
• 语料池处理
• 脱敏处理。删除政治敏感、个人隐私、色情暴力等内容。
• 删除 < , > , [ , ] , ~ , / , \ , = 等符号。
• 删除含有中文和英文以外语言的内容。
• 统一格式。
复赛数据集访问路径:
• 请在K-Lab Kernel中输入如下指令访问数据集:
!ls /mnt/datasets/
• 可以看到如下文件/文件夹
• pairs_id.txt
• training_set/
• test_set/
• spk_info.csv
• trainingset_transcript.txt
复赛中使用的数据分为训练集和测试集两部分
• 训练集
• 训练集包含超过6000名录制人的音频,来自OpenSLR数据集和AISHELL-2500数据集。
• 对于来自AISHELL-2500数据集的部分,我们提供了spk_info.csv文件,记录了音频录制人的id,年龄段,性别,口音区域,句数等信
息;以及trainingset_transcripts.txt,包含了音频录制者所有话语的文字记录。
• 测试集
• 测试集共包含3000对音频,以及pairs_id.txt,记录了测试集音频的ID字段。
复赛阶段:
• K-Lab使用GPU,M40。
• 任务:
• 训练/验证:使用所提供的说话人各自的语音音频数据与说话人性别,在K-Lab中建立模型、验证模型,可对任给定的两段语音数据,模
型输出这两段语音是由同一个人说的概率p, p∈[0,1]
• 输出结果:根据训练集中所提供的pair_id.txt,对测试集中的3000对语音分别输出是由同一人说的概率p,并将结果文件(csv)通过
K-Lab上传至自动测评系统得到EER分数
• 测试集说明:测试集包含3000对语音音频组合,pair_id.txt预置在了复赛使用的数据集中。示例如下:
•
pairs_id |
0001_0002 |
0003_0004 |
0004_0005 |
* 每一行表示一对音频组合。'0001_0002'表示测试集目录test_set下的音频0001.wav和0002.wav; '0003_0004'表示测试集目录下的音频0003.wav和0004.wav,以此类推。
微信公众号
联系我们
商务合作:bd@aishelldata.com
技术服务:tech@aishelldata.com
联系电话:+86-010-80225006
公司地址:
北京市海淀区西北旺东路10号院东区10号楼新兴产业联盟大厦3层316室
开源数据