编辑: 麒麟兔爷 | 2015-12-03 |
20 个样本.数据集的详细描述参考:https://arxiv.org/abs/1707.09835. 比赛数据集(659 类): https://raw.githubusercontent.com/brendenlake/omniglot/ master/python/images_evaluation.zip 参考数据集(964 类): https://raw.githubusercontent.com/brendenlake/omniglot/ master/python/images_background.zip 请使用比赛数据集,可考虑使用参考数据集来提升预 测准确性. 使用比赛数据集时仅可使用每类
1 张,
5 张,
10 张图片进行训练.预测准确性度量使用 TOP
1 Error Rate. 1.提供典型场景解决方 案;
2.提供算法说明与性能 评估. 1.设计论文 2.算法原型 3.原型系统 1.方案设计清晰明确. 2.可运行的原型系统. 3.可复现的测试结果. 4.有效利用参考数据集 提升系统预测准确性. A
2 未标注数据辅助 图片分类 基于深度神经网络的图片分类模型对标注数 据有很强的依赖.在很多应用场景中,标注 图片难以大量获取,或者需要付出高昂的成 本;
另一方面,存在大量未标注图片可供模 型训练.设计一个方法,充分利用未标注数 据解决图片分类任务. 1. 使用少量标注样本和大量未标注样本训练图片分 类模型,如使用预训练模型,需明确说明. 2. 可自行选取数据集,或使用如下推荐的数据集和 实验设置: 2.1. 使用 CIFAR-100 数据集,其中包括
100 类图片, 每类
500 个训练样本和
100 个测试样本,可参考 https://www.cs.toronto.edu/~kriz/cifar.html. 2.2. 选取
20 类图片.对每一类,可使用
500 个训练样 本进行训练(及验证),其中最多
20 个作为标注样本, 其他只能作为未标注样本;
其100 个测试样本供测试 使用. 2.3. 剩余
80 类图片的训练样本(不包括测试样本)可 作为未标注数据供模型训练使用. 2.4. 模型随机初始化,即不使用上述数据之外的其他 1.提供典型场景解决方 案;
2.提供算法说明与性能 评估. 1.设计论文 2.算法原型 3.原型系统 1.方案设计清晰明确. 2.可复现测试结果. 3.有效利用未标注数据 提升模型准确性.
8 (标注或未标注)数据进行预训练. A
3 通过 geo-tag 照片 研究环境变化 通过对某一景区的游览照片的分析来判断近 年来环境的变化. 1. 从Filckr 等网站获取带有时间和地点信息的照片 (参考 mapping the world'
s photos 论文) 2. 将同一地点的照片按时间排序以后(例如天安门 前)观察环境的变化.总体变化和季节性变化. 关键技术分析 1.设计论文 2.算法原型 3.原型系统 1.收集的数据量是否能 够支持分析 2. 主要以中国城市为主 3. 变化和发现 B
4 手机旅游翻译助 手 通过手机拍图(印刷体)进行 OCR,对相应的 文本信息进行翻译 1. 图片 OCR,接近实时的文档分析 2. 对某一类问题(如菜单)进行翻译(如中翻英) 3. 对翻译结果使用手机进行展示 1.提供典型场景的解决 方案 2.提供算法说明与性能 评估 1.设计论文 2.算法原型 3.原型系统 1.方案设计清晰明确, 算 法优秀,效率高. 2.能够实时展示结果. (实测数据需要考虑现实 内容,训练和测试样例要 同步提交) B
5 中文任务型对话 系统中的领域分 类 背景: 现有一个任务型对话系统,可以处理 K 个垂 直领域(比如:订餐、导航等)的用户输入, 那么对于该 K 个垂域之外的用户请求就无法 处理.这就要求我们在做用户文本输入领域 分发的时候,除了需要将领域内的用户输入 精确识别外,也需要将领域外无法处理的输 入分到一个特定的类别里面 (第K+1 个类) , 以通过其他的方式(比如:搜索)进行处理. 我们通常将判别用户说法是否是领域外说法 的任务称为 OOD(Out-of-Domain)检测. 定义 给定包含该 K 个意图或者领域的标注语料 Q1,以及类别数为 K+1(K 个领域+OOD) 的开放域测试集 T,要求提供领域分类算法 方案,在测试集 T 上达到: (1)在该 K 个领域有较高的分类准确率和召 回率;