编辑: 麒麟兔爷 2015-12-03

20 个样本.数据集的详细描述参考:https://arxiv.org/abs/1707.09835. 比赛数据集(659 类): https://raw.githubusercontent.com/brendenlake/omniglot/ master/python/images_evaluation.zip 参考数据集(964 类): https://raw.githubusercontent.com/brendenlake/omniglot/ master/python/images_background.zip 请使用比赛数据集,可考虑使用参考数据集来提升预 测准确性. 使用比赛数据集时仅可使用每类

1 张,

5 张,

10 张图片进行训练.预测准确性度量使用 TOP

1 Error Rate. 1.提供典型场景解决方 案;

2.提供算法说明与性能 评估. 1.设计论文 2.算法原型 3.原型系统 1.方案设计清晰明确. 2.可运行的原型系统. 3.可复现的测试结果. 4.有效利用参考数据集 提升系统预测准确性. A

2 未标注数据辅助 图片分类 基于深度神经网络的图片分类模型对标注数 据有很强的依赖.在很多应用场景中,标注 图片难以大量获取,或者需要付出高昂的成 本;

另一方面,存在大量未标注图片可供模 型训练.设计一个方法,充分利用未标注数 据解决图片分类任务. 1. 使用少量标注样本和大量未标注样本训练图片分 类模型,如使用预训练模型,需明确说明. 2. 可自行选取数据集,或使用如下推荐的数据集和 实验设置: 2.1. 使用 CIFAR-100 数据集,其中包括

100 类图片, 每类

500 个训练样本和

100 个测试样本,可参考 https://www.cs.toronto.edu/~kriz/cifar.html. 2.2. 选取

20 类图片.对每一类,可使用

500 个训练样 本进行训练(及验证),其中最多

20 个作为标注样本, 其他只能作为未标注样本;

其100 个测试样本供测试 使用. 2.3. 剩余

80 类图片的训练样本(不包括测试样本)可 作为未标注数据供模型训练使用. 2.4. 模型随机初始化,即不使用上述数据之外的其他 1.提供典型场景解决方 案;

2.提供算法说明与性能 评估. 1.设计论文 2.算法原型 3.原型系统 1.方案设计清晰明确. 2.可复现测试结果. 3.有效利用未标注数据 提升模型准确性.

8 (标注或未标注)数据进行预训练. A

3 通过 geo-tag 照片 研究环境变化 通过对某一景区的游览照片的分析来判断近 年来环境的变化. 1. 从Filckr 等网站获取带有时间和地点信息的照片 (参考 mapping the world'

s photos 论文) 2. 将同一地点的照片按时间排序以后(例如天安门 前)观察环境的变化.总体变化和季节性变化. 关键技术分析 1.设计论文 2.算法原型 3.原型系统 1.收集的数据量是否能 够支持分析 2. 主要以中国城市为主 3. 变化和发现 B

4 手机旅游翻译助 手 通过手机拍图(印刷体)进行 OCR,对相应的 文本信息进行翻译 1. 图片 OCR,接近实时的文档分析 2. 对某一类问题(如菜单)进行翻译(如中翻英) 3. 对翻译结果使用手机进行展示 1.提供典型场景的解决 方案 2.提供算法说明与性能 评估 1.设计论文 2.算法原型 3.原型系统 1.方案设计清晰明确, 算 法优秀,效率高. 2.能够实时展示结果. (实测数据需要考虑现实 内容,训练和测试样例要 同步提交) B

5 中文任务型对话 系统中的领域分 类 背景: 现有一个任务型对话系统,可以处理 K 个垂 直领域(比如:订餐、导航等)的用户输入, 那么对于该 K 个垂域之外的用户请求就无法 处理.这就要求我们在做用户文本输入领域 分发的时候,除了需要将领域内的用户输入 精确识别外,也需要将领域外无法处理的输 入分到一个特定的类别里面 (第K+1 个类) , 以通过其他的方式(比如:搜索)进行处理. 我们通常将判别用户说法是否是领域外说法 的任务称为 OOD(Out-of-Domain)检测. 定义 给定包含该 K 个意图或者领域的标注语料 Q1,以及类别数为 K+1(K 个领域+OOD) 的开放域测试集 T,要求提供领域分类算法 方案,在测试集 T 上达到: (1)在该 K 个领域有较高的分类准确率和召 回率;

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题