NeurIPS 大动作!专为数据集和基准测试推出新track,李飞飞为之点赞

NeurIPS 大动作!专为数据集和基准测试推出新track,李飞飞为之点赞

作者 | 陈大鑫

就在今天,NeurIPS 数据 & Benchmark 主席Joaquin Vanschoren在推特上宣布NeurIPS 2021将专门为数据集和基准测试推出一个新的论文track(www.44533.cn)。

消息发出后,斯坦福大学李飞飞教授对之表示赞赏,终于在ImageNet的12年之后见到了这一天。

之后还有AI领域的教授表示这是一项伟大的创举,将有望大大提高机器学习中基准测试的质量。

众所周知,有多少人工就有多少智能,而这其实就是在说深度学习时代,没有好的数据,就很难有好的模型。

但是NeurIPS社区的绝大多数人都专注于算法设计和创新,如强化学习、神经网络、图神经网络、元学习、表示学习等。

这一点从NeurIPS 2020的热门主题中可以看出一二,其中有关数据集和基准研究并不在其中。

接下来看看这个通知都说了什么。

以下是NeurIPS官方口吻:

大家通常无法轻易找到对社区或从业人员最有效评估算法好坏的数据集。因此,许多研究人员诉诸于方便获得的数据,但是这并不代表真实世界的数据。

例如说,很多算法仅是针对玩具问题( toy problem)或是在充满偏见的数据上进行评估,这可能会导致产生有偏见的模型或误导性的结果,以及随后对该领域的公众批评。

这里插播一句:AI科技评论前些天刚报道过MNIST、CIFAR-10、CIFAR-100、Caltech-256、ImageNet等数据集中每100个标签就有3个是错的!

比如在CIFAR-10中的一张“青蛙”的图片被标记成了“猫”。

研究人员通常会受到各种激励,以在该领域已建立的一些流行数据集上对他们的方法进行基准(benchmark)测试,这些关键基准数据集上的最新结果有助于确保论文被接受。

相反,对鲜为人知的真实世界数据集的评估,以及将模型与现实世界的影响联系起来的其他基准测试,通常更难在会议上发布,因此会导致这些工作在该领域贬值。

总体而言,NeurIPS截至目前没有足够的动力来推进数据和基准的发布出版,这可以从缺乏有关该主题的论文来证明。在近些年的NeurIPS会议上,每年只有极少数(少于5篇)被接受的论文关注提出新的数据集,而只有大约10篇关注在广泛数据集上的算法的系统基准测试。这部分归因于出版和评审的指导原则,这些指导原则对算法相关的论文有意义,而对数据集和基准论文则没有意义。

例如,数据集通常不能以双盲的方式进行评审,但是确实需要其他特定的检查,例如数据集是如何收集的、是否显示出内在偏见、是否仍可以正确访问。

因此,我们建议在NeurIPS上开辟一条新的 track,作为引导数据集和基准发布的孵化器。它将充当出版物、演讲和posters的场所,并成为讨论如何更广泛地改善数据集开发和面向数据的工作的论坛。

提交给track的数据集论文将是NeurIPS会议的一部分,该会议将与主会论文一起发表(并发表在相关期刊上)。

为此,我们计划 建立一个称为机器学习研究数据集(DMLR)的JMLR子期刊。将根据专门为数据集和基准设计的一组严格标准来审核提交给该专题的论文。

除科学论文外,作者还必须提交补充材料,这些材料应详细说明是如何收集和组织数据集、数据集包含哪些信息、应如何以道德和负责任的态度使用数据以及如何提供和维护数据集。

作者可以尽其所能自由地描述以上这一点。例如,数据集论文可以利用数据集文档框架、数据集的数据表、数据集标签、NLP数据报表和问责制框架。而对于基准,作者应遵循有关可重复性的最佳实践。

此外,我们也欢迎作者提交详细的介绍数据集收集和管理高级实践的意见书,即使这些数据集本身无法共享,这些实践指导也是十分有意义的。现有数据集的审查或对产生重要的新的insight的新数据集上的系统分析也被鼓励。

作为此track的一部分,我们旨在收集有关构建、记录和使用数据集(包括已知示例数据集和有问题的数据集的示例)的最佳实践的建议,并创建一个可轻松访问此信息的网站。

与其他track不同,我们将要求对这个track进行 单盲评审,因为数据集不能总是转移到匿名平台上。我们将托管平台的选择权留给作者,但要明确指出出版具有一定的责任,尤其是保持数据集的可访问性,并且作者应承担其维护责任(例如,解决侵犯版权的责任)。

在更广泛的社区中,有一些现有的相关工作,例如数据集描述符(如Nature Scientific Data)或有关AI领域状态的论文(如AI Index Report)。但是,我们想要构建的数据集期刊倾向于仅关注数据,而较少关注数据与机器学习的关系,并且诸如AI Index的项目范围很广,但不关注新的实验评估或此类评估的技术改进。

该 track 将以机器学习为中心集中并涵盖这些相关的工作。我们预计达到的目标将是围绕诸如新数据集和基准的新颖分析、评估和指标已经可能的社会影响(例如道德考量)等主题的丰富出版物。

如果你有令人兴奋的数据集、基准或idea想要分享,我们热烈欢迎你提交到这个新track。为了允许近乎连续的提交,我们将有两个截止日期,分别是2021年6月4日和2021年8月23日。

届时提交的论文和数据集将通过OpenReview进行审查,以促进更多的公众讨论,而最受欢迎的提交也将在2021年的首届研讨会上公布。

参考链接:

https://neuripsconf.medium.com/announcing-the-neurips-2021-datasets-and-benchmarks-track-644e27c1e66c

500元卡时GPU资源「限时」免费领!

并行AI云面向AI深度学习和高性能计算,提供A100、V100、T4等丰富的云算力资源;预置TensorFlow、PyTorch等环境,开箱即用;三线专家团队7x24小时在线提供多元化服务,助开发者提升科研效率,降低科研成本。

欢迎扫码免费体验~

由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号在看”。

收藏

举报

主营产品:复合型胶粘剂,胶粘剂,破碎机,采矿机械及配件,反应釜,铸造和锻压