新加坡联合早报中文网即时报道亚洲和国际的评论、商业、体育、生活、科技与多媒体新闻,从世界各个维度报道世界经济新闻,时政新闻,突发新闻等。

当前位置:主页 > 新闻 > “数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

“数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

来源:联合早报中文网作者:邵湖心更新时间:2020-09-01 19:04:10阅读:

本篇文章1661字,读完约4分钟

雷技术评论:在过去的十年中,研究者在计算视觉领域取得了巨大的成功,其中深度学习模型在机器感知任务中的应用是不可或缺的。此外,自2012年以来,由于深度学习模型的复杂性增加、计算能力的增加以及可用标签数据的增加,这种系统的再现能力也取得了很大的进步。

“数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

然而,在这三个支持条件下,可用数据集的开发速度跟不上模型的复杂性(从7层alexnet发展到101层resnet)和计算能力的提高速度。2011年,只有100万张图片的imagenet仍然被用来训练101层的resnet模型。因此,研究人员一直有一个想法,如果训练数据可以扩大10倍,精度可以翻倍吗?那么,通过将容量扩大100倍或300倍可以获得什么样的结果呢?我们能突破现有的精确平台吗?数据的增加能带来更多突破吗?

“数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

在过去的五年里,图形处理器的计算能力和模型的规模不断提高,但数据集的规模仍然停滞不前。在《重新审视深度学习时代数据的不合理效应》一文中,研究者们首次揭开了围绕海量数据与深度学习之间关系的迷雾。他们的目标是探索以下问题:

“数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

1.如果现有的算法继续标记图片,它们的视觉再现能力会继续提高吗?

2.在诸如分类、目标检测和图像分割等视觉任务中,数据和性能之间的关系是什么性质的?

3.在计算视觉的应用中,能够处理所有问题的顶级模型使用大规模学习技术吗?

然而,在考虑这些问题之前,我们应该首先考虑在哪里可以找到这个比imagenet大300倍的数据集。谷歌一直在努力构建这样一个数据集,以改进计算视觉算法。具体来说,谷歌的数据集jft-3亿有3亿张图片,分为18291个类别。负责标记这些图片的是一种特殊的算法,它使用一系列信息,如原始网络信号、网页关系和用户反馈。

“数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

完成标签工作后,这3亿张图片有超过10亿个标签。在这些标签中,大约有3.75亿是由负责标签准确性的算法选择的。然而,即使如此,整个数据集中的标签仍然有很多噪音。初步估计显示,所选图片的标签有20%在噪声范围内。由于缺乏详细的注释,研究人员无法准确判断哪些标签应该取消。

“数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

经过一些实验,研究人员验证了一些假设,而实验也带来了一些意想不到的惊喜:

1.学习辅助效果的更好表现。实验表明,大规模数据集的使用可以提高表征学习的效果,进而提高视觉任务的性能。因此,在开始训练之前建立一个大规模的数据集是非常有用的。同时,实验也表明无监督和半监督表示学习有着广阔的前景。此外,只要数据规模扩大,噪声问题就会变得不那么重要。

“数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

2.性能将随着训练数据的数量级线性增加。也许整个实验最惊人的发现是视觉任务的表现和用于表征学习的训练数据规模之间的关系。它们之间有一种异常的线性关系。即使有多达3亿张训练图片,实验中也没有平台效应。

目标检测性能将随着训练数据的数量级线性增加。3.容量非常重要。在实验中,研究人员还发现,为了充分利用这个巨大的数据集,模型的深度和容量必须足够大。例如,resnet-50在可可目标检测基准中只有1.87%,而resnet-152只有3%。

“数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

4.新的成就。在本文中,研究人员还在jft-300m数据集训练模型中发现了许多新的成果。例如,单个模型可以达到37.4ap,而以前的coco目标检测基准仅为34.3 ap。

应该注意的是,实验中使用的训练系统、学习安排和参数设置都是基于以前对convnets训练的理解,当时的数据集是只有100万张图片的imagenet。在工作中,研究人员没有使用超参数的最佳组合,因此最终结果可能并不完美,因此数据的实际影响可能在这里被低估。

“数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

这项研究没有关注特定任务的数据。研究人员认为,获得大规模的特定任务数据将成为未来新的研究热点。

此外,谷歌拥有3亿张图片的数据集并不是最终目标。随着科技的发展,建立一个10亿以上图像数据集的任务应该提上日程。雷锋。com ai技术评论说,它将拭目以待。

论文地址:arxiv/ABS/1707.0200

谷歌研究,雷锋(公开号:雷锋)人工智能技术评论汇编

雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。

标题:“数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

地址:http://www.6st8.com/zbxw/4934.html

免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。

返回顶部