首页>行情 >内容

机器学习技术大评比第一次结果出炉MLPerf新测试标準让各家自己秀强项

行情2021-02-26 06:03:37
最佳答案

机器学习基準测试套件MLPerf于推出7个月后,根据第一轮由Nvidia、谷歌和英特尔提交的资料,发布了第一次的结果。MLPerf的结果测量了主要机器学习硬体平台的速度,包括Google的TPU、英特尔CPU和Nvidia GPU,同时结果也提供了诸如TensorFlow、PyTorch和MXNet等机器学习软体框架速度的了解。

MLPerf为一个新兴的基準测试套件,提供了衡量云端供应商和内部硬体平台的效能的方法,其训练几準由资料集和品质目标定义,而且同时还为每一个基準使用的特定模型提供了参照实作,虽然MLPerf v0.5包含7个基準测试,但实际上只有5个类别,分别是图像分类、物体侦测、翻译、推荐和增强学习。

测量基準是量测将模型训练到达目标品质所需要的时间,然后将MLPerf时间结果标準化,在单个Nvidia Pascal P100 GPU上执行的未最佳化的参照实作,官方提到,未来的MLPerf基準测试也将包括推理。 MLPerf量测基準分为两部分封闭与开放,封闭的比较主要测试机器学习硬体和框架,需要使用相同的模型以及Optimizer,而开放则可以使用任意的模型。在第一轮的比较上,各家都选择先在封闭基準测试较量。

Nvidia在部落格发布了自家测试结果,包括单节点测试以及规模测试,并且提到,他们目前先专注在封闭的基準测量进行比较,因为这样才是进行有意义的机器学习训练系统比较,开放量测目的是用于鼓励网路模型架构和其他演算法方面的创新。

Nvidia提交了7项基準测试中的6项结果,Nvidia提到,之所以选择不提交增强学习测试,是因为测试基準是基于策略游戏Go的实作,而该游戏最初是在使用Tesla P100 GPU的伺服器上开发,在目前的形式,其含有重要的CPU元件,因此规模的扩展受到了限制。最终Nvidia放弃了增强学习基準测试。

Google同样也在部落格发布了其在MLPerf上的结果,并宣称其平台最容易进行机器学习训练的扩展,并且以晶片相比,其TPU拥有19%的效能优势。Google提到,在多个MLPerf测试的竞争效能中,证明TPU(Tensor Processing Units)和TPU Pods是适合大规模训练机器学习模型的系统。

Google比较了自家1/64th TPU v3 Pod与Nvidia的DGX-2机器的绝对训练时间,其运行标準的图像分类网路ResNet-50,TPU v3 Pod共花了60分钟,而DGX-2则花了73.9分钟。DGX-2包含16个V100 GPU,而1/64th TPU v3 Pod拥有用于训练的16 TPU v3晶片与4个用于评估的TPU v2晶片。

免责声明:本文由用户上传,如有侵权请联系删除!