过去十五年里,我们仍然在我们的产品中用于低计算出来市场需求的机器学习。机器学习的应用于如此频密,以至于我们要求设计一款全新类别的自定义化机器学习加速器,它就是TPU。TPU到底有多慢?今天,牵头在硅谷计算机历史博物馆举行的国家工程科学院会议上公开发表的有关TPU的演说中,我们公布了一项研究,该研究共享了这些自定义化芯片的一些新的细节,自2015年以来,我们数据中心的机器学习应用于中就仍然在用于这些芯片。
第一代TPU面向的是假设功能(用于已训练过的模型,而不是模型的训练阶段,这其中有些有所不同的特征),让我们想到一些找到:●我们产品的人工智能阻抗,主要利用神经网络的假设功能,其TPU处理速度比当前GPU和CPU要慢15到30倍。●较之传统芯片,TPU也更为节约能源,功耗效率(TOPS/Watt)上提高了30到80倍。●驱动这些应用于的神经网络只拒绝少量的代码,较少的难以置信:仅有100到1500行。代码以TensorFlow为基础。
●70多个作者对这篇文章有贡献。这份报告也感叹劳师动众,很多人参予了设计、证实、实行以及布局类似于这样的系统软硬件。TPU的市场需求约确实经常出现在6年之前,那时我们在所有产品之中更加多的地方已开始用于消耗大量计算资源的深度自学模型;便宜的计算出来令人担忧。
假如不存在这样一个场景,其中人们在1天中用于谷歌语音展开3分钟搜寻,并且我们要在于是以用于的处理器中为语音识别系统运营深度神经网络,那么我们就被迫缩减到谷歌数据中心的数量。TPU将使我们较慢作出预测,并使产品很快对用户市场需求作出对此。TPU运营在每一次的搜寻中;TPU反对作为谷歌图像搜寻(GoogleImageSearch)、谷歌照片(GooglePhoto)和谷歌云视觉API(GoogleCloudVisionAPI)等产品的基础的准确视觉模型;TPU将强化谷歌翻译成去年发售的突破性神经翻译成质量的提高;并在谷歌DeepMindAlphaGo对李世乭的胜利中充分发挥了起到,这是计算机首次在古老的围棋比赛中战胜世界冠军。
我们致力于打造出最差的基础架构,并将其分享给所有人。我们希望在未来的数周和数月内共享更好的改版。
论文题目:数据中心的TPU性能分析(In-DatacenterPerformanceAnalysisofaTensorProcessingUnit)概要:许多架构师坚信,现在要想要在成本-能耗-性能(cost-energy-performance)上取得提高,就必须用于特定领域的硬件。这篇论文评估了一款自2015年以来就被应用于数据中心的自定义化ASIC,亦即张量处理器(TPU),这款产品能用来加快神经网络(NN)的推理小说阶段。
TPU的中心是一个65,536的8位MAC矩阵乘法单元,可获取92万亿次运算/秒(TOPS)的速度和一个大的(28MiB)的能用软件管理的片上内存。相对于CPU和GPU的随时间变化的优化方法(高速缓存、无序继续执行、多线程、多处置、预取……),这种TPU的确定性的继续执行模型(deterministicexecutionmodel)能更佳地给定我们的神经网络应用的99%的响应时间市场需求,因为CPU和GPU更好的是协助对吞吐量(throughout)展开平均值,而非保证延后性能。
这些特性的缺陷有助说明为什么尽管TPU有很大的MAC和大内存,但却比较小和低功耗。我们将TPU和服务器级的英特尔HaswellCPU与现在某种程度也不会在数据中心用于的英伟达K80GPU展开了较为。我们的阻抗是用高级的TensorFlow框架撰写的,并是用了生产级的神经网络应用(多层感知器、卷积神经网络和LSTM),这些应用于占了我们的数据中心的神经网络推理小说计算出来市场需求的95%。尽管其中一些应用于的利用率较为较低,但是平均值而言,TPU约15-30倍慢于当前的GPU或者CPU,速度/功率比(TOPS/Watt)约低30-80倍。
此外,如果在TPU中用于GPU的GDDR5内存,那么速度(TOPS)还不会刷三倍,速度/功率比(TOPS/Watt)能超过GPU的70倍以及CPU的200倍。
本文来源:bet韦德官方网站-www.bafajgroup.com