AI如何影响服务器机架功率

共 1 个回答

切换为时间排序
米Ka

2020-05-02 20:10:55
人工智能逐渐变得比云技术更普及。我们说人工智能无所不在,并不仅仅因为数据中心有AI应用,或者MIT Python程序员可进行AI编程,而是它已经进入我们的日常生活,比如在超市里巡游的导购机器人,安装在机场里采用卷积神经网络(CNN)的安防摄像头,放在壁炉罩上的亚马逊Alexa语音助理,甚至我们牛仔裤兜的苹果手机Siri虚拟助理(它可以向我们推荐10英里内的寿司店)。

AI编程能够从经验中或通过训练进行学习,并能将学到的知识自主运用到未来的场景中,因而以极快的速度进入我们的生活中。换句话说,它可以像人一样完成工作,同时还会自动适应不断变化的环境。无论使用AI的是超市里目光呆滞的机器人,还是领着我们去酒吧的澳大利亚性感女声,其功能都是通过CPU或GPU系统(比如英传达的DGX)来实现的。

AI应用的种类非常多,不能简单地说哪种硬件就是最好的。正如英特尔的Naveen Rao所说:“因为AI应用并非只有一种,客户发现没有所谓‘最好’的硬件平台能够适用于所有AI应用”。无论为AI应用选择哪种硬件,有一点是明确的:每一台处理设备都需要供电。

昂贵的数据


对IT经理来说,在计算服务器所需的电力时必须考虑AI的影响。一个普通服务器机架的平均功耗为7kW,而运行AI应用程序的机架功耗可能超过30kW。因为运行AI应用程序时处理器利用率更高,比如在GPU类服务器上运行AI应用会使每个芯片的功耗翻番,因此必须提高功率以保证系统正常运行。

当然,如果设备功率不够,可以尝试迁移数据,但这可能比处理数据耗电多得多,因为数据迁移过程中一直都要耗电。简单地说就是数据传输的成本很高。

例如,尽管有许多云提供商(AWS、Azure、Google等)可供选择,但复杂的数据传输还隐含成本,许多公司都会遇到这一问题。因此一个可行的方案不是迁移数据,而是在靠近数据源的位置进行处理,边缘计算应运而生。

小网络解决大问题


边缘计算有望成为另一种备受期待的5G数据技术的基础。5G网络要达到1ms时延的指标,需要许多分布式处理区域(也称为边缘网络)的支持。边缘服务器的位置应靠近产生4K甚至8K格式高清视频的个体,以及智慧城市中监控行人和交通动态的摄像头等应用,这些场景下都不需要将数据发送到云端。

此外,无人驾驶汽车也需要边缘网络的支持。这些新型数据应用的关键是接近实时的AI信息处理。

目前,所有的AI应用程序都运行在基于硅的计算硬件上——可以是智能手机内的定制芯片、边缘计算服务器内的FPGA、或是可通过公共云访问的专有AI系统(如英传达的DGX)。

这些硬件都需要供电,不管是直流电(如电池)还是交流电(来自电网)。物理系统之间也需要通过铜线或光纤连接起来以进行数据通信。

掉电是AI面临的最大威胁


AI似乎对人类具有前所未有的价值。然而,一旦掉电它就会崩溃,并停止工作,就像超人对氪石的反应一样。要使AI避开掉电问题,减少系统崩溃的风险,最好的办法就是确保持续可靠的供电。

对那些需要接近实时处理的AI应用来说,具有Per Outlet Power Sensing(检测每个插座电力)功能的交换式PDU(配电单元)可以让边缘数据中心提供最大化的运行时间。在这种环境下,像交通信号控制和消防站等城市紧急响应系统所需要的AI服务器就必须选择可靠的PDU,以确保救护车、消防车和执法部门的数字通信系统畅通。

图1:Server Technology公司的交换式PDU。

对于这些关键任务,智慧城市需要智能电力设备来确保5G服务的畅通。利用可以远程监控和管理的数据中心PDU,可监控机柜的温度和环境条件。

对于数据中心和主机托管设施,人们将用AI处理能力更强的GPU系统取代基于CPU的服务器,在需要更大的C13和C19插座组合时,可扩展的机架式PDU就派上用场了,它支持30千瓦机架。

信息革命源于技术进步


详细信息有助于进行决策,而最开始只需要口头收集信息。直到1846年Royal Earl House发明了电报打印系统,信息的收集才开始需要手摇柄来提供电力。从那时起,电力和信息处理就不可分割了。

目前世界上处理能力最强的超级计算机是橡树岭国家实验室的Summit,它使用了近3万个强大的图形处理器来运行深度学习算法,达到每秒10亿次的运算速度,以帮助我们解决气候变化问题。我们正在迈入历史的新纪元,人工智能将给我们的生活带来翻天覆地的变化,但我们得先为人工智能提供电力。选择可扩展的可靠电源对顺利实现AI功能至关重要。

(原文刊登于ASPENCORE旗下Electronic Products网站,参考链接:AI’s impact on rack power。)

-END-

点击阅读原文,参加活动拿奖品

共 1 条
前往
55回答数