您的位置:首页 >科技 >

超大规模数据中心如何重塑整个IT

2019-04-08 14:30:18来源:

在技​​术和小型化通常被视为BFF的世界中,21世纪最重要的创新发生在可以从太空看到的设施中。数据中心”这个短语在一开始就是一个推定。它回顾了一个企业的后台信息系统主要用于数据存储,并在一个地下室或壁橱位置拼凑在一起的时代。“基础设施”,如下水道系统或坑洼下的高速公路基础,是任何人都不应该看到或注意的事情。今天,所有这些假设都被推翻了。除数据存储外,企业的IT基础架构还包括计算能力和连接。就像企业本身一样,它具有分散的自然倾向。

超大规模数据中心不像仓库,更像是分销中心,或亚马逊的零售方称之为“履行中心”。虽然今天这​​些设施非常庞大,并且由非常大的服务提供商运营,但超大规模实际上并不是关于大规模,而是可扩展性。

想象一下工厂生产产品的每个部件,包括将部件带到装配线上的传送带,模块化到一个小区域。你读得正确:一个小区域。现在想象一下这个模块的功能变得如此高效和可靠,以至于只需将这些模块中的更多模块连接在一起,就能以指数方式增加产量。或者是一个农场,如果你的种植面积加倍,你的产量会增加一倍以上。

超大规模是自动化应用于一个应该开始自动化的行业。这是关于组织规模庞大,抓住时机并控制其生产的各个方面。但它也是关于在所有数据中心建筑物中传播超大规模的做法 - 不仅仅是世界上的eBays和Amazons,而是较小的玩家,小家伙,街头的人们。你知道我指的是谁:制药公司,金融服务公司和电信提供商。

数据中心设备领域的一家供应商最近称超大规模“对大多数人来说太大而无法想象”。可伸缩性一直是创造机会使用恰好包含大规模的资源来做小事。

必读:

数据中心:未来是软件定义的

超大规模,将旅行:下一个数据中心革命如何在一个工具中开始

“超级”和“规模”部分是什么意思?

具体而言,超大规模数据中心可实现以下目标:

最大化冷却效率。

全球大多数数据中心的最大运营费用 - 不仅仅是为服务器供电 - 正在为气候控制系统提供动力。可以对超大规模结构进行划分以划分高强度计算工作负载,并将冷却功率集中在托管这些工作负载的服务器上。对于通用工作负载,超大规模架构优化整个结构的气流,确保热空气在一个方向上流动(即使它是蛇形的)并且经常从废气流中回收热量用于回收目的。

在分立封装中分配电力。

在设计为多个租户占用的设施中,“住宅”在住房开发中被分配得很多。在这里,占用这些区块的机架被分配了一定数量的千瓦 - 或者,最近,分数兆瓦 - 来自主电源。当租户从托管服务提供商处租用空间时,该空间通常不是根据机架数量或平方英尺数量而是以千瓦为单位。受超大规模影响的设计有助于确保在客户需要千瓦时可用。

确保用电。

许多企业数据中心都配备了冗余电源(工程师将此配置称为2N),通常由辅助源或发生器(2N + 1)备份。超大规模设施也可以利用这些配置中的一种,尽管近年来,工作负载管理系统使得跨服务器复制工作负载变得可行,使得工作负载冗余而不是功率,从而降低了电力成本。因此,较新的数据中心不需要所有电源冗余。他们只需N + 1即可逃脱,不仅可以节省设备成本,还可以节省建筑成本。

平衡服务器之间的工作负载。

由于热量趋于扩散,一个过热的服务器很容易成为其附近的其他服务器和网络设备的麻烦。当正确监视工作负载和处理器利用率时,可以将容纳高强度工作负载的虚拟机和/或容器重新定位到或分布在更适合其功能的处理器中,或者仅仅在处理器中使用不那么多的虚拟机和/或容器。此时此刻。工作负载的均匀分配直接关系到温度降低,因此数据中心管理软件的方式与维护其支持系统的方式同样重要。

大型设施超大规模的原因不在于它的规模,而在于其设计如何使其租户能够在该规模内充分利用其资源。数据中心专业人员协会AFCOM已经开发出一种用于区分数据中心设施类别的指标。它计算设施所承载的机架数量,以及仅用于IT组件的平方英尺(或平方米)数量(其“空白区域”)。然后,它会将这两个数字与下面的图表进行匹配,并选择最高行数字的度量标准名称。例如,在6,000平方英尺的空白区域内拥有120个机架的设施将被视为“中等”,因为6,000个机架属于最高范围。

如果你曾经见过或参与过超市的建设,你就会知道建造一个更大的零售设施的重点是尽可能多地利用效率来最大化盈利能力。建造,供电,冷却或加热大型建筑物的成本肯定不低,但所有这些成本可能低于每平方英尺或立方英尺。但是,如果建筑物没有高效率和最佳实践,那么它们就不会低一些。换句话说,如果你把建筑物做得更大只是为了更大,那么你就没有充分利用任何更大规模的固有经济规模。

工厂以类似的方式工作。如果您在设计更大的工厂空间时考虑到效率,那么这些效率将转化为更低的运营成本,并为那里生产的所有产品带来更高的盈利能力。

数据中心是信息工厂。它通过浏览器或智能手机应用程序生成您在Internet连接另一侧使用的所有资源和功能。

Synergy Research Group分析了数据中心服务领域的公司,将超大规模数据中心定义为一个由“超大规模提供商”运营的大型综合体(至少)。由此,该公司意味着使用上面列出的超大规模原则管理其大型设施的组织。去年1月,该公司估计,截至去年底,全球共有430个超大规模设施,其中约40%位于美国。

完成后,艺术家对Facebook沃思堡数据中心3号楼的构想。

(图片:礼貌Facebook)

这是现代超大规模数据中心的典范:位于德克萨斯州沃思堡地区,并于2017年5月正式开放,Facebook的第五个超大规模设施现在包括H形建筑3,它已成为多个建筑项目的模板。全球10个连续设施。根据目前的估计,在2020年中期建成后,该综合体将包括五座建筑物,总集体面积将超过250万平方英尺。

虽然Facebook尚未提供官方估计,但记者与工程师交谈后发现,这座建筑仅占地面积450,000平方英尺,绝对有资格成为AFCOM“Mega”设施。当然,该空间的一小部分用于IT设备(白色空间),而另一个块用于电源和支持,中心链接是办公空间。

在“H”的每个支柱内是主配线架(MDF)的模块化组合,也称为数据厅。这些模块从中心的建筑物分配框架(BDF)沿两个方向延伸,像侧面构建块一样堆叠在一起。BDF包含将这些数据大厅连接到外部世界的电信电缆。

Facebook超大规模数据中心中“H”的一个部分的标准布局。

(图片:礼貌Facebook)

您已经可以看到超大规模架构的真正目的:使管理物理空间和驻留在该空间的物理系统成为可能,同时具有与管理软件相同的效率和自动化水平。

必读:

Facebook的下一代数据中心网络在爱荷华州的Altoona首次亮相

Facebook指定超大规模,重新定义数据中心

在任何市场中,能够批量购买的消费者通常是批量购买的,通常是购买力最强的消费者。Facebook,谷歌,亚马逊,eBay和微软被认为是部署最多 - 在某种意义上,最大 - 超大规模数据中心的组织。

然而,Facebook在为超大规模应该制定指导方面一直是最响亮和最自信的力量,希望其他人能够跟随其领先并帮助降低成本。2014年,Facebook发布了其构建的数据中心架构规范,以及IT设备的组装。它告诉全世界它购买了什么以及为什么,所以制造商将开始建造它。

虽然Facebook没有援引“超大规模”这个词,但许多设备供应商声称为超大规模数据中心提供组件,将Facebook的声明作为其官方定义。以下是Facebook的超大尺寸面料的工作原理:

网络交换机是分层和分解的。

Facebook的主要网络构建块是一个pod,它在典型配置中取代了群集。一个吊舱的大小限制为48个服务器机架 - 不多也不少 - 每个机架配备其通常的架顶式交换机(TOR),但所有48个交换机依次由4个上部服务 - 称为光纤交换机的级别设备它是一种结构,可确保pod中的每个服务器均匀且冗余地连接到整个网络。这反过来又使管理系统能够将工作负载路由到最适合它们的服务器。

Facebook的超大规模网络拓扑的3D图。

(图片:礼貌Facebook)

网络容器是交叉连接的。

每个结构交换机都编号为(1,2,3,4),每个数字对应一个更高级别的交换机层,形成Facebook称为主干平面的内容。在这里,每个主干交换机连接到48个光纤交换机 - 再次,不多也不少。这是交换机安排的绝对固定特性,确保网络中没有任何一个点“超额预订” - 流入的流量带宽永远不会超过流量输出 - 除非管理系统感知到短路这种安排的长期需要,并且可以适当地准备织物。

建筑结构和布局基于吊舱。

构建数据中心时,BDF内置了对pod所需的所有网络电缆和电源连接的物理支持 - 以及可能在未来某个日期构建的pod。因此,超大规模设施是全球网络的专用组件,就像电子设备恰好占用超过100,000平方英尺的空间。

服务器是服务器是服务器。

在这种结构中,每个服务器都是一块简陋的消耗砖。就像RAID阵列中的硬盘驱动器一样,它预计会失败,并且没有任何服务器比另一台服务器更特殊。当它失败时,或者即使其性能低于标准值,它也会脱机并被替换。

因此,如果一个pod正好有48个光纤交换机,并且一个脊柱只有48个自己的交换机,你可能会问自己,这个高度吹捧的可伸缩性应该在哪里?这是如何利用这种严格的,同质化的基础设施中的资源。

为何数据中心自动化就像气候变化一样

在典型的企业数据中心,10年甚至更久的设备与工厂车间的新组件共存。因此,其网络拓扑倾向于获得某种“纹理”,其中一些段比其他段表现更好。

阅读有超大规模,将旅行:下一个数据中心革命如何在一个工具中开始- 由Scott Fulton撰写的ZDNet Scale的首届版本

这似乎是一个无关紧要的话题,但事实并非如此:我们这个星球的气候与它一样多变,因为生态系统某一部分的微小变化会对其余部分产生连锁影响。因此,由化学污染物引起的臭氧层减少将引发太阳以更大的速度加热海洋,改变气流的方向并引起更多的湍流风暴。来自加拿大的下降空气和来自墨西哥湾的空气上升的影响被放大了。

如果数据中心拓扑就像我们星球的表面,那么一方面的微小变化可能会在整个设施中产生级联效应。因此,如果某些处理器似乎比其他处理器表现更好,那么工作负载协调器可能比其他服务器中的处理器更喜欢它们。因此,具有首选处理器的服务器会更快地变得更热。设施内的气流会发生变化,因为排出的较热空气可能会被困在口袋中,空气不会在那里循环。具有讽刺意味的是,这些局部温度升高会影响未充分利用的服务器,使得他们更难以处理数据和排出热量。

Facebook是少数具有购买力的组织之一,可以精确指定其数据中心的架构,构造和操作方式,直至其基础中使用的水泥等级。

但通过发布这些规范,Facebook利用其作为全球公认的顶级品牌的力量,为整个技术市场制定规则 - 一个专门针对超大规模数据中心的规则,以及一个不会独占的规则到Facebook。在这个市场中,如果您是任何类型的设备供应商(服务器,电源模块,网络电缆,空白面板,地砖,灭火器),那么您的设备最好按照这些规格生产,否则您可能会被忽略。

必读:

顶级云提供商2019:AWS,Microsoft Azure,Google Cloud;IBM推出混合动力;Salesforce主导SaaS

服务器级别的超大规模

这就是Facebook定义市场的能力,或者至少引导它的定义,对整个数字技术产生影响。Facebook不仅指定了超大规模数据中心的架构和组件,而且通过率先开放计算项目(OCP),它为超大规模服务器提出了一套新的规则 - 各地大型数据中心的主力。

请注意,Facebook没有提高数据中心经理的期望。事实上,降低标准基本上就是重点。戴尔,HPE,联想和IBM等制造商正在推出其最先进的,最先进的系统,为最密集的应用程序量身定制 - 作为企业级超级计算机 -OCP重铸服务器作为大规模集合中的位玩家。“白盒子”服务器,因为它们仍然被称为,它们是如此无法区分,以至于它们不配得到品牌名称。

在OCP成立的时候,似乎这些生产商中没有一个能够承担这些超大规模运营商作为其客户的损失。这种损失将构成其收入的可衡量百分比,反过来对其股票价值产生负面影响。另一方面,默认Facebook的核心,隐含的论点 - 批量服务器在大规模上更具成本效益 - 让人质疑这些生产商对整个企业的整个服务器价值主张。如果PowerEdge,ProLiant,ThinkSystem或Power Server只是一个巨大轮子中的一个齿轮,那么如果它是整个旋转中最好的齿轮会有什么关系呢?无法衡量的保费投资回报在哪里?

答案的一个线索来自eBay。2013年,电子商务和拍卖服务与戴尔签订了合作协议,使其成为eBay首选的生产商,为eBay的超大规模设施提供“密度优化服务器”。

eBay自己的品牌服务器在自己的数据中心运营。

(图片:礼貌eBay)

然而,去年9月,由于迫切需要“重新平台化我们的基础设施”以使用开源工具实现更精细的工作负载管理,eBay发生了转变,从那时起选择成为自己的服务器设计师。现在,作为一项为期三年的大修计划的一部分,该公司正在实施自己的白盒服务器,可能是唯一的定制部分是eBay的面板。

早在2014年,数据中心知识就确定了符合OCP标准的白盒服务器与它们将取代的品牌组件之间的成本差异,被企业认为不足以保证牺牲与现有供应商的信任关系。 。现在,eBay正在追随Facebook的领先地位,设计非常标准化的服务器以满足其超大规模需求,并将其生产外包给原始设计制造商(ODM)。显然,eBay通过利用其作为超大规模服务提供商的能力,进一步节省成本,在微观规模和宏观规模上实施自己的架构。

但这是一种讨价还价能力,根本不会缩小规模。很少有企业客户拥有自己的专业知识来为自己做出服务器设计决策;这就是他们依赖可信赖的制造商继续推广“端到端解决方案”的原因。

尽管如此,大型企业仍然坚持工作量管理和资产管理的某种形式的灵活性,超大规模者已经为自己创造了这种灵活性。这是Kubernetes如此迅速飙升的一个原因;它是一个工作负载编排系统,源自Google工程师在内部构建的“Borg”系统。

因此,超大规模设计(可能在适应和开始时)对超市规模服务提供商以外的组织销售的服务器架构产生了可衡量的影响。但是工程师的注意力最近已从集中设施转向偏远地区的分布式运营中心 - 数据处理和交付前沿的那些地方被称为“边缘”。

必读:

边缘计算:下一次IT转型的状态

“超大规模”只是“超融合”的另一个词吗?

不。它们具有相同的前缀,这是它们的主要相似性。超融合(HCI)是指数据中心基础架构管理(DCIM)系统将来自多个服务器(计算,内存,存储,网络)的资源汇集在一起​​并将这些资源委派给各个工作负载的能力。这是一种思考服务器为数据中心做出的贡献的方式,就像它们是流体一样,而不是被锁在单独的盒子里。

超大规模数据中心可以充分利用碰巧使用HCI的服务器。但是HCI并不是使数据中心在空间,电力和冷却方面的高效使用的绝对要求。

必读:

什么是超收敛?这是它的工作原理以及它的重要性

存储

微软:这是世界上第一个自动DNA数据存储,检索系统

构建大规模共享闪存基础架构

超过13K的iSCSI存储集群在没有密码的情况下在线暴露

闪存:一个备忘单(TechRepublic)

AWS:全球最大的云服务提供商的完整业务指南

比较图表:NAS设备(Tech Pro Research)

“超大规模”只是意味着“一个巨大的大云吗?”

不,不过,云平台是一种在集群在一起的服务器组上部署灵活工作负载的方法。是的,可以上调或下调这些服务器上的资源,这是超大规模运营商所需要的功能。

但是,VMware Cloud Foundation或OpenStack等云平台适合企业管理员管理资源需求(以及偶尔的资源需求),这些需求是未曾预料到的并且经常发生变化。管理员可以随意进入系统并进行调整或新的配置请求。相比之下,超大规模环境适用于一致的自动化。如果它正常运行,则无需“进入”并进行更改;它将在明年管理工作量,就像他们今年管理的方式一样。美国国务院商务部NIST研究所发布的美国政府对云计算服务的要求之一是,其资源可以使用自助服务门户进行配置。

因此,虽然亚马逊的面向公众的服务当然有资格作为云,但它用于管理云的超大规模运营完全是另一种物质。

必读:

开放计算项目:衡量其在数据中心,云计算基础设施中的影响力

亚马逊和VMware如何为这两个平台构建一个云

主机托管将超大规模扩展到企业

不久前,企业数据中心可能位于企业内部的某个地方。对于许多组织而言,数据中心可能仍然位于本地的中心位置,或者它可能依赖于分布在多个分支上的多个设施。

但在现代商业环境中,托管是一种极具吸引力的选择。与任何其他房地产交易一样,托管协议是租赁承租人数据中心设施内的空间区域。它使租户能够将自己的设备部署在通常较大,管理良好,安全性较强,动力良好且冷却的建筑物中。

Ashburn靠近华盛顿特区,已成为美国最具竞争力的数据中心服务地点。2018年9月,我与数据中心知识和RagingWire数据中心共同制作了一个网络研讨会,该中心正在弗吉尼亚州Ashburn等地建立colo设施。RagingWire是具有自己的IT资产的企业的colo提供商,需要具有良好连接性的良好安全位置以充分利用它们。

在本次网络研讨会中,我展示了Ashburn综合体最近建造的一座建筑内部的图表。它被称为Ashburn VA3,它被划分为所谓的数据保险库,每个数据保险库都根据工作负载要求适应不同的电源和冷却配置。

RagingWire's Ashburn,弗吉尼亚州VA3设施的剖视图。

(图片:礼貌的RagingWire数据中心)

它并不完全是Facebook架构,整个复合体基本上是同质化的。而在仅仅245,000平方英尺的情况下,这不是一个巨大的Facebook“H”可能是巨人。但考虑到各种租户将引入各种异构设备,RagingWire确实采用了一种超大规模启发的控制空间的方法,并在这些空间内自动分配气流和电力。

Ashburn VA3以及围绕它的其他RagingWire建筑代表了超大规模的方法,这种方法已经有点接近地球了。由于其施工原则严格规定并反复实施,公司可以在接近八个月的时间内建造一个设施,而不是两到三年。适用于一栋建筑的管理实践和方法可以轻松调整,以适用于其他建筑。

因此,超大规模体系结构和原则可以满足企业需求,为企业提供了一种方式来托管其基础架构和工作负载,其方式源自Facebook,Amazon AWS和上层云空间中的其他标准。尽管我们的注意力通常集中在手持设备作为当今技术的会话中心,但实际的计算活动中心是超大规模数据中心 - 它正变得越来越小。历史可能还将超大规模设施记录为21世纪定义技术的设备。