亚洲最大年夜!上海“巨无霸”AI计算中央投用支持万亿参数大年夜模型演习_商汤_成本
作者 | ZeR0
编辑 | 漠影
智东西1月24日,今日,位于上海临港新片区的商汤科技人工智能打算中央(AIDC)正式投入利用。
商汤从2018年4月开始布局人工智能(AI)打算原型机研制项目,到2020年3月,AIDC项目正式立项启动。从开工培植到主体构造封顶,AIDC仅用时168天,刷新了临港培植的新记录。
这是亚洲最大的超算中央之一,也是华东地区首个落地运营的超大型人工智能打算中央,具有开放、大规模、低碳、节能等特点。
该打算中央建筑面积13万平方米、项目总投资约56亿元、一期共5000个等效8000瓦的机柜,满载运行时算力可达3740PetaFLOPS(1PetaFLOPS为每秒千万亿次浮点运算),二期正在方案中,大体会是一期体量的1~2倍。
截至2021年6月30日,商汤已经计策性地在紧张区域市场建立了23个人工智能超级打算集群,拥有超过20000块GPU,总算力达到每秒1.17百亿亿次浮点运算。AIDC投入利用后,商汤总算力将超过每秒4.91百亿亿次浮点运算。
近日,商汤科技联合创始人、副总裁杨帆接管智东西等媒体的采访。杨帆透露道,AIDC的目标是在2025年景为商汤的支撑性业务之一。
据悉,AIDC当前可完成10000亿参数模型的完全演习。未来商汤内部研发体系都将架设在AIDC上,估量到2024年所有做事器到位时,AIDC的国产化硬件比例将超过50%。
一、对内支撑AI大装置,对外供应三类业务
AIDC能做什么?
对内,AIDC是商汤通用AI根本举动步伐SenseCore商汤AI大装置的算力底座,AI大装置所席卷的所有软件平台及做事均运行在AIDC的物理实体上。
对外,AIDC可以独立供应算力支撑。商汤将通过AIDC把AI大装置的技能能力开放给产学界互助伙伴,让更多客户在商汤的云平台上获取AI-as-a-Service做事,灵巧订阅各种预演习AI模型,从而降落各行业大规模AI运用的准入壁垒。
从打算能力来看,AIDC堪称“巨无霸”。
其总算力达3740PetaFLOPS,1天内可处理时长相称于23600年的***,等同于从旧石器时期晚期不间断录制到本日的长度。
当前AIDC在1天内可完成10000亿参数视觉领域大模型的完全演习。基于这一超大模型,可以衍生出超过2万多个商用模型,帮助家当界以极低的下贱数据采集本钱,快速验证多个新场景。
此外,基于超大规模弹性可扩展算力,AIDC可保障对外运营的AI模型演习大规模算力需求。
作为底层支撑,AIDC运行后紧张供应三类业务路线:第一类,向医疗蛋白质折叠、量子科学等AI+Science根本科研供应算力支持;第二类,供应整合能力,帮助企业培植一整套生产工具体系;第三类,供应端到真个聪慧化做事。
杨帆称,通过AIDC的支撑,一个算法的生产本钱可能低落为过去的1/10,乃至更低。
通过直连新型互联网交流中央,AIDC不仅能够为客户供应就近接入做事,办理跨网访问等难题,还可以提高企业间信息交互效率、降落传输本钱,提升传输质量和稳定性,实现多点、多用户的快速网间互联。
据悉,在正式建成前,商汤已有潜在的客户和互助伙伴在AIDC上进行了一些试运行。春节后,AIDC将进入正式利用状态。
比如商汤在上海做的一网统管,为上海政府的公共做事供应了涉及垃圾满溢、井盖丢失、灯箱破坏、自行车乱停乱放、违章占道等各种城市做事管理的约上百种AI算法运用,这些算法的迭代生产,依赖的即是AIDC这样的根本举动步伐。
“通过AIDC,通过里面的软件整合,我以为我们有信心在未来的两到三年之内,我们能够实现在同等规模算力下,国产的软硬一体的本钱、对客户的本钱,降得更低,这个实在是一个我比较期待的目标。”杨帆说。
二、低算力本钱,加速国产AI芯片市场化进程
目前,商汤正在探索从国产芯片、国产做事器、自研演习框架、算法和落地行业运用的AI大生态培植。
在CAPEX投资本钱方面,AIDC可以降落自研国产芯片单位算力本钱;在OPEX运营本钱方面,得益于算法优化的上风,演习时长更短、效率更高、占用资源更小。
“我们操持是3740PetaFLOPS里面该当会不少于50%的国产芯片做核心AI芯片来利用。”杨帆说,临港AIDC只是一个,商汤还有更多区域的AIDC布局培植正在推进中,AIDC整体会以演习为主,也会有一些推理,但占比较低。
他提到过去两年,商汤与多家海内AI芯片厂商展开了大量互助,希望加快国产云端AI芯片及相应做事器在市场更大规模、更大范围地利用。
据悉,AIDC当前试运营机器里已有一部分国产化比例,该比例的提升对付AI百口当链整体本钱的低落、整体做事水平的提升、在硬件侧形成更加良性的商业竞争环境等方面将带来很大的代价。
过去两年,商汤在持续推动国产AI核心软硬件之间的适配。为了促进这件事情,商汤在2021年7月上海天下人工智能大会上牵头成立了“人工智能算力家当生态同盟”,简称“ICPA智算同盟”。
商汤将基于AIDC,促进AI生态的构建,推动国产原创技能的落地运用。
杨帆分享道,从成立ICPA算力同盟开始,同盟每一季度都会组织一到两次的齐聚芯片设计专家、软件设计专家、软件设计专家、行业标准专家的深度闭门研讨会。
在前期,商汤希望形成一个足够标准、通用的软硬件接口层的定义。
作为亚洲最大AI软件平台公司,商汤既有核心平台层和操作系统层的软件能力,又有大量下贱运用,跟各个国产硬件、芯片厂商做核心软件、系统的适配,能帮他们节省研发用度和韶光本钱。
中期的事情是,商汤在临港AIDC投入运营之后,会跟中国电子技能标准化研究院(工业和信息化部电子第四研究院)建立“CESI-SenseTime人工智能算力及芯片评测联合实验室”,开展AI算力和芯片标准制订、AI芯片测评工具开拓,供应AI打算中央、芯片测试验证做事和人才培训等支持。
该实验室未来将成为中立的第三方AI芯片、AI做事器测评机构,为家当供应参考标准,也促进每个硬件厂商更好地提升自家产品。
面向长期,由于商汤自身有大量下贱家当运用,商汤将不遗余力地把相对较好的国产AI芯片及其做事器,导入整合到自己及互助伙伴的办理方案,将它快速推向市场。
三、六大技能亮点,解读AIDC培植的硬实力
商汤的AIDC通过其大规模数据处理及高性能打算的能力,为研发供应支持。
杨帆强调说,AIDC的算力并非堆砌,个中涉及许多通信侧、存储侧的领先技能。在高性能打算、分布式调度、数据I/O、软硬件协同以及系统安全方面,AIDC均实现了多重打破。
(1)高性能打算:商汤已开拓一款高性能打算引擎,它包含丰富的高度优化的打算程序、编译器及运行时环境。与芯片供应商供应的打算引擎比较,商汤的打算引擎通过优化的算子及全图优化技能,显著提高端到真个运行效率,不仅涵盖神经网络打算,亦涵盖预处理及后处理阶段。
(2)高效的分布式调度:AIDC具有分布式任务调度系统,可在成千上万个GPU上动态调度恒河沙数的打算任务。该系统每年调度超过2000万个任务,确保研发活动能及时及有效地进行。在多种调度策略的支持下,调度系统可保持算力的高利用率,大降演习一个模型所需的均匀本钱。
(3)高速的数据I/O:在数据集上演习模型时,每个数据样本都会以高频率和随机顺序加载和处理多次。商汤的AIDC可供应非常高的IO吞吐量,许可演习任务每秒加载超过200万张图片,担保演习任务可以全速运行而无需等待数据。
“2018年,我们做了一个原型机的预研项目,实现了把1000块GPU卡连在同一个网络上去加载数据进走运算。本日我们正在做更大的5000~10000张卡,把它连在同一个网络上去进行打算。”杨帆谈道。
(4)硬件/软件协同设计:在分布式环境中,协同各打算节点GPU相互通信、频繁从分布式存储系统中获取数据的繁芜操作,易造成运行时性能的显著丢失。对此,商汤采取硬件/软件协同设计的方法,根据其对AI任务的理解来配置硬件设置,同时设计软件栈并进行跨层优化。通过这种设计,商汤的AIDC每年可生产恒河沙数的模型。
(5)高标准的系统安全:商汤在设计其架构时在多个层级确保系统安全。例如,商汤订定全面的指引,按照不同安全级别对数据进行分类,并付与相应的访问权限;商汤的存储系统包括前辈的访问掌握系统;敏感数据以加密的形式存储及传输;分配给不同授权组的打算资源实现了合理隔离。商汤的安全团队实时监控AIDC的运行,并在涌现潜在风险时采纳行动。
(6)绿色低碳数据中央培植:AIDC采取了各种前沿的能源优化方法,预期AIDC启动后的功耗将比中国其他数据中央的行业均匀水平低约10%,每年可节省约4500万千瓦时功耗。AIDC预期将在2025年前后达到碳排放峰值,估计峰值排放量不超过35万公吨二氧化碳当量,并于2050年前后达到净零排放。
四、建智算中央,应先评估地域家当升级需求
AI打算中央是否真正能带给家当运用代价?如何高效利用AI打算中央的资源?
谈及这些问题,杨帆说,商汤对付AIDC的未来运用处景非常有信心。商汤不仅自己做,还对一个地方家当升级的需求强度和规模做了很好的测算与评估。
在他看来,在一个地方培植智算中央,紧张考虑的是评估这个地方的家当根本和未来三年的家当升级需求,然后测算本日的AI技能及产品供应商能否知足这些需求,才能知道该当培植多大规模的智算中央。
数据管理也是AI家当发展中的一大寻衅。农业时期的生产资料是地皮,工业时期的生产资料是能源,而数字时期的生产资料便是数据。
对付能源,一升油加一升油,是两升油。对付地皮,一亩地加一亩地,是两亩地。
但数据不一样,便是1T数据加1T数据,虽然变成了2T的数据,但其实际代价是大于2T的。更多的数据放在一起,将带来非线性增长的代价。
“这个是跟过去农业时期,工业时期的生产资料全都不一样的、一个极其主要的新特性。”杨帆分享了一些意见,数据最大的代价是低本钱、可复制性和聚合之后实现的非线性增长代价。
如何实现更多数据的连接,同时保障数据安全和隐私可控,又能够界定清楚中间的权属规定?这些须要行业连续探索,去找到一个清晰的答案。
杨帆说,商汤培植AIDC也是一种探索,可能在未来一到两年,在AIDC的试运营阶段开始后,商汤会在这个方面重点做一些思考、摸索和考试测验,由于他认为这是未来最核心的几件事情之一。
结语:未来将在更多区域市场建立AIDC
在杨帆看来,商汤的核心上风不仅在于技能领先,还在于如何持续地实现创新技能商业化。
以前从创新的原始出发点到终极变成客户代价,其过程韶光很长,并涉及非常多的环节。当做这件事的周期从三四年缩短到三四个月时,这便是商汤对付家当长期的核心竞争力所在。
仅有科技企业是做不好创新的,须要传统企业合营做迭代实验,进行相应的合营和投入,乃至须要一定的沉默本钱。本日中国很多行业都在做数字化转型、智能化升级,那么客户乐意取出韶光、乐意开放共享来一起做这件事情的思维和态度也非常主要。
除了上外洋,未来商汤也操持在中国四大超一线及核心区域中央城市培植AIDC,以使商汤的AI-as-a-Service做事扩展到更多地区。
杨帆相信,AIDC未来会持续迭代,朝着如何让一个技能创新的本钱更低、效率更高去演进,向更多互助伙伴及客户分享商汤沉淀的能力,为AI家当带来更大的代价。
本文系作者个人观点,不代表本站立场,转载请注明出处!