人工智能计算中心项目需求设计方案.docx
《人工智能计算中心项目需求设计方案.docx》由会员分享,可在线阅读,更多相关《人工智能计算中心项目需求设计方案.docx(60页珍藏版)》请在优知文库上搜索。
1、XX人工智能计算中心项目需求设计方案1 .总体要求:XX人工智能计算中心本期建设Al峰值性能不低于IooPFloPSFP16总算力,后期根据算力需求逐步扩容,支撑人工智能应用的模型训练及推理,本项目建设内容为人工智能软硬件基础设施和数据中心机房配套设施。项目建设在技术上以国产安全可控软硬件技术为主,兼具成熟的人工智能产业生态和绿色集约、低碳节能的要求。面向崂山区、XX市工业互联网、智慧海洋经济、智慧金融、智能制造、智能家居、智能轨道交通、智能网联汽车等人工智能特色应用产业发展需要,助力崂山区、XX市培育新一代人工智能产业体系。1.1 项目概况1.1.1 项目建设目标XX人工智能计算中心定位为自
2、主可控人工智能新型基础服务设施,依托XX人工智能计算中心,服务XX及周边地区人工智能产业发展,打造全国性人工智能创新发展标杆。推动人工智能产业在崂山区、XX市形成产业集群,支撑XX优势产业集群智能化持续领先,如智慧海洋经济,面向海洋感知、海洋管控、海洋经济服务和海洋环境保护等需求,结合人工智能信息技术和智慧海洋融合协同服务平台,助力未来智慧海洋创新体系及示范应用,打造人工智能应用服务高地。力争通过3年时间,将计算中心建设成为产业智能化升级的新引擎,产教融合的加速器,产业聚集的制高点,引人育人留人的强磁场,成为XX打造智能经济强市和数字先锋城市的智能基座。1.1.2 项目建设内容为满足XX科技创
3、新、人才培养和产业智能化转型对人工智能公共算力和服务的需求,本期计划建设总算力不低于100PFlops三16人工智能计算中心,用于人工智能训练任务,支撑海量训练数据并加速模型训练过程,提升模型精度,加速人工智能算法创新及应用进程;及人工智能应用验证,验证模型在实际场景中的应用效果,支撑应用的测试和验证。项目参考数据中心设计规范(GB50174-2017)打造满足XX人工智能计算中心业务发展需求的数据中心机房,建设可满足XX人工智能中心当期算力系统及配套的数据中心,数据中心基建基础设施考虑算力系统的后续扩展性,按照满足约300PFlops三16规模人工智能算力系统容量设计。硬件基础设施是XX人工
4、智能计算中心的核心基础,主要包含AI算力硬件系统、AI算力使能子系统、基础计算硬件系统和网络及安全硬件系统四大系统。AI算力硬件系统作用是提供硬件算力,由人工智能芯片、基于人工智能芯片的服务器构成。AI算力使能子系统作用是使能硬件性能;基础计算硬件系统包含平台服务系统、网络服务系统、通用计算系统、存储子系统,是AI集群软件服务、通用计算服务等所需的所有计算、存储硬件基础设施资源;网络及安全硬件系统提供网络互连、高速传输、安全防护等功台匕能。软件基础设施是XX人工智能计算中心的软件基础,可提供算力资源、算力调度以及运营管理等功能,包含人工智能开发平台服务、基础软件平台服务和运营管理平台。人工智能
5、开发平台服务和基础软件平台服务主要管理计算、存储、网络等基础设施硬件,为上层业务和应用的计算、分析和数据存储提供云化平台服务,可支持用户快速构建Al应用和业务,同时支持海量作业的自动调度、分布式训练,对Al计算集群的算力资源进行统一管理、调度和实时分配,可提供算子开发研究、神经网络开发研究、全流程Al开发的能力,可帮助AI开发者和科研人员高效完成算子开发、算法开发、数据处理、模型训练和模型部署等开发活动;运营管理平台主要包含门户网站、用户控制台、运营控制台、三大功能组件,以CMP云管理平台为基础,可提供全自助的线上体验及线下的数字化运营体验功能。1.1.3 项目建设方案1.1.3.1 AI算力
6、硬件系统AI算力硬件系统由人工智能计算集群和生态实验设备两部分组成,主要提供硬件算力,直接支撑人工智能(ArtificialIntelligence,简称Al)的训练和实验任务。AI计算集群应采用高密度、液冷、集成化机柜式交付。人工智能计算集群系统应具备如下能力:1)高计算密度:采用适合张量计算的创新Al芯片架构,可提供高Al算力和高能效比;2)高速互联,集成多级芯片高速互联系统,整个集群的通讯效率与业务效率高,集群部署灵活、可扩展;3)高度集成化,支持简化交付部署流程,机房空间节省;4)主要部件支持模块化集成设计,易于维护扩容。其余组件支持多冗余设计满足可靠性要求;5)支持液冷散热技术,集群
7、系统性能高、绿色节能。AI生态实验设备:可用于人工智能应用验证,验证模型在实际场景中的应用效果支撑应用的测试和验证。1.132 AI算力使能子系统AI算力使能子系统是Al算力硬件系统的嵌入式软件系统,需包含Al芯片使能软件、AI框架软件、AI应用使能软件和AI全流程开发工具链等关键模块。Al算力使能子系统需提供Al芯片使能软件,应配置算力使能引擎,使能Al芯片的运行,具备调度和优化Al芯片处理的能力,支持加速数据处理、优化计算功能。Al算力使能子系统需提供Al框架,应具备如下能力:1、支持端边云场景灵活部署。2、支持优化器并行,用以提升网络性能。3、支持图算融合,提升设备利用率。Al算力使能子
8、系统需提供应用使能软件,如预训练模型库,可帮助开发者解决不同应用、不同框架下的模型选型难、模型训练难的问题。AI算力使能子系统需提供全流程开发工具链,帮助AI开发者快速实现算子开发、模型开发、应用开发的全流程开发工作。1.133 .基础计算硬件系统基础计算硬件系统应承载人工智能计算中心软件基础设施安装部署的功能,需包含管理节点、网络节点、通用计算节点和存储节点。管理节点需部署平台管理软件、基础服务管理和扩展服务管理软件,用于安装部署基础服务、平台管理服务以及其他高阶云服务。网络节点需承载整个算力平台内部以及外部对接的网络服务,需包括软NAT、弹性负载均衡和虚拟路由器,各网络服务能力需以虚拟机形
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 计算中心 项目 需求 设计方案
