2024人工智能 计算设备调度与协同第2部分: 分布式计算框架.docx
人工智能计算设备调度与协同第2部分:分布式计算框架前言II1范困12规范性引用文件13术语和定义14缩珞语25慨述25.1 总体框架25.2 适用性36计匏设备技术要求36.1 云侧设备36.2 边缘设备46.3 终端设备17分布式计算力同技术要求57.1 架构57.2 通用要求57.3 组件要求67.4 云云协同要求87.5 云边培协同要求97.6 多端协同要求118云边端分布式计算怫同接口128.1 边修节点管理128.2 部署及更新M8.3 任务运行管理17参考文献19人工智能计算设备调度与协同第2部分:分布式计算框架1范围本文件敬立了人工智能计算设备分布式计算的架构,规定了功能和性能技术要求,定义了分布式计算协同接口.本文件适用于用于分布式人工智能计算的系统设计、开发和冽试.2规葩性引用文件下列文件中的内卷通过文中的规范性引用而构成本文件必不可少的条款.其中,注I1.期的引用文件,仅该日期对应的版本适用于本文件:不注日期的引用文件,其G新版本(包括所有的修改单)适用于本文件.GB/TXXXXX.1-202X人工智能计算设备调度与协同第1部分:虚拟化与调度系统技术规范GB/TAAA-2O2X人工智能异构人工智能加速器统一接口3术语和定义GB/T41867-2022.GB/T42018-2022.GB/TXXXXX.1.-202Xfi)GBTAAA-2O2X中界定的以及下列术语和定义适用于本文件。分布式机器学习distributedmachine1.earning一种机器学习的方法或过程,利用互联附笫作为首选通信蚊体,在不同于系统上完成同一个机潞学习任务,注1:互联网络可包含对域互联网及广域互联网,注2:分布式训练任务不同于系统上砂同完成个训I城任务.注3分布式推理任务,不同下廉统办问完成个推理任务.来源:ISO/1EC2382:2015,2178059.有修改3.2联邦机器学习federatedmachine1.earning一种机器学习方法或过程,能it多个参加者协作构建及使用机渊学习模型而不期谑参加者所拥有的原始数据或私有数据.来曲IEEE3652.1.3.13.3增量学习incrementa1.1.earning一种分为多个阶段的自适应学习方法,其中在前胆阶段学得的知识被转化为适当形式,以便为后第阶段的新知识提供域础。注1:在机JS学习儆域的某些文赋里.州81学习称为“(机涉学习模型的)f1.ifit(ff)训练-.注2:模型热调是埒Irt学习的方式之一.来源:ISO/IEC2382:2015.2123002.有修改3.4边壕计算edgecomputi11E一种分布式计算方法或过程.其中处理及存储过程发生在分布式系统的边缘.注:计。发生旅近边缘的程度按系统的需求定义设定.来源,ISO/IECTR23188:2020.3.1.33.5集合通信co1.Iectivecommunication-H1.划信模式,其所传递数据在一组处理器单元(称为节点)上处理,其进程或计算节点之间协同工作以进行数据交换和同步.注:一次通倡一股包仃多个接受并和发送行.4缩略语下列缩略出适用于本文件.AI:人工智能(Artificia1.InteIIiKenCe)CPt:中央处理的元(Centra1.ProcessingUnit)FI1GA:现场可编程设排门阵列(Fie1.dProgramHab1.eGateArray>GP1.s图形处理的元(GraphicsProcessingUnit>NPU;神经网络处理单元(NeUra1.networkProcessingUnit)RDMA:远程H按内存访问(RemoteDirectMmyAccess)RoCEs基于融合以太网的远程直接内存访问(RDMAoverConvergedEthernet)SS1.s安全套按字层(SecureSockets1.ayer)5概述5.1 总体框架AI分布式计算协同的总体框架见图1,包含:a)提供A1.任务生命周期内的协同计豫支持(如统一资源池化、分配、调度等);b)支持设备(如云/边/端设备)的分布式运行环境:O实现不同物理都詈形态的设备间的通信、控制及任务管理:<1)提升任务执行保障能力,降低分布式应用的作业延时,提升作业存吐率;e)实现M任务的分布式协同(如分布式训练、模型多端部署推理、增信训掠.联邦学习等。图1A1.分布式计算讲同的总体框架5.2 适用性在使用本文件时,应基于计算协同系统的姐成和目标应用场景,兀配价同模式(云云协同(见7.4)、云边端协同(见7.5)、多端协同(见7.6),并满足相应的技术要求.不要求单个特定系统符合所有的协同模式和技术要求,6计算设备技术要求6.1 云恻设备6.1.1 娱述云(MA【计算设得及其使用:a)类型包含:1)云仰训练(包含微调2)云微(推理:3)增.H训练:-1)联邦学习。b)遵循以下使用原则:1)训练过程与数据源分离;2)监捽A1.任务全生命周期过程:3)共享计算资源:4)使用虚拟化技术管理计比资源;5)计对计算需求,弹性伸缩i1.资源的使用.6.1.2 技术要求云恻A1.计算设备,符合以下要求:a)符合GB/T420182022中6.1.1.1和6.1.1.2的要求:b)应支持模型训练所需的软件和模式,包含:1)机器学习框架:2)云例分布式集群训练:3)过程可视化,包含训练过程、数据处理过程等.c)应提供与边缘设备或终端设法兼容的互操作协议及接口:d)应支持训练或推理任务境像管理:e)宜支持异构A1.加速处理器的资源池化和统一调度,6.2 边缘设备6.2.1 依述边(AI计尊设备参与协同计算.遵循以下使用原则:a)考虑将小规模的计算与服务部署在边侧或然网;b)考虑存Wi、传黝、计算和安全任务:C)在本地执行数据处理,潮免数据网络传输中的风险;d)考虑业务场景要求的实时性。6.2.2 技术要求边(HA1.计算设得,符合以下要求:注I边缘AI计林iQi包含似不限于应用干边缘计算场装的A】服/战、A1.加速卡、A【加Utfij1.1.a)应提供与终端设备或云侧设备的协同接口:b)应具备数抠隔密措施,在受攻击时只影响本坨设备,而非其他参与林网的设备:O宜支持视顼分析、文字识别、图像识别、淹在处理等应用:d)宜支持流数据的实时处理:e)宜能在边缘存储实时信息;f)宜能独立本地监控或配合云侧设备监控边缘节点的运行状态:g)宜支持推理任务或训练任务。6.3 终端设备6.4 1概述地(MAI设备参与协同计.一股部署在数据或处理需求发生(如数据源的位置附近.6.5 .2技术要求瑞IMAI计算设符,符合以下要求:a)应支持基于轻盘化机器学习框架的运行(训练或推理):b)应支持脱离机器学习框架的模型部署,在设备上直接运行:C)宜支持分布式训练包含:1)其他终端设符、云侧设备或边缘设备协同训练:2)兼容至少1种分布式训练框架;3)支持差分陶私机制.d)宜支持数据预处理(如图像缩放、图像地充、图像旋转、声者去噪等;e)宜支持与边缘设招或云侧设备的交互,完成推理:f)宜支持多端协同,包含但不限于:1)管理多个终端设得:2)多个终邮设备之间的数据协同与共享:3)多个终端设备之间计兑任务的调度与分发,7分布式计算协同技术要求7.1架构A1.iI算设备分布式计算的架构见图2.川U*it*.i*>t曰*e»HWitveaCR1.HatIgHS-IIS2A1.计算设备分布式计算架构注I虚纹板用的钝分是G8"XXXXX.1202X中块定的内容,也足分布式管理架构中的必番汛件之.7.2通用要求AI计算设备分布式计算由同察体符合以下要求;a)应能管理机潺学习算法的运行环境配置,包括支持云恻设得、边缘设备和终端设的:b)支持应用在云侧、边例或端恻的AI计算设徐上的运行,满足以下要求:1)应支持云偏模型裁剪、压缩和优化;2)宜支持联邦学习:3)宜支持云内、云边或云端侨同推理;4)应支持云仰分布式训练,宜支持边缘网分布式训练:5)宜支持公边协同的增量训练.C)实现分布式计算过程,符合以下要求:1)应具的容错性,在训练过程中有节点或同络连接出现故隔(如节点、交换或路由设备不工作或性能卜降时,保证原有任务的继埃进行,直到完成;2)宜提供统一的编程模型,屏陂不同机器学习框架或异构计比设备的差异;3)宜能利用坎群中分布式存储设法,根据不同的分布式计算场景(如公侧内部端公,边云等)设置相应的存储方式:-1)应支持计算设备管理,能虚拟化并分配AI加速卡或A1.加速处理器资源,注:计。设备的管理和盟%MGB.XXXXX.1-2O2X.d)分布式多终端协同,符合如下要求:1)宜实现去中心化的把终堆设爸A1.任务协同;2)应实现节点状态的实时维护与共享(含节点资源使用状态:3)应实现在调收实时性保障机制(如超时机制等):注;集酢期网使用无姚连整仙无妙用域网或越牙)时,可能公出现代侑速率有很I1.不Q定的忸况.-1)宜实现设i状态或能力适应性协同策略(如按可用计算能力调度;注:乡终端设得侬构不同则健力不同,计口资源的分布可能不均物.5)计算调度过程不应彰响其他设在或应用的运行(如正常的视物播放任务不应被打断,或导致播放Q顿等。7.3组件要求7.3.1 机器学习框架用于分布式机器学习任务的机器学习框架,符合以下要求:a)应能在云侧、边侧设符或茄侧等设备上运行:b)配备模型部若工具,符合以下要求:1)应支持模型的云侧部署:2)应支持轻双化框架(特定场景中非必要组件被籽战),在云IW训练的模型,能部署在掂偏或边侧:3)应支持在内存受限的设备或环境中的运行.-1)宜支持械型量化,并在川户需求允许的误差他国内,使模型从公健迁移至端侧或边(W:c)应支持以卜至少1种计算悔同模式:1)云例训练-帮侧推理:2)云俯训练边侧推理:3) Z超上端傀联邦学习;1)云俯一边俯联邦学习:5)云OH-边恻-端侧联合推理.d)宜支持云结边AI计算物同模式,包含但不仅限于:1)云像训域端侧描肽训练箍侧推理:2)公他训练一边侧增H训缘一边IW推理;3)云O1.WI1.城边侧增用训练罪侧推理.e)在储云偏、边例、然恻应用统,的计辄图中间衣示,支持一次训练后的模型在潮、边、zi上的无(格式)转换部署。7.3.2 虚拟化与调度组件A1.加速处理器或M加速卡的虚拟化与调度组件,符合以下技术要求:a)应符合GB/TXXXXX.1-2O2X中规定的虚拟化要求;b)资源网度系统应能啊用AI加速卡或I加速处理渊及其虚拟化实例,包含:1) A1.训绘加速卡:2) AI推理加速卡:3)能用于训练及推理任务的A1.加速卡.C)任务调度,符合以下要求:D应支持云侧之间的训练任务词度,实施分布式训练:2)宜支持边例之间的训练任务调度,支持边恻增吊训练或分布式训练;3)应支持云偏或边刈之间的推