分布式深度学习方法、装置、参数服务器及主工作节点【中国发明】

2023-12-14

一、专利名称及专利号

名称:《分布式深度学习方法、装置、参数服务器及主工作节点》

专利号:ZL201911352575.9



二、应用领域

  本申请属于计算机技术领域,尤其涉及一种分布式深度学习方法、装置、参数服务器及主工作节点。



三、专利说明


1、摘要:

  本申请属于计算机技术领域,提供了一种分布式深度学习方法、装置、参数服务器及主工作节点。方法包括接收多个数据运算组中主工作节点发送的梯度向量集;其中,每个主工作节点发送的梯度向量集包括该主工作节点所在数据运算组中所有工作节点的梯度向量;根据多个梯度向量集对预设深度学习模型的全局模型参数进行更新;将更新后的全局模型参数下发至各主工作节点,以使每个主工作节点控制其所在数据运算组中所有工作节点根据更新后的全局模型参数进行本地的模型训练。本申请实施例的分布式深度学习方法以数据运算组为粒度进行数据以及任务的调度,减少了每次迭代中与参数服务器同步的数据量,降低通信开销且提高了各工作节点的资源利用率。



2、背景:

  分布式深度学习是一种解决复杂模型训练以及大数据训练的有效手段。
分布式深度学习普遍使用的策略是通过参数服务器将训练模型参数分发到不同的工作节点上,然后这些工作节点并行地使用该模型参数进行模型更新,并将计算结果周期性的同步至参数服务器,直至全局模型达到收敛。
由于各工作节点的计算能力、网络带宽差异较大,参数服务器接收到不同工作节点的计算结果的时间差异较大。为了实现数据同步,在每一次迭代中,运算速度较快的工作节点均需要等待运算速度较慢的工作节点,导现大量的工作节点资源利用率低。

图片关键词

四、相关文件下载

专利证书:/UploadFiles/20231214/20231214163110231023.pdf

专利详情:/UploadFiles/20231214/20231214163185208520.pdf


关于我们
科研发展
知识转移
创新发展