一种分布式深度学习方法、装置、终端设备及存储介质【中国发明】
一、专利名称及专利号
名称:《一种分布式深度学习方法、装置、终端设备及存储介质》
专利号:ZL202011018776.8
二、应用领域
本申请属于计算机技术领域,尤其涉及一种分布式深度学习方法、装置、终端设备及存储介质。
三、专利说明
1、摘要:
本申请适用于计算机技术领域,提供了一种分布式深度学习方法、装置、终端设备及存储介质,该方法包括:获取相同的至少两个样本集,每个样本集中包括多个的数据块;将各个数据块按照预设规则与工作节点关联,以保证任意预设目标数量的工作节点关联的数据块能够组成至少一个所述样本集,工作节点基于关联的各个数据块进行模型训练得到数据块对应的梯度,并向参数服务器发送所述梯度;参数服务器接收工作节点发送的所述数据块对应的梯度,并在接收到至少一个样本集中所有数据块对应的梯度后,基于接收到的梯度计算目标梯度,并向工作节点发送目标梯度;本申请不会影响模型训练,提高了训练速度,保证了模型训练的完整性,进而提高了模型的准确度。
2、背景:
深度学习方法是计算机利用已有的数据,通过对初始模型进行训练,得到训练后的模型,并利用训练后的模型预测需要的数据。在对模型进行训练时,为了提高模型训练的速度,目前多采用分布式深度学习系统对模型进行训练。
采用分布式深度学习系统训练模型的具体方法为:将训练样本分别输入并行的多台子服务器中,利用多台子服务器同时对模型进行训练,然后将训练得到的梯度发送至参数服务器,参数服务器对梯度进行处理,并将处理后的梯度返回至各个子服务器中,子服务器利用参数服务器返回的梯度进行参数更新,并进行下一次训练,依此循环直到训练结束。
采用上述方法可以提高模型训练的速度。但是,利用分布式深度学习系统训练模型时,如果子服务器与参数服务器之间发生断路,则该子服务器中的梯度将不会传输至参数服务器,影响训练得到的模型准确度。
四、相关文件下载