一种分布式机器学习方法、装置、终端设备及存储介质【中国发明】
一、专利名称及专利号
名称:《一种分布式机器学习方法、装置、终端设备及存储介质》
专利号:ZL202011016938.4
二、应用领域
本申请属于计算机技术领域,尤其涉及一种分布式机器学习方法、装置、终端设备及存储介质。
三、专利说明
1、摘要:
本申请适用于计算机技术领域,提供了一种分布式机器学习方法、装置、终端设备及存储介质,该方法包括:对本次训练的初始模型进行训练,得到初始模型对应的第一梯度;判断在第一时间段内是否接收到参数服务器发送的全局参数,其中,第一时间段为本次训练初始模型的时间段;若在第一时间段内未接收到全局参数,则基于第一梯度,得到候选模型,并将候选模型作为下一次训练的初始模型;本申请在没有接收到全局参数时使用第一梯度得到候选模型,并对候选模型继续训练,使参数服务器在计算全局参数和向工作节点传输全局参数的时间内,工作节点一直处于训练的状态,不用必须接收到全局参数后再继续训练,节约了模型训练的时间,使模型训练速度更快。
2、背景:
机器学习是计算机利用已有的数据,通过对初始模型进行训练,得到训练后的模型,并利用训练后的模型预测需要的数据。目前多采用分布式机器学习系统对模型进行训练。采用分布式机器学习系统训练模型的具体方法为:将训练样本分别输入并行的多台子服务器中,利用多台子服务器同时对模型进行训练,然后将训练得到的梯度发送至参数服务器,参数服务器利用梯度对全局参数进行更新,并更新后的全局参数返回至各个子服务器中,子服务器利用参数服务器返回的全局参数更新模型参数,并进行下一次训练,依此循环直到训练结束。
上述方法在子服务器较多时,由于子服务器的数据处理能力存在差异,参数服务器需要接收到所有子服务器发送的梯度后才可以进行全局参数的更新,且子服务器需要在接收到全局参数后才能进行下一次的模型训练,由于全局参数返回时间较长,使模型训练的时间延长,降低了模型训练的效率。
四、相关文件下载