0


通过随机哈希进行可扩展和可持续的深度学习

Scalable and Sustainable Deep Learning via Randomized Hashing
课程网址: http://videolectures.net/kdd2017_spring_deep_learning/  
主讲教师: Ryan Spring
开课单位: 莱斯大学
开课时间: 2017-10-09
课程语种: 英语
中文简介:
当前的深度学习架构正在变得越来越大,以便从复杂的数据集中学习。这些架构需要巨大的矩阵乘法运算来训练数百万个参数。相反,另一个日益增长的趋势是将深度学习引入低功耗嵌入式设备。从计算和能源的角度来看,与深度网络的训练和测试相关的矩阵运算非常昂贵。我们提出了一种新颖的基于哈希的技术,可以大大减少训练和测试深度网络所需的计算量。我们的方法结合了自适应丢失和随机散列的最新想法,以实现最大内积搜索,以有效地选择具有最高激活的节点。我们的深度学习新算法通过在更少(稀疏)的节点上运行,降低了前向和反向传播的总体计算成本。因此,我们的算法仅使用总乘法的 5%,同时保持原始模型精度的平均误差在 1% 以内。所提出的基于散列的反向传播的一个独特属性是更新始终是稀疏的。由于梯度更新稀疏,我们的算法非常适合异步和并行训练,随着核心数量的增加,可实现近线性加速。我们通过对几个真实数据集进行严格的实验评估来证明我们提出的算法的可扩展性和可持续性(能源效率)。我们的算法仅使用总乘法的 5%,同时保持原始模型精度的平均误差在 1% 以内。所提出的基于散列的反向传播的一个独特属性是更新始终是稀疏的。由于梯度更新稀疏,我们的算法非常适合异步和并行训练,随着核心数量的增加,可实现近线性加速。我们通过对几个真实数据集进行严格的实验评估来证明我们提出的算法的可扩展性和可持续性(能源效率)。我们的算法仅使用总乘法的 5%,同时保持原始模型精度的平均误差在 1% 以内。所提出的基于散列的反向传播的一个独特属性是更新始终是稀疏的。由于梯度更新稀疏,我们的算法非常适合异步和并行训练,随着核心数量的增加,可实现近线性加速。我们通过对几个真实数据集进行严格的实验评估来证明我们提出的算法的可扩展性和可持续性(能源效率)。我们的算法非常适合异步和并行训练,随着内核数量的增加,可实现近线性加速。我们通过对几个真实数据集进行严格的实验评估来证明我们提出的算法的可扩展性和可持续性(能源效率)。我们的算法非常适合异步和并行训练,随着内核数量的增加,可实现近线性加速。我们通过对几个真实数据集进行严格的实验评估来证明我们提出的算法的可扩展性和可持续性(能源效率)。
课程简介: Current deep learning architectures are growing larger in order to learn from complex datasets. These architectures require giant matrix multiplication operations to train millions of parameters. Conversely, there is another growing trend to bring deep learning to low-power, embedded devices. The matrix operations, associated with both training and testing of deep networks, are very expensive from a computational and energy standpoint. We present a novel hashing based technique to drastically reduce the amount of computation needed to train and test deep networks. Our approach combines recent ideas from adaptive dropouts and randomized hashing for maximum inner product search to select the nodes with the highest activation efficiently. Our new algorithm for deep learning reduces the overall computational cost of forward and back-propagation by operating on significantly fewer (sparse) nodes. As a consequence, our algorithm uses only 5% of the total multiplications, while keeping on average within 1% of the accuracy of the original model. A unique property of the proposed hashing based back-propagation is that the updates are always sparse. Due to the sparse gradient updates, our algorithm is ideally suited for asynchronous and parallel training leading to near linear speedup with increasing number of cores. We demonstrate the scalability and sustainability (energy efficiency) of our proposed algorithm via rigorous experimental evaluations on several real datasets.
关 键 词: 深度学习; 能源效率; 数据科学
课程来源: 视频讲座网
数据采集: 2023-12-26:wujk
最后编审: 2023-12-26:wujk
阅读次数: 14