ArshdeepSingh博士是视觉、语音和信号处理中心(CVSSP)的“AIforsound”(AI4S)项目的一部分,他是MarkD.Plumbley教授的声音机器学习研究员,一直专注于设计高效的以及可持续的人工智能和机器学习(AI-ML)模型。他们目前的研究已被6月4日至10日在希腊举行的2023年IEEE国际声学、语音和信号处理会议接受。
人工智能(AI)的最新趋势是采用卷积神经网络(CNN),与其他现有方法相比,它可提供卓越的性能。然而,CNN的大尺寸和高计算成本是在智能手机等资源受限设备上部署CNN的瓶颈。
此外,训练CNN几个小时会导致排放更多的CO2。例如,用于训练CNN48小时的计算设备(NVIDIAGPURTX-2080Ti)产生等效的CO一辆普通汽车行驶13英里所排放的二氧化碳。为了估算CO2,他们的研究人员使用了一种公开可用的工具。
因此,研究人员旨在将CNN压缩为:
降低计算复杂度以加快推理速度。
减少内存占用以有效使用底层资源。
通过分析在压缩CNN的微调过程中有多少训练示例足以实现与使用未压缩CNN的所有训练示例获得的性能相似的性能,减少CNN训练阶段的计算量。
解决方案
压缩CNN的方向之一是通过“修剪”,即从原始网络中明确删除不重要的过滤器以构建紧凑或修剪后的网络。修剪后,对修剪后的网络进行微调以恢复性能损失。
这项研究提出了一种基于余弦距离的贪婪算法来修剪过滤器空间中的相似过滤器,以用于设计用于公开可用的CNN。音频场景分类设计的公开可用的CNN修剪过滤器空间中的相似过滤器。此外,研究人员通过减少修剪的计算时间来提高所提出算法的效率。
他们发现,所提出的剪枝方法将每次推理的计算量减少了27%,内存需求减少了25%,准确率下降不到1%。在对修剪后的CNN进行微调期间,将训练示例减少25%可获得与使用所有示例获得的性能相似的性能。他们做了所提出的算法以实现可重现性,并提供了一段视频演示,解释了我们已发表作品的方法和结果。
此外,他们在不降低性能的情况下将所提出的修剪方法的计算时间提高了三倍。