计算机科学研究人员已经证明,一种广泛使用的称为神经网络修剪的技术会对深度学习模型的性能产生不利影响,详细说明了导致这些性能问题的原因,并展示了一种应对挑战的技术。
深度学习是一种人工智能,可用于对事物进行分类,例如图像、文本或声音。例如,它可用于根据面部图像识别个人。然而,深度学习模型通常需要大量的计算资源才能运行。当将深度学习模型用于某些应用程序时,这会带来挑战。
为了应对这些挑战,一些系统进行了“神经网络修剪”。这有效地使深度学习模型更加紧凑,因此能够在使用更少计算资源的同时进行操作。
“然而,我们的研究表明,这种网络修剪会削弱深度学习模型识别某些群体的能力,”该论文的合著者、北卡罗来纳州立大学计算机科学助理教授Jung-EunKim说大学。
“例如,如果一个安全系统使用深度学习来扫描人们的面部以确定他们是否可以进入建筑物,那么深度学习模型必须变得紧凑,以便它能够有效地运行。这可能在大多数情况下都能正常工作时间,但网络修剪也可能影响深度学习模型识别某些人脸的能力。”
在他们的新论文中,研究人员阐述了为什么网络修剪会对模型在识别某些群体(文献称为“少数群体”)方面的性能产生不利影响,并展示了一种应对这些挑战的新技术。
两个因素解释了网络修剪如何影响深度学习模型的性能。
用技术术语来说,这两个因素是:组间梯度规范的差异;以及与组数据不准确相关的Hessian规范的差异。实际上,这意味着深度学习模型在识别特定类别的图像、声音或文本方面可能会变得不那么准确。具体来说,网络修剪可以放大模型中已经存在的准确性缺陷。
例如,如果使用包含100位白人和60位亚洲人的面孔的数据集训练深度学习模型来识别面孔,那么它在识别白人面孔方面可能会更准确,但在识别亚洲面孔方面仍然可以获得足够的性能.网络剪枝后,模型更有可能无法识别部分亚洲人脸。
“原始模型中的缺陷可能并不明显,但由于它被网络修剪放大,缺陷可能会变得明显,”Kim说。
“为了缓解这个问题,我们展示了一种方法,该方法使用数学技术来均衡深度学习模型用于对数据样本进行分类的组,”Kim说。“换句话说,我们正在使用算法来解决各组之间的准确性差距。”
在测试中,研究人员证明,使用他们的缓解技术提高了经过网络修剪的深度学习模型的公平性,基本上将其恢复到修剪前的准确性水平。
“我认为这项工作最重要的方面是,我们现在对网络修剪如何影响深度学习模型的性能以识别少数群体的性能有了更透彻的了解,无论是理论上还是经验上,”Kim说。“我们也愿意与合作伙伴合作,以确定模型简化技术的未知或被忽视的影响,特别是在深度学习模型的实际应用中。”
论文“修剪对模型准确性有不同的影响”,将在11月28日至12月28日举行的第36届神经信息处理系统会议(NeurIPS2022)上发表。9在新奥尔良。该论文的第一作者是雪城大学的CuongTran。该论文由Syracuse的FerdinandoFioretto和卡内基梅隆大学的RakshitNaidu共同撰写。