消除训练数据中的未知偏差!华为云论文入选顶会ACM-MM 2024
近日,多媒体领域国际顶级会议ACM MM 2024公布了录用论文结果。华为云技术创新部-AI系统创新Lab作为第一单位的研究论文《Poisoning for Debiasing: Fair Recognition via Eliminating Bias Uncovered in Data Poisoning》被ACM MM 2024主会接收。
该论文致力于消除训练数据中的未知偏差,以提高模型的鲁棒性。具体而言,论文创新性地将数据投毒(data poisoning)这一曾被计算机社区视为人工智能重大威胁的技术,应用于消除训练数据中的未知偏差,从而有效地提高了模型的可靠性和公平性。
▲题目和作者
ACM Multimedia(ACM-MM)创立于1993年,距今有31年的历史,是由计算机协会Association for Computing Machinery(ACM)的SIGMM多媒体特别兴趣小组主办的聚焦计算机多媒体领域的顶级国际会议。2024年ACM-MM会议共收到4385篇投稿,录用1149篇,录用率仅26.2%。ACM MM 2024将于10月28日至11月1日在澳大利亚墨尔本召开。
近些年来,深度学习已经在包括语音识别、图像分类和智能对话等多种应用场景下展示出了不俗表现。但是一个挑战至今未被解决:神经网络在决策过程中常常依赖于与目标标签具有虚假相关性的偏差特征,从而导致神经网络学习到的决策规则偏离人类的建模初衷。
早期的去偏差方法尝试通过基于对偏差特征的标签构建无偏优化目标来解决这个问题,但这种人工对训练样本中偏差特征进行打标签的过程既困难又耗时,不符合当前训练数据量大的现实需求。
针对这一问题,本论文提出了一种创新的去偏差方法——Poisoner。
- Poisoner创新性地提出利用数据投毒将偏差模型学习到的偏差进一步以数据投毒的形式保存为新的训练数据。
- 在此基础上,基于投毒后的训练数据进一步训练偏差模型,偏差模型迭代地积累偏差。最后得到的具有极强偏差的偏差模型可以潜在地为偏差特征进行自动化标注,即识别出数据中与上述虚假相关性相矛盾的样本。
- 随后,在目标模型的训练过程中,通过放大这些样本的权重来阻止模型学习这种虚假相关性而只学习人类期待模型建模的相关性。
大量实验结果表明,Poisoner可以显著消除目标模型中的偏差,并显著提升目标模型的准确性。分析实验验证了Poisoner所提出的利用数据投毒去发现及识别数据中的未知偏差的能力。
▲Poisoner的系统架构图
此外,本论文所提出的偏差识别及消除策略是一种通用的策略,无关于具体任务。因此,我们也会将此技术应用于更多的领域和场景,提升各项任务中鲁棒性和准确性。
- 点赞
- 收藏
- 关注作者
评论(0)