中科视语提出工业异常检测大模型AnomalyGPT，实现零样本异常检测

2024-05-20 10:58 来源：互联网阅读次数：4829

工业异常检测是工业生产中不可或缺的一部分，然而现有的工业异常检测方法通常只能为测试样本提供异常分数，需要人工设定阈值以区分正常和异常样本，这限制了这些方法的实际应用场景。此外，现有的大模型在图像理解方面展现了卓越的能力，但是缺乏特定领域知识，而且对图像中局部细节的理解较弱，这导致这些大模型不能直接用于工业异常检测任务。

近日，中科视语和中国科学院自动化研究所的研究团队针对该问题提出了异常检测大模型AnomalyGPT。AnomalyGPT利用大模型的强大语义理解能力，通过精心设计的图像解码器和提示嵌入微调方法，能够让大模型充分理解工业场景图像，判断其中是否含有异常部分并指出异常位置，在少样本和无监督工业场景中取得了业内最好性能，有利于基础大模型的行业落地。

AnomalyGPT为了解决现有大模型缺乏特定领域知识和局部细节理解较弱这两个问题，设计了提示学习器和图像解码器两个模块，对现有的大模型进行训练调整，方法结构如下图所示：

1. 图像解码器：该模块参考多模态大模型的特征对齐思路，通过若干个线性投影层，将图像编码器所提取的由浅至深的中层特征与分别代表正常和异常语义的文本特征对齐。该结构能够提供异常区域分割的注意力图，通过将该注意力图输入到大模型中，能够指导大模型关注图像中异常概率较高的局部区域，为大模型提供视觉细节信息。

2. 提示学习器：该模块包含一个6层的卷积神经网络，用于将图像解码器输出的注意力图转化为大模型能够理解的提示嵌入向量，通过提示嵌入的方式对大模型进行微调，可以为大语言模型提供异常检测所需的领域知识，同时有效避免大模型产生灾难性遗忘问题。

此外，为了对大模型进行训练，研究团队还提出来使用基于泊松图像编辑的异常模拟方法来产生模拟异常数据，如下图所示，相比于传统的剪切拼接方法，泊松图像编辑模拟产生的异常更加自然，这进一步提高了AnomalyGPT方法的性能。