近日,尊龙凯时 - 人生就是搏!网络智能研究部视觉智能研究所与中国科学院大学电子电气与通信工程学院共同合作,分别在GitHub和OpenI启智社区开源了物理传热启发的高效视觉表征模型vHeat(Paper link: http://arxiv.org/abs/2405.16555, Code link: GitHub-http://github.com/MzeroMiko/vHeat, OpenI启智社区-http://openi.watsons-china.com/georgew/vHeat)。
研究团队认为,CNN和ViT的卷积算子与自注意力算子都是特征内部的像素传播过程,分别是一种信息传递的形式,从而联想到物理领域的热传导,因此提出了基于热传导的视觉表征模型vHeat。vHeat将图片特征块视为热源,通过预测热扩散率,以物理学热传导原理来提取图像特征。相比基于Attention机制的视觉模型,vHeat同时兼顾了低计算复杂度、全局感受野、物理可解释性等特性,计算复杂度降低为1.5次方,如图1所示。
图1 vHeat与ViT核心算子计算复杂度对比
研究团队根据热传导方程,将视觉语义的空间传播和物理热传导建立联系,根据傅里叶变换求得通解,并依据通解进行离散化和通道维度扩展,提出了一种1.5次方计算复杂度的视觉热传导算子 (Heat Conduction Operator, HCO),如图2所示。此外,团队认为不同图像内容对应不同的热扩散率,提出了频率值编码 (Frequency Value Embeddings, FVEs) 来表示频率信息,并采用FVEs来预测热扩散率,使得HCO可进行非均匀、自适应的传导(图3)。
图 2 HCO与HCO Layer示意图
图 3 用FVEs预测热扩散率,形成非均匀、自适应的传导
实验证明,vHeat在各种视觉任务中表现优秀。例如vHeat-T在ImageNet-1K上分类准确率达到82.2%,比Swin-T高0.9%,比Vim-S高1.7%。除性能优势之外,vHeat还拥有高推理速度、低GPU显存占用和低FLOPs等优点。在输入图像分辨率较高时,相比于Swin,base规模的vHeat模型达到3倍吞吐量,同时GPU显存占用为其1/4倍,FLOPs为其3/4倍。
vHeat这一创新性研究成果为视觉模型的发展提供了新的方向和思路。未来,研究团队将继续推进新型视觉模型研究,为模型在各行业、多领域的人工智能发展和应用贡献力量。