領學術科研之先,創(chuàng)食品科技之新
—— 中國食品雜志社
期刊集群
基于增強視覺Transformer的哈希食品圖像檢索
來源:導入 閱讀量: 302 發(fā)表時間: 2024-06-24
作者: 曹品丹,閔巍慶,宋佳駿,盛國瑞,楊延村,王麗麗,蔣樹強
關鍵詞: 食品圖像檢索;食品計算;哈希檢索;Vision Transformer網(wǎng)絡;深度哈希學習
摘要:

作為食品計算的一個主要任務,食品圖像檢索近年來受到了廣泛的關注。然而,食品圖像檢索面臨著兩個主要的挑戰(zhàn)。首先,食品圖像具有細粒度的特點,這意味著不同食品類別之間的視覺差異可能很小,這些差異只能在圖像的局部區(qū)域中觀察到。其次,食品圖像包含豐富的語義信息,如食材、烹飪方式等,這些信息的提取和利用對于提高檢索性能至關重要。為解決這些問題,本實驗基于預訓練的視覺Transformer(Vision Transformer,ViT)模型提出了一種增強ViT的哈希網(wǎng)絡(enhanced ViT hash network,EVHNet)。針對食品圖像的細粒度特點,EVHNet中設計了一個基于卷積結構的局部特征增強模塊,使網(wǎng)絡能夠學習到更具有代表性的特征。為更好地利用食品圖像的語義信息,EVHNet中還設計了一個聚合語義特征模塊,根據(jù)類令牌特征來聚合食品圖像中的語義信息。本實驗提出的EVHNet模型在貪婪哈希、中心相似量化和深度極化網(wǎng)絡3 種流行的哈希圖像檢索框架下進行評估,并與AlexNet,ResNet50、ViT-B_32和ViT-B_16 4 種主流網(wǎng)絡模型進行比較,在Food-101、Vireo Food-172、UEC Food-256 3 個食品數(shù)據(jù)集上的實驗結果表明,EVHNet模型在檢索精度上的綜合性能優(yōu)于其他模型。

電話: 010-87293157 地址: 北京市豐臺區(qū)洋橋70號

版權所有 @ 2023 中國食品雜志社 京公網(wǎng)安備11010602060050號 京ICP備14033398號-2

鄂州市| 迁安市| 电白县| 彭州市| 黔南| 江华| 文昌市| 余姚市| 黑龙江省| 肃南| 新宁县| 霍山县| 尼木县| 如皋市| 天峨县| 丰台区| 方正县| 肇东市| 禄丰县| 涞水县| 鄱阳县| 桐梓县| 东辽县| 永定县| 凌源市| 五台县| 伊金霍洛旗| 塔河县| 延寿县| 怀来县| 巴彦淖尔市| 礼泉县| 子洲县| 和静县| 牙克石市| 淮南市| 绵竹市| 博乐市| 玉田县| 富源县| 镇原县|