深度神经网络在时装检索中的应用研究文献综述

 2023-09-04 10:22:51
  1. 文献综述(或调研报告):

1. 前言

随着电子商务的蓬勃发展,服饰类电商行业规模不断扩大,线上服装图像数量随之飞速增长,品牌、种类、款式等范围均有所扩大。在这种情况下,传统的基于关键字的检索方法常难以达到理想的检索效果:如果用户输入的关键字存在较大主观性,与商家预设的关键字有一定出入,检索结果会有较大差异。相比之下,基于图像的检索技术降低了用户检索输入的主观性,减少了对人工标注关键字的准确度与丰富性上的依赖。理论上,用户无需对目标服装具有清楚准确的认知,只需要输入一张目标服装的图像便可以搜索到相似的商品链接。

早期的服装图像检索项目大多基于如颜色、纹理、形状等传统全局特征以及SIFT、HOG等局部特征,通过多特征融合尽可能丰富地表达图像信息。这类传统检索算法能够提取出服装图像的低层视觉特征,但对高层语义的表达存在难点,使得检索效果并不十分理想,而基于深度学习的检索方法在这一方面展现出了较为突出的优越性,在实现多类别、多属性、跨场景服装检索等领域展现出巨大潜力。本次设计通过将深度神经网络应用于时装检索领域,目的在于基本实现基于深度神经网络的时装检索功能,并尝试做出一定改进。

2. 主题

基于图像的服装检索方法一般分为基于传统特征的图像检索和基于深度学习的图像检索两类。早期的服装检索项目大多是基于前者,这些项目基于如SIFT[5]、HOG[6]等特征对服装进行分类,也尝试通过算法解决服装分块识别、服装遮挡变形等问题,虽然能够提取出服装的低层视觉特征,但对高层语义的表达仍旧存在难点,在实际应用中还未表现出足够出色的效果。

近年来,随着深度学习的不断发展,很多研究者在基于深度学习进行服装检索方面做出了贡献。例如,Lin[7]等研究者提出了一种基于深度学习的快速图像检索方式,M. H. Kiapour[8]等研究者构建了服装数据集street2shop,为跨场景服装检索研究提供了大量数据,并基于AlexNet等网络进行了评估测试。J. Huang[9]等研究者提出了网络Dual Attribute-aware Ranking Network(DARN)进行服装检索,能够在检测并裁剪出人体服装的前提下通过DARN网络实现检索。Liu[1]等研究者构建了名为“DeepFashion”的含有综合标注的大型时装数据集,该数据集包含超过800000张图像,这些图像具有丰富的细分化的类别、大量属性、关键位置以及不同姿势/场景的对应配对,在规模和标注丰富程度上都超过了之前的大量服装数据集。同时,提出了基于VGG-16的新的深度模型“FashionNet”,验证了该数据集的实用性,该网络在店内服装检索方面的top-20检索正确率达到0.764,在跨域服装检索方面的top-20检索正确率达到0.188,在使用相同数据集进行测试的情况下表现要优于WTBI[8]以及DARN[9]。Ge[2]等研究者在针对“DeepFashion”存在的问题提出数据集“DeepFashion2”,提出基于Mask R-CNN的Match RCNN模型对该数据集进行了验证,一定程度上填补了“DeepFashion”存在的不足。此外,如IMP实例分割[3]以及GAN换装[4]等研究也促进了时装检索领域的研究发展。在提取出服装特征的基础上,适当的检索方法能够提升在海量图像中检索出相似图像的速度。实际应用中,可以综合采取如“类内检索”[10]、[11]、“关键点配合检索”[12]、“基于哈希检索”[13]、“基于图案进行多重特征提取配合检索”等方法,提高检索速度或准确率。

本次设计将深度神经网络应用于时装检索领域,大致涉及数据集的选择、实例分割算法的研究与选择、各神经网络的比较与选择、检索方法的研究与实现等方面的内容,将在方案论证部分进行详细描述。

3. 小结

伴随服饰类电商行业规模,线上服装图像在规模上必定随之增长,传统的基于关键字的检索方法将不能完全满足消费者的需求,“以图搜图”的基于图像的服装检索技术能够使消费者在不了解服装的相关信息时,也能够检索到准确的结果,进而促进服饰类电子商业的发展。

与基于传统特征的图像检索方法相比,基于深度学习的图像检索方法近年来有了较大的发展,也表现出了巨大潜力。本次设计通过将深度神经网络应用于时装检索领域,目的在于基本实现基于深度神经网络的时装检索功能,并尝试做出一定改进。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。