- 文献综述(或调研报告):
前言
篮球投篮分析是在一个特定的应用场景下,综合使用目标识别、目标追踪、图像坐标变换、三维还原等多个算法。同时,市面上也出现了homecourt个人篮球训练辅助分析软件。本文从算法研究现状和应用市场对篮球投篮分析进行了调研。
相关领域研究现状
- 目标识别
近几年来,目标检测算法取得了很大的突破。比较流行的算法可以分为两类,一类是基于Region Proposal的R-CNN系算法(R-CNN,Fast R-CNN, Faster R-CNN等)[1],还有更加先进的Mask R-CNN [2]它们是two-stage的,需要先算法产生目标候选框,也就是目标位置,然后再对候选框做分类与回归。而另一类是Yolo [3,4],SSD [5]这类one-stage算法,其仅仅使用一个卷积神经网络CNN直接预测不同目标的类别与位置。第一类方法是准确度高一些,但是速度慢,但是第二类算法是速度快,但是准确性要低一些。近来,在ICCV2017中,一篇最佳学生论文提出了一个效果更佳的one-stage检测器——RetinaNet [6];它可以在保证准确度不低的情况下较快的运行。
- 目标追踪
当目标跟踪算法在前一帧中检测到的对象时,算法会记录目标的外观特征,以及前一帧中的位置和对象的运动的方向和速度。因此,在下一帧中,可以使用所有这些信息来预测下一帧中目标的位置,并对对象的预期位置进行小范围搜索,以准确定位目标。因此,在设计高效的系统时,通常在每n帧上,运行对象检测,而在其间的n-1帧中采用跟踪算法。
目标跟踪一般由4个基本部分构成:特征提取、运动模型、外观模型、在线更新机制。[7,8]
- 特征提取:适用于目标跟踪的特征一般要求,既能较好地描述跟踪目标又能快速计算。常见的图像特征有灰度特征、颜色特征、纹理特征、Haar-like 矩形特征、兴趣点特征、超像素特征等,当然也还有许多其他特征。
- 运动模型:运动模型旨在描述帧与帧之间目标运动状态之间的关系,显式或隐式地在视频帧中,预测目标图像区域,并给出一组可能的候选区域.经典的运动模型有均值漂移、滑动窗口、卡尔曼滤波、粒子滤波等。
- 外观模型:外观模型的作用是在当前帧中,判决候选图像区域是被跟踪目标的可能性.提取图像区域的视觉特征,输入外观模型进行匹配或决策,最终确定被跟踪目标的空间位置.在视觉跟踪的4个基本组成中,外观模型处于核心地位,如何设计一个鲁棒的外观模型是在线视觉跟踪算法的关键。
- 在线更新机制:为了捕捉目标在跟踪过程中的变化,目标跟踪需要包含一个在线更新机制,在跟踪过程中不断更新外观模型.常见的外观模型更新方式有模板更新、增量子空间学习算法及在线分类器等.如何设计一个合理的在线更新机制,既能捕捉目标的变化又不会导致模型退化,也是目标跟踪研究的一个关键问题。
目标跟踪算法主要分为两类:
- 生成式(generative)模型:
通过在线学习方式建立目标模型,然后使用模型搜索重建误差最小的图像区域,完成目标定位。这一类方法没有考虑目标的背景信息,图像信息没有得到较好的应用。通俗点讲就是在当前帧,对目标区域建模,下一帧寻找与模型最相似的区域就是预测位置,比较著名的有卡尔曼滤波,粒子滤波,mean-shift等。
- 判别式(discrimination)模型:
将目标跟踪看作是一个二元分类问题,同时提取目标和背景信息用来训练分类器,将目标从图像序列背景中分离出来,从而得到当前帧的目标位置。CV中的经典套路图像特征 机器学习, 在当前帧以目标区域为正样本,背景区域为负样本,机器学习方法训练分类器,下一帧用训练好的分类器找最优区域:与生成类方法最大的区别是,分类器采用机器学习,训练中用到了背景信息,这样分类器就能专注区分前景和背景,所以判别类方法普遍都比生成类好。
- 三维重建
在单目摄像头下,实现三维重建的方法就比较少了。总所周知, 单幅无法图像估计深度,这就给三维重建任务带来了很大的局限性。在目前的深度估计模型中,假设有一张2d图片I,我们需要一个函数F来求取每个像素其相对应的深度 d,这个过程可以写为: d=F(I)[9]。但是F 是非常复杂的函数,因为从单张图像中获取具体的深度相当于从二维图像推测出三维空间,即使人类的双眼也无法获取深度信息,所以传统的深度估计在单目深度估计上效果并不好。随着深度学习的发展,也有使用深度学习的方法进行深度预测的工作 [10],作者通过R-CNN网络进行深度预测,实现单目的三维还原工作,但是精度和速度并不理想,达不到还原篮球轨迹的精度要求。
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。