体育视频分析综述.doc
《体育视频分析综述.doc》由会员分享,可在线阅读,更多相关《体育视频分析综述.doc(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、体育视频分析综述*本研究工作获得了国家自然科学基金项目:和等资助。 童晓峰,男,1976年生,博士,主要研究领域为计算机视觉与并行计算,Email: xftong。刘青山,男,1975年生,博士,副研究员,主要研究领域为图像与视频分析,Email: qsliu。卢汉清,男,1961年生,博士,研究员,主要研究领域为图像处理与分析应用、多媒体技术及信息系统等,Email: luhq。童晓峰 刘青山 卢汉清(中国科学院自动化研究所模式识别国家重点实验室,北京,)摘 要体育视频因为拥有数量庞大的受众群体和巨大的商业应用前景而备受研究者和工业界的广泛关注。本文从底层特征提取、中级关键字生成、高级语义推
2、理、相关应用研究和原型系统开发等方面,综述了近年来体育视频分析的研究进展以及可能的发展趋势。关键字:体育视频分析,语义推理,事件检测,视频摘要,特征提取。中图分类号:TP391.4A Survey on Sports Video AnalysisTONG Xiaofeng, LIU Qingshan, and LU Hanqing(National Lab of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing China )Abstract: Sports video is a
3、 hot research topic for its wide viewer-ship and enormous application potential in recent years. This paper gives a review of relative research work including low-level feature extraction, mid-level keyword generation, high-level semantics inference, relative applications and system prototypes, and
4、finally indicates potential trend.Keywords: Sports video analysis, semantic inference, event detection, video summarization, feature extraction1 引言体育视频是一类重要的媒体数据,它拥有广大的观众群体和巨大的应用前景而受到学术和工业界的广泛关注。随着移动设备和互联网的普及,人们对体育视频也从直接观看和简单浏览转向多元化的需求,如精彩片断摘要、特定事件检测、节目定制服务、视频内容编辑等。这些服务都依赖于对体育视频进行语义分析与理解。体育视频分析有着与一般
5、视频处理相似的问题,比如底层特征与高级语义之间存在的语义间隔;也有自己的特别之处:1)、体育领域中高级语义事件的定义比较明确,减小了语义的主观性和模糊性;2)、体育比赛有着特定的结构与规则,这些规则以及在视频广播中所采用的编辑方法都有助于视频的分析与理解。体育视频分析的研究大约有十多年的历史,目前取得了很大的进展,也出现了一些应用模式和系统原型。本文的目的就是综述近年来国内外体育视频分析的研究现状、遇到的问题和解决的办法,希望帮助读者了解此方面的知识。本文首先介绍体育视频分析的不同需求及研究内容;然后讲述国内外当前研究现状,包括框架、特征提取和算法分析等;接下来描述了研究发展趋势;最后给出了结
6、论。2 用户需求和研究内容从对体育视频的需求、条件和可用资源等方面,用户可以分为四类:电视用户,移动设备用户,网络用户和专业人士Error! Reference source not found.。电视用户不担心数据传输带宽的问题。然而,他们可能不能及时观看比赛或者不能花几个小时观看比赛直播。为了节约时间并了解比赛情况,他们对体育视频摘要比较感兴趣。随着3G无线标准的产生和应用,移动用户有快速的网络连接。但是由于带宽的限制,实时的数据流传输仍然不现实,另外体育节目的价值随着时间推移而降低,他们希望及时了解比赛进程。所以,移动用户关心实时的精彩片断提取与传送。网络用户与移动用户一样关心网络带宽问
7、题,他们的需求包括视频摘要和特定感兴趣事件检测。专业用户包括运动员、教练员和体育评论者。他们需要准确提取球队和运动员的某些信息以制定比赛计划、评估队员的表现或者分析比赛策略。这些用户对目标检测与跟踪,运动轨迹提取以及在此基础之上的语义分析感兴趣。体育视频分析在不同需求的推动下产生了很多有价值的应用,包括精彩片断提取与传输,视频摘要,视频浏览与检索,球和运动员的检测与跟踪,行为与动作分析及索引,战术统计与策略分析,虚拟内容插入,以及虚拟场景构造,等等。3 研究现状3.1 框架体育视频分析存在底层特征与高级语义之间的语义间隔问题。目前的办法是构建一个中间描述层作为低级和高级语义之间的桥梁,在构建中
8、级描述层的时候,加入先验知识和特定领域相关规则,辅助底层特征选择和高级语义推理。通常采用的框架是一个三层次结构Error! Reference source not found.,即低级特征层,中级语义描述层和高级事件层,如图1所示。低级特征层包括基本的视觉(比如颜色、形状、纹理、运动等)、听觉(比如LPC、MFCC、LPCC、STE等)和文本特征,它们可以直接从视频数据中提取。框架的高层是一些语义实体,比如比赛的结构和内容,精彩片断,特定语义事件等。“事件”被定义为用户感兴趣的具有一定上下文线索并符合特定领域知识模型的语义时空实体Error! Reference source not fou
9、nd.。中间层定义了对视频片段的描述,称为关键字,包括:1)视频关键字,比如镜头类型Error! Reference source not found.Error! Reference source not found.、运动模式Error! Reference source not found.Error! Reference source not found.Error! Reference source not found.Error! Reference source not found.、纹理与形状描述Error! Reference source not found.、比赛位置Er
10、ror! Reference source not found.Error! Reference source not found.、目标位置与轨迹等;2)音频关键字,比如哨声、解说员声音、观众欢呼声,以及静音等Error! Reference source not found.Error! Reference source not found.;3)文本关键字,比如“进球”、“犯规”等,文本包括场景和人工叠加的字幕(caption)Error! Reference source not found.、声音转录字幕(close-caption)Error! Reference source n
11、ot found.、以及网上广播文字Error! Reference source not found.Error! Reference source not found.等。体育节目的中级关键字提取和高级语义推理一般需要结合特定领域知识以及视频编辑规则。原因在于:1)很难自动找出适合于某些高级语义事件推理的底层特征;2)底层特征和高级语义存在距离,底层特征难以直接描述高级语义;3)高级语义通常是一个时空实体,拥有时间上和空间上的跨度。底层特征表达式维度高而复杂,而且难以表达语义的不确定性。领域特定知识可以引导底层特征选择和提取,生成中级关键字,再结合不同语义事件的特点选择推理算法。通常讲的视
12、频包含视觉、听觉和文本等三个方面的信息源。下面,我们首先从这三个方面回顾一下体育视频分析中底层特征提取和中级关键字生产;然后介绍高级语义分析,研究方法和发展路线。图1. 体育视频分析框架 3.2 底层特征的提取3.2.1视觉特征视觉信息是体育视频分析中一个重要成分。早期的很多工作都是利用视觉信息来完成的Error! Reference source not found.Error! Reference source not found.。视觉特征主要有颜色、纹理、形状和运动等。基于颜色的处理有视频主颜色提取Error! Reference source not found.,镜头分类以及特定目
13、标表征、检测、跟踪与识别Error! Reference source not found.Error! Reference source not found.等。纹理特征通常用于画面的分类Error! Reference source not found.,特定目标描述与检测Error! Reference source not found.等。形状特征可用于目标表达、比赛场地描述和运动姿态识别等等。比如,描述球的形状Error! Reference source not found.Error! Reference source not found.,场地形状与位置判断Error! Ref
14、erence source not found.Error! Reference source not found.等。运动特征对于表征体育视频非常重要,运动模式反映了比赛的节奏。Error! Reference source not found.用运动活度(motion activity)表达比赛的节奏,从而提取比赛激烈的片段。Huang等Error! Reference source not found.利用运动特征来描述重放场景的logo过程以实现重放场景的自动学习与检测,取得了良好的效果。3.2.2听觉特征音频蕴涵了丰富的语义,近年来很多方法开始采用音频特征来分析和检索多媒体数据。相对
15、视频信号,音频处理速度快,计算量较小。所以,音频处理可以用于快速的事件时刻定位,然后结合视觉特征进一步处理。从音频例子中提取特征,最简单的方式是直接从音频例子(audio clip)中提取时域和频域特征来表征音频例子所蕴涵的语义。常用的音频特征有mel频率倒谱系数(MFCC),短时能量(STE)、过零率(ZCR)和线性预测系数(LPC)等特征,最后把它们的统计量(如均值和方差等)计算出来作为音频例子的特征向量。J.Li 等Error! Reference source not found.利用音频MFCC特征和混合高斯模型来检测兴奋语音和哨音。M. Xu等Error! Reference so
16、urce not found.综合利用了MFCC、STE等特征和SVM对长短哨音、兴奋语音等进行识别。3.2.3文字特征文字也是多媒体数据中的一个重要信息源,传统的文字数据有画面字幕和转录字幕。画面字幕包括场景字幕和人工字幕。场景字幕由于检测和识别比较困难,难以应用;但是人工字幕易于提取和识别并用于视频分析和理解。Error! Reference source not found.利用字幕检测比赛记分牌上的信息以实现棒球节目中的事件检测。转录字幕是通过语音识别技术转录生成的文字,如新闻解说和场景对话等。可以采用传统文本分析技术识别其中的关键字,实现多媒体数据分析与理解Error! Refere
17、nce source not found.Error! Reference source not found.。另一种新的文字信息网上直播文字,在网络上用文字及时描述比赛实况,它包含发生的事件、事件的主体,动作及结果等。直播文字可以用于实时检测比赛精彩片段Error! Reference source not found.Error! Reference source not found.Error! Reference source not found.等工作。3.3中级关键字提取很多高级语义事件蕴涵了特定的语义场景,这些场景往往与特定领域知识相关。中级关键字作为桥梁连接了底层特征和高级语义
18、,填补了它们之间的语义间隔。体育视频中常用的中级关键字包括:镜头类型,重放场景,比赛位置,特定目标位置与轨迹,运动模式,音频关键字与文本关键字等。3.3.1 语义镜头分类比赛语义场景通过镜头类型及其转换上下文来表达。相应地,特定镜头类型及其转换上下文预示着特定语义事件Error! Reference source not found.Error! Reference source not found.Error! Reference source not found.。镜头类型包括长镜头,中镜头,特写和场外镜头等。长镜头一般用于显示比赛场地的全貌,中镜头可以表现运动员的动作,而短镜头(特写)则
19、可以近距离地刻画人物的表情,场外画面可以描述了场外观众的行为与反应。A. EkinError! Reference source not found.根据场地面积比和场地分布等特征实现对足球和篮球视频的镜头分类。P. Xu等Error! Reference source not found.利用场地面积和场地中的物体尺寸等信息对足球视频进行镜头分类,并把不同镜头类型映射到不同比赛状态以对足球视频进行了结构分析,将其分为比赛/中断(play/break)两个状态。L. Duan等Error! Reference source not found.Error! Reference source n
20、ot found.根据场地面积、场地线和场地中的物体尺度等特征结合相应的领域知识利用决策树实现对足球、篮球、网球、排球等节目的镜头分类。Error! Reference source not found.统计了颜色矩与形状信息并使用HMM模型对台球和网球节目镜头进行分类。3.3.2 重放场景检测在广播视频中,精彩的片断一般会用慢速播放方式从不同视角重复播放几次。因此,重放场景对于精彩片断检测有非常重要的提示作用。重放场景分为两类:不带logo的重放场景和带logo的重放场景。后者是指在重放场景的开始和结束处有一个实况场景与重放场景之间的转换, 这个转换过程通常会出现一个logo,比如足球世界杯
21、的徽标,奥运会徽标等,如图2。大部分工作都是检测有logo的重放场景Error! Reference source not found.Error! Reference source not found.Error! Reference source not found.Error! Reference source not found.Error! Reference source not found.。在对logo的特征表达上,Error! Reference source not found.Error! Reference source not found.使用了颜色特征,但是实验表明
22、Error! Reference source not found.采用运动特征得到的结果更好,运动特征更能描述logo转换的本质。对于不带logo的重放场景,特征提取和模式描述都比较困难,相应的工作较少Error! Reference source not found.Error! Reference source not found.。图2:带有logo的重放场景转换3.3.3 比赛位置判断比赛位置是指场地球类运动中当前画面对应的场地上的位置,比如左边禁区前沿,中场等。比赛位置及其位置转换表达了比赛的节奏和状态。另外精彩镜头比如进球或射门时比赛位置一般在禁区前沿,因此它也作为一个中级关键字
23、检测语义事件Error! Reference source not found. Error! Reference source not found.。判断比赛位置需要检测场地中的直线并且识别这些直线或者通过统计学习方法推导场地位置。简单的操作可以把场地分为左半场、中场还是右半场Error! Reference source not found.。再复杂一些可以分为五个区域Error! Reference source not found.,如图3。更加细致的是十五个区域Error! Reference source not found.,但是运算更复杂,准确性也不高。实验证明,五个区域已经足
24、够检测像射门、进球、角球等事件Error! Reference source not found.Error! Reference source not found.。图3:Hough直线检测以及比赛位置划分3.3.4 目标检测和跟踪在体育节目中,另一个令人关注的任务是目标检测、跟踪与轨迹分析。这些目标包括运动员、裁判、球和球门等。检测这些语义目标的目的,一方面是为了分析高级语义事件,得到视频摘要;另一方面是为了比赛体育策略分析,行为分析与索引等,比如比赛阵形、进攻路线以及配合动作等。3.3.4.1 球的检测与跟踪早期的足球检测基本上都采用基于颜色的模板匹配技术Error! Reference
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 体育 视频 分析 综述
限制150内