当前位置:起点学习辅导网学习辅导毕业论文毕业论文提纲本体支持的视频语义概念探测

本体支持的视频语义概念探测

01-01 20:12:54浏览次数:402栏目:毕业论文提纲
标签:论文提纲格式,毕业论文提纲范文,暂无联系方式 本体支持的视频语义概念探测,

  视频中包含的文本信息一方面来自于视频伴随音轨中的语音信息,另一方面来自于视频中字幕、场景文字的识别,即VOCR。本文采用ScanSoft 公司开发的Nuance 系统[6](前身为IBM 公司开发的ViaVoice 引擎)作为语音识别工具和人工方法辅助视频伴随音轨文字标注视频中的语音信息;新闻视频中的字幕包含了对视频内容的主要文本描述,因此在本文的研究中只考虑字幕文本的识别而不考虑场景文字的识别。本文采用郭金林等[7]提出的基于压缩域特征的字幕定位与文字识别作为字幕文本识别工具。通过语音识别和VOCR 抽取的文本信息记作vt。采用中科院的开源分词软件ICTCLAS[8]进行中文分词,抽取vt 中包含的词条集1 { }Ni i nt nt = = 。对于英文分词采用人工标注方法处理。

  概念描述文本通过视频概念扩展本体中的定义获得,包括两个部分:一是概念描述d,d ∈D,D 为本体中所有概念描述集合。另一个是概念同义词集SynonymsList 。对概念描述d 进行分词,从中抽取词条集,与同义词集合并组成概念描述词条集{ } 1Mj j c d c d == 。 www.qidian55.com哦

  常用且效果较好的文本表示模型是向量空间模型[9]。在该模型中,文档空间被看作是由一组正交向量张成的向量空间,即把每一个文档看作是文档向量空间中的一个特征向量,该向量的每一个分量表示对应特征在该文档中的特征权值。对于中文文本而言,由于词条是语义最小的单位,因此一般选词条作为特征。特征通常根据词频和倒文档频率计算。根据文本向量空间模型的一般定义,本文计算视频概念C 描述文本与视频包含的文本之间的匹配程度,进一步,所有名词术语{ } i nt 具有越高的重要度乘积值,说明这两个文本集具有越高的相似度。vt,cd co 度量了两个文本集包含相同名词术语的程度,显然, vt,cd co 值越大,说明两个文本集的相似度越大。

  通过上述计算,可以度量每一个视频概念与待探测视频片段的文本匹配程度。某个概念计算得到的匹配程度越大,说明该视频片段包含该概念的可能性越大。

  3.2 本体概念匹配与文本匹配相同,抽取视频包含的文本集vt 和vt 中包含的名词术语集。通过匹配nt 与视频概念扩展本体中的概念定义,可以获得nt 对应的一个概念集合。直观的讲,C 中包含的概念在该段视频中出现的可能性较大。但是如何定量的度量某一个概念在vt 中拥有更重要的“地位”呢?即vt 的内容与该概念更加相关。

  在文献中,Resnik 提出了一种概念信息内容度量方法,即度量概念与文本内容的相关程度,具有高信息内容的概念具有高的相关程度。这一方法为我们解决度量概念在视频文本vt 中的重要程度(即二者的相关程度)提供了思路。本文提出的概念匹配方法如下:

  首先,对于概念i c ,通过视频概念扩展本体定义的关系,抽取与i c 相关的本体概念,这里定义“相关”概念为:在本体中与i c 语义距离不超过2 的概念和共现关系集中定义的与i c 具有共现关系的概念。语义距离定义为本体关系图中,两个概念间的最短路径包含的边数。

  不难理解,对于视频概念而言,其相关概念为其父节点概念、二级父节点概念和所有兄弟节点概念。标记与i c 相关的所有概念的同义词集的合集为( ) i RT c ,则可定义i c 在文本集vt 中的似然度。

  4 特征匹配特征匹配是从低层特征相似性的角度探测元概念,即建立视频低层感知特征与视频概念之间的关联。

  感知概念一方面具有一致的、容易学习的低层特征模式;另一方面,视频概念扩展本体定义的概念与感知概念间的关系赋予了感知概念一定的语义。相对于从视频中单纯抽取的低层感知特征而言,抽取感知概念具有的低层特征模式更能够表征元概念与低层特征的内在关联规律。视频概念是视频概念扩展本体中定义的语义粒度最小的概念,主要通过视觉特征表现。因此,本文讨论的特征匹配主要基于感知概念中的视觉对象概念。

  视频主要通过视觉通道承载和传递信息,视频中包含的概念总可以描述为若干个视觉对象的组合,通过视觉对象这一中层语义得到的低层特征,对于概念具有更好的区分能力,即有效的消除了低层特征与高层语义关联的不确定性。

  基于上述思想,本文根据视频概念扩展本体定义的语义概念与感知概念之间的包含关系,抽取与概念相关的视觉对象概念。选择标注过视觉对象概念的视频数据作为训练数据集,抽取相同视觉对象概念的颜色、纹理、位置特征,训练视觉对象概念对应的视频概念分类器,选择SVM 构造分类器。这里需要指出的是,一个视频概念可能包含若干个视觉对象概念,则每一个视觉对象概念都对应一个概念分类器,不同的视觉对象刻画了概念的不同属性特征,通过对多个视觉对象概念对应的概念分类器的探测结果进行融合,得到最终的概念探测结果。

  4.1 视觉对象的特征抽取本文分别抽取视觉对象的颜色、纹理和位置特征如下:

  1. 7 维的HSV 颜色均值和主颜色(Dominant Color);2. 8 维一个尺度,0° , 45° ,90° ,135°四个方向的Gabor 纹理特征;3. 构造视觉对象外接矩形,抽取2 维的对象矩形中心点位置特征,8 维的对象矩形顶点位置特征。

  4.2 SVM 分类器构造抽取上述视觉对象特征组成特征向量,训练SVM 分类器探测概念。概念探测目标是给出视频片段中是否出现特定概念的判断,同时还要给出这种判断的置信度,即后验概率。而标准的SVM 分类器决策函数是一个符号函数,即根据决策函数的值给出肯定或否定的二值判断,用概率描述就是属于某一类的概率为1,或者不属于某一类的概率为1。因此,构造概念分类器要解决的一个重要问题就是SVM 分类器的概率化输出。

  目前,关于 SVM 后验概率输出的研究较少,多数学者沿用了Vapnik 的计算方法和思想,研究的重点主要集中在求解二次规划的数学技巧上,或者直接将Vapnik 的计算方法应用到某一个领域得出一些应用成果。关于SVM 后验概率输出的代表性研究是由Platt 提出来的,其主要思想来源于Wuhba 关于RKHS 表示定理的研究。本文采用Platt 提出的方法,获得SVM 概率化输出。

  对给定概念对应的不同视觉对象概念,抽取特征训练分类器,每一个分类器的输出表示根据该视觉对象判断给定的概念出现的概率。

  4.3 结果融合对于待探测视频片段,首先抽取其包含的各个视觉对象概念的低层特征。根据视频概念扩展本体定义的语义概念与感知概念间的关联关系,获取每一个视觉对象概念关联的概念。

  然后选择相应的SVM 分类器进行概念探测。 www.qidian55.com哦   容易理解,对于每一个视频概念,根据其相关的视觉对象概念的不同,可以计算得到若干个该概念出现的概率值,我们通过计算所有概率值的加权和来最终确定视觉特征匹配的程度值。

  上式中, v N 表示概念C 的训练视频集的视频片段数量, vo N 表示概念C 的训练视频集中包含的视觉对象概念数量, ( , ) i i N VO v 表示i VO 在视频片段i v 中出现的次数。相似的,( ) i p VO 表示i VO 在所有训练数据集中出现的概率。

  根据训练数据集的统计,可计算出每个视觉对象概念相对于其相关概念的权值,并进行归一化。进而,可以计算得到视觉特征匹配的结果。

  5 匹配结果融合与概念探测在分别得到上下文信息匹配和特征匹配的结果之后,我们采用线性融合方法对匹配结果进行融合,得到最终的概念探测结果。

  通过上述融合计算之后,可以得到给定概念与测试视频子镜头的匹配程度,匹配程度值越大,说明该概念与测试视频相关程度越高,进而推断其出现在视频中的可能性越大。

  显然,通过匹配计算可以得到一个匹配值列表,越靠前的匹配概念在测试视频子镜头中出现的概率越大。因此,可以根据实际需要,综合考虑探测性能要求,选择前若干个匹配概念作为探测结果。

  6 实验为了评估测试本文提出的本体支持的概念探测方法,我们采集多种来源的电视节目视频,如表1 所示。

  选择 8350 个子镜头作为训练集,其余的子镜头作为测试集。抽取每个子镜头包含的字幕文本、语音文本和感知概念具有的感知特征向量。需要指出的是,英文文本的分词和名词术语切分本文不作研究,实验中采用人工切分的方法获得。本文构建了面向视频情报分析的“美国台海政策专题”视频概念扩展本体,其中定义了41 个语义概念。以这41 个概念作为标注概念集,对实验数据中每个视频子镜头标注其包含的语义概念。

上一页  [1] [2] [3]  下一页

,本体支持的视频语义概念探测
《本体支持的视频语义概念探测》相关文章
给资讯打分:
网友评论: