1
作为一种高级语义特征, 视频中的文字信息对视频内容的理解、索引和检索具有重要意义。本文针对非压缩域中视频文字的检测与提取技术做了详尽的分析和讨论, 涉及的内容包括:文字事件的检测、帧图像中文字区域的检测与分割以及视频文字识别(Video OCR) 等。对于不同的典型算法, 分析了其理论基础和应用特点, 并且通过对比指出其不足和应用的局限。最后, 本文还展望了该技术未来发展的方向。
随着Internet 网络应用的普及和图像、视频等多媒体数据的迅速增长, 基于内容的视频索引和检索(Content - based Indexing and Ret rieval , CBIR)已经成为人们的研究热点。虽然CBIR 方法可以借助诸如颜色、纹理、形状和运动特征等来进行视频的检索, 但是由于缺乏高级语义, 因此该方法存在很大的缺陷。CBIR 方法的主要缺点体现在这些低级特征和人对于媒体信息的认识脱节, 因此不但无法实现准确或有效的检索, 而且对于普通用户来说难于掌握
由于文字具有的高级语义特征, 传统的视频索引和检索都是基于关键字实现的1 - 3 。首先用人工的方法对图像/ 视频进行文字标注(包括所属类别、标题、字幕信息等) , 然后借助这些文字对视频进行有效的检索。由于需要大量的人工, 而且存在相当的二义性, 使得这种方法无法胜任对于海量数据的有效索引和检索。
结合CBIR 以及文字索引方法的不足, 人们开始研究怎样自动从视频中提取文字信息, 进而用于视频索引和检索的方法1 ,4 ,6 ,9 。这些文字信息可以通过字符识别或语音识别等得到, 本文探讨的是视频中文字符号的检测和识别问题。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !