科大讯飞夺冠2019年度计算机视觉顶级会议CVPR和ICDAR多项评测-德赢Vwin官网网

科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室（NELSLIP）（以下统称为讯飞-中科大联合团队）在近期举办的计算机视觉顶级会议CVPR 2019和文档分析与识别顶级会议ICDAR 2019上的多项评测任务中获得冠军：

1.在计算机视觉与模式识别国际会议（CVPR 2019）举办的物体检测挑战赛DIW 2019（Detection in the Wild challenge Workshop 2019）上取得Objects365 Tiny Track第一，Objects365 Full Track第三的佳绩；

2.在文档分析与识别国际会议（ICDAR 2019）举办的多项赛事中，包揽手写数学公式识别挑战赛CROHME（Competition on Recognition of Handwritten Mathematical Expressions）全部两项任务以及场景文本视觉问答挑战赛ST-VQA（Scene Text Visual Question Answering）挑战赛上全部三项任务冠军，此外还取得了街景招牌中文文本识别挑战赛ReCTS（Reading Chinese Text on Signboard）单字识别任务冠军。

这一系列的佳绩标志着科大讯飞在计算机视觉领域的积累日益深厚，始终保持着先进的水平和探索的步伐。

DIW2019挑战赛

DIW 2019挑战赛由旷视科技与北京智源人工智能研究院共同举办，该项赛事吸引了包括腾讯、百度、字节跳动等300多支队伍参赛，其所采用的Objects365数据集包含63万张图像，高达1000万人工标注框，覆盖365个日常物体类别，堪称最大通用物体检测数据集。

相比于大家熟知的ImageNet和COCO数据集，Objects365数据集更贴近自然场景，覆盖更多的类别并且提供了更密集的标注，由于数据分布极度不均衡，因此极大增加了比赛的难度，对算法提出了更高的要求。

作为计算机视觉的两项基础任务，物体检测和分割一直以来是业界主流的研究方向。科大讯飞团队在2018年10月刷新了国际自动驾驶权威评测Cityscapes全部两项子任务（驾驶场景语义分割和实例分割）的世界纪录。

在本次DIW2019比赛中，讯飞-中科大联合团队在以往视觉技术积累的基础上，针对该项任务中物体尺度多样性和样本数量分布不均衡的特点，对物体检测的经典框架Faster-RCNN进行针对性改进：混合样本数据增强策略提升网络的泛化能力；多级可变形卷积使得网络的感受野能够更加适应相应尺度下的候选框；级联检测方案逐步提升了候选框的质量。此外针对更具挑战性的Tiny Track任务（样本数量小），迁移Objects365 Full Track模型提升Objects365 Tiny Track的性能，并融合两个赛道模型进一步提升了Full Track的检测效果。

物体检测和分割在工业界同样具有广泛的应用前景，科大讯飞在这两项基础任务上的技术积累不仅确保团队在各项赛事中持续保持竞争力，也为应用落地提供了扎实的技术保障，无论是讯飞翻译机中的图文识别，医疗影像领域中的辅助诊断，以及视频结构化技术中的视频理解等，都蕴含着科大讯飞对核心技术的不懈追求和对应用落地的坚定决心。

CROHME 挑战赛

在2018年的ICPR MTWI图文识别挑战赛中科大讯飞A.I.研究院包揽了全部三项任务的冠军，充分说明了科大讯飞在自然场景文字识别技术上的领先性。本次讯飞-中科大联合团队选择挑战难度更高的手写数学公式识别任务CROHME。该项赛事由美国罗切斯特理工学院（Rochester Institute of Technology）负责承办，吸引了MyScript、三星、 WIRIS（MathType）、中科院自动化所、中山大学等多家在手写数学公式识别领域著名的国内外研究机构参与。

讯飞-中科大联合团队参加了在线手写数学公式识别（Online Handwritten Mathematical Expressions Recognition）和离线手写数学公式识别（Offline Handwritten Mathematical Expressions Recognition）的两项主要任务，这两项任务的不同之处在于，前者的输入为手写数学公式的笔划轨迹，它记录了笔划书写的先后顺序，常应用于实时的在线手写识别应用场景，在线手写识别系统需要采集用户在手机、平板等在线化输入设备上书写的字符轨迹作为系统输入；后者的输入则为手写数学公式的图像，常应用于拍照、扫描等离线手写识别应用场景，该场景下用户只需要将手写字符的照片送入离线手写识别系统中即可完成分析与识别。

在线数学公式（手写轨迹）

离线数学公式（静态图像）

CROHME 2019使用的数据集是由美国罗切斯特理工学院收集和标注的手写数学公式，其中训练集共9993个，验证集共986个，测试集共1199个，此次比赛不仅要求参赛系统识别出公式中的每个字符，还要求参赛系统给出被识别的字符之间的位置关系，因此，相比于常规OCR任务，该任务的难点在于：

1)位置关系

位置关系不再只是常规OCR任务中单一的左右或者上下的关系，还存在垂直、包含、上下标等多种结构关系以及这些结构关系之间的组合嵌套；

2)字符尺寸

数学公式中的字符尺寸差异较常规OCR任务更大；

3)书写风格

书写者的书写风格会使得某些不同字符之间容易产生混淆，且同样的字符由不同书写者书写，不仅字符形态差异可能会很大，对于在线任务来说，其笔划轨迹的顺序也有可能会不一致；

科大讯飞在手写文字识别领域已深耕多年。与将字符识别和位置关系识别分别建模的传统数学公式识别思路不同，科大讯飞使用的参赛系统正是借鉴了手写文字识别技术中基于空间注意力机制的Encoder-Decoder思想，实现了数学公式的字符和位置关系的端到端识别，同时提出了多尺度空间注意力机制以解决由字符尺寸差异较大带来的识别字符丢失问题。此外，针对不同书写者书写风格迥异的问题，提出了空间注意力引导机制和时间注意力机制，从空间和时间两个维度上提升注意力的准确度，最后融合了多种不同模态的信息提升了系统最终决策的效果。

基于雄厚的人工智能核心技术，科大讯飞在应用领域正积极落地。特别在教育领域，以行业领先的高精准手写识别技术、智能评测技术为典型应用代表的智能评卷系统，目前已经在CET、多地中高考中实现了人机结合的智能辅助评分新方式，最大限度的保证了评卷质量。同时，在日常教学环节中，基于对每一个学生个体作业练习测试的精准识别和深度数据挖掘，科大讯飞形成了以数据驱动方式实现的个性化精准教学。通过图文识别、智能评测分析每个学生的知识掌握薄弱环节，针对性地实现个性化学习推荐，让每个孩子回家后有针对自己能力水平的不同家庭作业，让每个老师有更多的时间推动因材施教。

ST-VQA挑战赛

ST-VQA（Scene Text Visual Question Answering）是由CVC（Computer Vision Center）举办的一项视觉问答挑战赛，要求算法能够像人类一样解析图像中实体之间的关系，并正确地回答出问题。这一方面对算法的图像检测和分割等前端技术提出了要求；另一方面还需要算法具备多模态数据融合、理解和推理的能力，是未来人工智能的发展方向之一。

如在下图的场景中为了找出蓝色公交车的目的地，首先需要正确地识别出蓝色公交车的位置，并推理出公交车的目的地显示在公交车前方的电子显示屏上，最后需要算法识别出电子显示屏上的内容。

ST-VQA比赛总共分为三个任务，分别为Task1-Strongly Contextualized、Task2-Weakly Contextualized和Task3-Open Dictionary，这三项任务的不同之处在于Task1会对每张图像给定一个候选词表，Task2会对整个数据集给定一个候选词表，而Task3则没有额外的词表用于辅助答案的预测。这三个任务的难度逐渐增加，讯飞-中科大联合团队参加了全部三项比赛，并包揽冠军。

针对于此次参加的ST-VQA任务，讯飞-中科大联合团队将模型分为视觉理解前端模型和视觉推理后端模型。文本检测和物体检测模型作为前端模型从图像中提取出有效实体，此外针对数据集中的语料少的问题，借鉴了科大讯飞在SQuAD2.0评测任务上采用无监督预训练模型的思想并加以改进，成功融入到了前端模块中。

在后端网络的设计上，团队设计了相应的Encoder-Decoder模型用于融合上述从图像中提取得到的实体信息和问题数据并预测出答案，此外在Encoder-Decoder模型的设计过程中融合了多任务的设计思想，使其能够兼容三项任务，从而使得这三项任务能够同时训练，相互提升。参加ST-VQA比赛，是讯飞在视觉理解以及多模态数据融合方面的前瞻性探索，比赛中使用的技术为公司未来在多模态交互方面的发展打下了基础。

作为亚太地区知名的智能语音与人工智能上市公司，围绕着讯飞超脑，科大讯飞一直秉承技术顶天、产品落地的战略理念，在核心技术上不断创新。基于此，科大讯飞在智能语音、自然语言处理等领域硕果累累，也在视觉场景理解领域获得长足进步，并且积极推动相关赛道技术落地，在教育、医疗、政法等业务上已经取得了很好的成效。未来，讯飞将全面持续推进核心技术的优化迭代与落地应用，努力践行用人工智能建设美好世界的公司使命。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30728

浏览量
268880
计算机视觉

计算机视觉

+关注

关注
8

文章
1698

浏览量
45971
科大讯飞

科大讯飞

+关注

关注
19

文章
800

浏览量
61238

原文标题：科大讯飞夺冠2019年度计算机视觉顶级会议CVPR和ICDAR多项评测

文章出处：【微信号：iFLYTEK1999，微信公众号：科大讯飞】欢迎添加关注！文章转载请注明出处。

Nullmax视觉感知能力再获国际顶级学术会议认可

日前，欧洲计算机视觉国际会议 ECCV 2024公布论文录用结果，Nullmax感知团队的目标检测论文《SimPB: A Single Model for 2D and 3D Object Detection from Mult

发表于 09-02 14:07 •416次阅读

锐思智芯展示融合视觉感知技术创新与产品应用

日前，计算机视觉和人工智能领域最具影响力的顶级学术会议——IEEE国际计算机视觉与模式识别

发表于 08-28 14:36 •490次阅读

计算机视觉有哪些优缺点

计算机视觉作为人工智能领域的一个重要分支，旨在使计算机能够像人类一样理解和解释图像和视频中的信息。这一技术的发展不仅推动了多个行业的变革，也带来了诸多优势，但同时也伴随着一些挑战和局限性。以下是对

发表于 08-14 09:49 •913次阅读

机器视觉和计算机视觉有什么区别

机器视觉和计算机视觉是两个密切相关但又有所区别的概念。一、定义机器视觉机器视觉，又称为计算机

发表于 07-16 10:23 •517次阅读

计算机视觉的五大技术

计算机视觉作为深度学习领域最热门的研究方向之一，其技术涵盖了多个方面，为人工智能的发展开拓了广阔的道路。以下是对计算机视觉五大技术的详细解析，包括图像分类、对象检测、目标跟踪、语义分割

发表于 07-10 18:26 •1330次阅读

计算机视觉的工作原理和应用

图像和视频中提取有用信息，进而进行决策和行动。自1960年代第一批学术论文问世以来，计算机视觉技术已经取得了长足的发展，并在多个领域展现出巨大的应用潜力和价值。

发表于 07-10 18:24 •1903次阅读

计算机视觉与人工智能的关系是什么

引言 计算机视觉是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个领域的知识。人工智能则是研究如何使计算

发表于 07-09 09:25 •614次阅读

计算机视觉与智能感知是干嘛的

引言 计算机视觉（Computer Vision）是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个领域，是人工智能的重要组成部分。智能

发表于 07-09 09:23 •913次阅读

计算机视觉和机器视觉区别在哪

计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。一、定义 计算机视觉 计算机

发表于 07-09 09:22 •445次阅读

计算机视觉和图像处理的区别和联系

计算机视觉和图像处理是两个密切相关但又有明显区别的领域。 1. 基本概念 1.1 计算机视觉 计算机视觉

发表于 07-09 09:16 •1281次阅读

计算机视觉属于人工智能吗

属于，计算机视觉是人工智能领域的一个重要分支。引言 计算机视觉是一门研究如何使计算机具有视觉能

发表于 07-09 09:11 •1284次阅读

OpenCV携Orbbec 3D相机亮相CVPR 2024，加速AI视觉创新

在科技发展的浪潮中，一年一度的IEEE国际计算机视觉与模式识别会议（CVPR）无疑是视觉技术领域

发表于 06-21 10:15 •606次阅读

机器视觉与计算机视觉的区别

在人工智能和自动化技术的快速发展中，机器视觉（Machine Vision, MV）和计算机视觉（Computer Vision, CV）作为两个重要的分支领域，都扮演着至关重要的角色。尽管它们在

发表于 06-06 17:24 •1319次阅读

计算机视觉的主要研究方向

计算机视觉（Computer Vision, CV）作为人工智能领域的一个重要分支，致力于使计算机能够像人眼一样理解和解释图像和视频中的信息。随着深度学习、大数据等技术的快速发展，计算机

发表于 06-06 17:17 •947次阅读

计算机视觉的十大算法

随着科技的不断发展，计算机视觉领域也取得了长足的进步。本文将介绍计算机视觉领域的十大算法，包括它们的基本原理、应用场景和优缺点。这些算法在图像处理、目标检测、人脸识别等领域有着广泛的应

发表于 02-19 13:26 •1232次阅读

搜索历史

科大讯飞夺冠2019年度计算机视觉顶级会议CVPR和ICDAR多项评测

评论

Nullmax视觉感知能力再获国际顶级学术会议认可

锐思智芯展示融合视觉感知技术创新与产品应用

计算机视觉有哪些优缺点

机器视觉和计算机视觉有什么区别

计算机视觉的五大技术

计算机视觉的工作原理和应用

计算机视觉与人工智能的关系是什么

计算机视觉与智能感知是干嘛的

计算机视觉和机器视觉区别在哪

计算机视觉和图像处理的区别和联系

计算机视觉属于人工智能吗

OpenCV携Orbbec 3D相机亮相CVPR 2024，加速AI视觉创新

机器视觉与计算机视觉的区别

计算机视觉的主要研究方向

计算机视觉的十大算法