计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学, 更进一步地说,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和 测量的科学。近几年计算机视觉技术实现了快速发展,其主要学术原因 是2015年基于深度学习的计算机视觉算法在ImageNet数据库上的识别 准确率首次超过人类,同年Google也开源了自己的深度学习算法。计 算机视觉系统的主要功能有图像获取、预处理、特征提取、检测/分割 和高级处理。
图像获取:提取二维图像、三维图组、图像序列或相关的物理数据,如声波、电磁波或核磁共振的深度、吸收度或反射度。
图像预处理:对图像做一种或一些预处理,使图像满足后继处理的要求,如:二次取样保证图像坐标的正确,平滑去噪等。
图像特征提取:从图像中提取各种复杂度的特征,如:线,边缘提取和脊侦测,边角检测、斑点检测等局部化的特征点检测。
图像检测/分割:对图像进行分割,提取有价值的内容,用于后继处理,如:筛选特征点,分割含有特定目标的部分。
图像高级处理:验证得到的数据是否匹配前提要求,估测特定系数,对目标进行分类。
近年来,计算机视觉在产业界和学术界不断取得突破。
国际计算机视觉大会(IEEE International Conference on Computer Vision,简称ICCV)是全球计算机视觉领域三大顶 级会议之一,2019年该大会共收到4328篇论文投稿,相比上 一届 ICCV 2017,数量翻了一倍不止。其中,中科院和清华大 学的投稿数量在所有机构中遥遥领先。
欧洲计算机视觉会议(Europeon Conference on Computer Vision,简称ECCV)是全球计算机视觉领域三大顶级会议之 一,2018年该大会共收到论文投稿2439篇,涵盖对抗性机器 学习,对人、物体和环境的超快三维感知、重建与理解,面部 追踪及其应用,行人重识别的表征学习,视觉定位等主题。
国际计算机视觉与模式识别会议(Computer Vision and Pattern Recognition,简称CVPR)是全球计算机视觉领域三 大顶级会议之一,2019年该大会共录取来自全球的论文1299 篇,其中腾讯公司的腾讯优图和腾讯AI Lab有超过58篇论文被 接收,相比过去两年成绩大幅提升。
ImageNet大规模视觉识别挑战赛(ILSVRC)从2010年开始举办,一年一度,至2017年终结,有力推动了计算机视觉的发展。截至2016年,ImageNet中含有超过1500万由人手工注释的图片网址,标签超过2.2万个类别,图像识别错误率已经达到2.9%,远远超越人类(5.1%)。
清华大学研究团队提出了一种全新的卷积神经网络架构DenseNet,显著地提升了模型在图片识别任务上的准确率;北京大学和微软亚洲研究院研究团队提出了一种新的硬感知深度级联嵌入方法来考虑硬水平的样本;……
计算机视觉技术的典型应用案例
交通:自动驾驶汽车需要计算机视觉。特斯拉(Tesla)、宝马(BMW)、沃尔沃(Volvo)和奥迪(Audi)等汽车制造商Y已经通过摄像头、激光雷达、雷达和超声波传感器从环境中获取图像,研发自动驾驶汽车来探测目标、车道标志和交通信号,从而安全驾驶。
安防:中国在使用人脸识别技术方面无疑处于领先地位,这项技术被广泛应用于警察工作、支付识别、机场安检,甚至在北京天坛公园分发厕纸、防止厕纸被盗,以及其他许多应用。
医疗:由于90%的医疗数据都是基于图像的,因此医学中的计算机视觉有很多用途。比如启用新的医疗诊断方法,分析X射线,乳房X光检查,监测患者等。
翻译:传统翻译采用人工查词的方式,不但耗时长,而且错误率高。图像识别技术(OCR)的出现大大提升了翻译的效率和准确度,用户通过简单的拍照、截图或划线就能得到准确的翻译结
体育赛事:计算机视觉还有助于比赛和策略分析、球员表现和评级,以及跟踪体育节目中品牌赞助的可见性。
农业:半自动联合收割机可以利用人工智能和计算机视觉来分析粮食品质,并找出农业机械穿过作物的最佳路径。另外也可用来识别杂草和作物,有效减少除草剂的使用量。
制造业:计算机视觉也可以帮助制造商更安全、更智能、更有效地运行,比如预测性维护设备故障,对包装和产品质量进行监控,并通过计算机视觉减少不合格产品。