Radhuni

英特尔助力海康威视打造“深眸”全局摄像机,推进视频监控智能化

2018/1/13   交通

“以深度学习的方式为智能视频 监控系统提供智慧动力,是海康 威视面向未来、基于人工智能提 供安防系统解决方案的重要创新 点。这一系统既离不开前端摄像 机对含有关键特征信息的画面 进行智能识别和实时捕获的能 力,也离不开在深度学习平台之 上持续进行样本训练,从而不断 优化、升级摄像机中相对应智能 算法的苦功,还有合作伙伴英特 尔公司针对这两端的特定应用需 求,提供的专用的和高性能的计 算引擎,它们为我们的全新‘深眸’ 全局摄像机输入了源源不断的处理能力,使其工作更高效,更智能。”

海康威视研究院:沈林杰(算法总监)

作为全球视频监控数字化、网络化、高清化的见证者和重要推动者,海康威视*已连续六 年蝉联iHS全球视频监控市场占有率第一1 ,它基于视音频编解码、视频图像处理、视音 频数据存储等核心技术,正为公安、交通、司法、智能家居和工业自动化等领域提供专业 的可视化管理解决方案。

通过视频监控系统在安防领域赢得全球用户青睐的同时,海康威视也在积极探索未来创新 之路:即如何利用云计算、大数据、深度学习等前瞻技术,令视频监控变得更聪明、更智能, 从而让视频中关键特征信息的检索和分析变得更高效、更精准,使安防体系变得更有效。

通过与英特尔公司开展深度合作,海康威视充分利用了它作为人工智能全栈解决方案提 供商所能提供的横跨通用、专用和可定制硬件平台,兼顾硬件支撑和软件优化,并覆盖终端和云端的人工智能创新能力,提出了“软硬兼施”的智能化创新方案:在硬件上,于前端 摄像机中集成英特尔® Movidius视觉处理单元(VPU),通过智能芯片的加入让摄像机看得更全面、对特征信息画面的采集更清晰、更准确;在软件上,尝试利用基于英特尔®至强融核TM 处理器的深度学习平台,对摄像机端返回的数据样本进行更大规模的训练,优 化其算法后再对摄像机端进行更进一步的升级。这种发生在软硬件之间的协作和循环式的 创新,使得海康威视在推进视频监控智能化的道路上,获得了可喜的成果。

面临挑战

智能视频监控的分析功能,需要前端的摄像机为其准确捕捉内含关键特征信息的高清画面:记录有关键特征信息,如人的面孔或车辆牌照的高清晰度的图像、视频,是抓取这 些特征信息,并对它们进行高效分析的前提。传统的视频监控摄像机只能做到“看得全”, 即被动地纪录所有镜头范围内的影像信息,却无法对其中的特征信息画面进行智能地、 实时地、有针对性地识别和捕捉,这就会给后端的信息抓取、过滤和分析带来极大的工作 量,因此亟待一种既能“看得全“,又能对特征信息画面“看得准“和”看得清“的智能摄像头 来弥补这一短板。

视频监控系统,包括摄像机端在“智能“上的不断演进,需要高效的学习训练平台予以支撑:视频监控系统对关键特征信息画面的捕捉,是一种需要不断迭代优化的能力。智能监控摄 像机上的相关算法,也需要通过对更多样本数据的深度学习和训练,来提高其运行的效率 和准确性,进而才能帮助整个监控系统提升分析的速度和精度。

解决方案

采用英特尔® VPU,打造“聪明”的“深眸”全局摄像机:海康威视推 出的“深眸”全局摄像机,借助内置的英特尔® Movidius VPU,对创 新性的“双镜头”功能进行自动、智能地控制,可在记录全局影像的 同时,重点捕捉含有特性信息的画面,并将其传输至具备分析能力 的后台。

与英特尔在深度学习平台方面进行合作探索,助“深眸”全局摄像 机智能算法持续优化、升级:海康威视正尝试在基于英特尔® 至强® 处理器家族、英特尔® 至强融核TM 处理器的深度学习平台上,导入摄 像机采集的特征信息画面,通过更大规模、更为深入的样本训练优化 摄像机的智能算法,并将优化后的算法返回摄像机端,以期达成卓有 成效的人工智能创新正反馈效果。

成果

造就更为智能的视频监控系统:海康威视将人工智能技术“下沉”, 置入每一台“深眸”全局摄影机,让摄像机端只捕捉和回传有特征信 息的画面,这不但大大节省了对网络资源的占用,还提升了整个视 频监控系统的运作效率和智能化程度。

为视频监控的智能化摸索出了更优的创新模式:通过在摄像机端置 入人工智能芯片,并利用深度学习持续迭代优化其算法,海康威视 摸索出了在软硬件间的协同创新模式,能为其智能视频监控产品技 术的发展演进提供加速度。

为机器视觉技术在监控领域的应用提供参考:“深眸”全局摄像机创 新地在前端摄像机中置入英特尔® Movidius VPU,利用先进的机 器视觉技术来为视频监控系统增添智能,这也将为机器视觉在该 领域更为广泛的应用提供有益的参考和借鉴。

视频监控已成为今日安防行业应用最为普遍的技术手段之一,而视 频监控的大数据应用也是未来平安城市建设的重心。据市场研究 机构IHS预测,到2020年,全球每年将出货约2.5亿个监控摄像头1, 全球所有数字监控系统(Digital Surveillance System, DSS)的摄 像头,每天会生成总计1.6EB的数据。如何有效利用这些海量数据, 使其铸就一道道数字屏篱来守护人们平静祥和的生活,已成为摆在 全球所有领先安防服务提供商面前的头号挑战。

作为这一行业的翘楚,海康威视希望借助人工智能和深度学习的 浪潮,深入拓展安防产品家族的智能内涵,使其视频监控系统变 得更加智能化。但这一过程中,它也必须直面两个关键问题:一是 传统的视频是以监控为主,如何才能在前面的摄像机端优先捕捉有特征信息的高清画面或图像,来缓解后端分析系统的工作压力, 并为深度学习提供更多高质量的样本数据?二是如何充分利用深 度学习和训练的成果——不仅仅是将它们用在数据挖掘和分析 上,还要正向地反馈给前端摄像机,让它们在捕捉高价值信息时能 更高效,更可靠?

带着这些问题,凭借在视频监控系统领域厚积薄发的技术优势, 海康威视开始了对新一代智能视频监控解决方案的研发。通过 联手英特尔公司,并充分挖掘其人工智能全栈解决方案相对应的 能力,海康威视在定位前端的新一代“深眸”全局摄像机中采用了 英特尔® Movidius VPU,这一选择不仅赋予该摄像机强大的图 像、视频采集能力,还让它能够对内含特征信息的画面做实时识别 和精准捕捉,并只将这些信息优先回传。这些能力不但极大缓解了 网络的传输压力,还能让后端数据分析系统将所有资源用于高价 值信息的分析和挖掘,并为深度学习平台提供更优质的数据样本, 借助其对自己的算法进行优化,从而完成一个从前到后,再从后到 前的正向创新循环。

“芯”明眼亮,“双镜头”发威

在视频监控已成为安防系统不可或缺环节的今天,传统摄像机普 遍存在成像品质不足,抓拍效率低等问题,因而,不可避免地会在 很多刑事、交通案件的判别和侦破上留下遗憾。不仅如此,在很多 安防场景中,对广量、大场景实时全景监控和特写监控也有同样 的需求,传统摄像机在这方面也是心有余而力不足。

针对这些需求,海康威视研发的“深眸”全局摄像机,不仅具有监控距离远、范围广的特点,同时也可以执行无间断的细节抓拍,并 通过深度学习的方式识别和抓取特征信息。与传统摄像机相比, “深眸”既解决了无法识别视频内容中关键特征信息的难题,又解 决了使用场景单一、抓拍效率低、无法在开放式场景进行特征信 息采集的问题。作为前端大数据采集设备,它有力地为海康威视 智能视频监控解决方案提供了结构化大数据应用的支持。

总体来看,“深眸”全局摄像机有两套法宝,一是在图像采集上采用 了创新性的“双镜头”功能,另一个是在英特尔® Movidius VPU支持 下对特征信息的识别和捕捉能力。海康威视研究院算法总监沈林 杰表示:“以公安业务的应用为例,在治安监控里,需要对人、人体、 人脸、机动车等进行高清图片抓取。传统的视频,都是以做监控为 主,图像清晰度不足,无法进行智能解析。但公安部门的需求,是从 图像中获取高清的车辆、人脸,为后面的结构化大数据应用提供支 持。‘深眸’全局摄像机的这两个法宝,一个是可以看得更清晰,另一 个是可以看得更准确,能充分满足用户的上述需求。”

所谓“双镜头”结构,是指“深眸”全局摄像机配备的两个摄像 头——定点的广角摄像头和动点的长焦摄像头。广角摄像头 负责视频的采集,长焦摄像头负责捕捉视频中有关键特征信息 的画面。从技术指标上看,两个镜头均采用1/2.7”Progressive ScanCMOS,最高分辨率及帧率可达1920×1080 @ 60fps,能 满足监控全景、捕捉高清细节的需求。它们的搭配,则让“深眸” 全局摄像机实现了对传统监控摄像机能力的颠覆,具备定点看全 景、动点看细节的独到优势。

那么,在这个“双镜头”结构中,两个摄像头之间灵活的配合和游刃 有余的切换是如何实现的呢?这就离不开英特尔® Movidius VPU 的指挥。它对于图像的专精处理能力,可在相应算法的支持下,对人员、车辆等特征信息进行自动检测和识别。只要发现有目标进入预定区域,它就会调动定点镜头进行快速检测,并协调动点镜头进行 快速锁定和抓拍。

由此可见,在前端的监控摄像机中置入智能芯片,是将深度学习应 用于监控系统、提高监控抓拍精度的基石。此前监控摄像机使用的 传统算法,只能将所有处于运动状态的物体抓拍下来,会产生很多 误报、误拍,让大量无效图像传输到后端的分析系统,浪费了宝贵 的网络和计算资源。有了英特尔® Movidius VPU,摄像机可用通过 深度学习开发出的更智能的算法先做判断,确认后再捕捉画面,极 大降低了误拍率。为了提升摄像机算法的效率和准确度,海康威视 还将其采集和传送的数据进行样本训练,用来优化算法,之后再对 前端的摄像机进行远程升级,不断增强其“智能”程度

截止目前,海康威视“深眸”全局摄像机已在各地公安、交通部门等 用户处进行了大量测试,并收获了良好的反馈。有测试数据显示, “深眸”全局摄像机可将最大有效距离40米内的任意人像呈现80个 像素的宽度。在使用人工智能筛选与识别之后,图像识别准确率也得到大幅提升——相较传统前端设备的高误报率,“深眸” 全局摄像机对人、车等特征信息的识别率达到了90%以上。

“智能”进化,离不开端到端正反馈创新模式

如前所述,除了管理和指挥“深眸”全局摄像机的“双镜头”,英特尔® Movidius VPU的另一大作用,就是能高效捕捉视频中的特征信息画面,将其生成高清照片,再经由网络传送到后端。“这些特征信息是安防用户关心的重要信息,”沈林杰说道,“过去它们只能通 过人眼去识别,这种工作既枯燥又累人,出错、漏过的概率很高。 现在我们新系统的目标就是要让智能化的机器去替代人,做它们 的识别、分析和查找工作。”

要实现这一目标,深度学习的手段不可或缺。不过海康威视的机器 学习平台不仅会为后端的数据分析系统提供支持,还会为“深眸”全 局摄像机上智能算法的优化、更新提供支持。海康威视在英特尔的 协助下,为此设计了一套高效的“数据采集-计算识别-算法优化-算 法更新”的正反馈创新模式,用来逐步提升视频监控系统的智能化 水平。

如图二所示,英特尔® Movidius VPU可以根据所配置的智能算法, 指挥“深眸”全局摄像机捕捉有特征信息的画面,并通过网络将它们 传送到后端。深度学习平台,可利用源源不断、持续积累的数据进 行样本训练,并根据训练的结果对摄像机上的智能算法进行优化。 而后,被优化的算法将通过远程软件升级的方式迭代更新至“深眸” 全局摄像机。正是通过这样的循环创新,海康威视的智能视频监控系统变得越来越聪明。

由于样本训练和算法优化的过程涉及大量的浮点运算,对深度学 习平台的浮点运算能力有极高的要求,因此海康威视正尝试在其 中导入英特尔® 至强融核TM 处理器(代号为Knights Landing), 以及用于并行计算环境下I/O加速的英特尔® Omni-Path架构 ( 简 称 O P A ) 。至 强 融 核 TM 处理器可提供单颗多达72个内核,以及超过3TFLOPS的性能,能够很好地满足海康威视在深度学习上的 应用需求。相比传统机器学习平台,它还有一个独特的优势,即能直接访问更大容量的内存,因此能帮助用户轻松扩展其训练规模,让它变得更灵活,或让以往受限于显存容量限制的研究,如从模型并 行到计算并行得以落地。传输能力达到100Gbps、延时更低的OPA,也能有效提升多机在训练时的交互和并行效率。

除了在硬件上配合默契,海康威视和英特尔在深度训练的软件上, 也达成了出色的协作。双方正携手对相关算法与计算框架进行优化,例如基于英特尔提供的MKL-DNN库,以及针对英特尔®架构优化的Caffe框架对它们进行调优,以确保它们能平滑地迁移到 至强融核TM 处理器平台上,并实现充分加速。

展望未来:更强计算力,更优智能化

对英特尔领先人工智能软硬件的导入,以及“数据采集-计算识别- 算法优化-算法更新”正反馈创新模式的成形,让海康威视在视频监 控的智能化升级之路上迈出了重要一步,也让其以“深眸”全局摄像 机为重要组成部分的智能视频监控系统得到了一线用户的认可。“来 自于用户的反馈显示,新系统能够很好地提高破案效率,”沈林杰表 示:“原来通过人工观察摄像机画面逐个找人的方式,变成通过机器 以人找人,以人脸找人脸。新的模式显著提升了工作效率,也大大 提高了准确率。”

在此基础上,海康威视希望继续依托深度学习和人工智能技术,深入拓展安防产品家族。期间也将进一步深化与英特尔的合作,导入英特尔更多、更新的人工智能核心产品,用更强的计算力,结 合自身在应用和算法上的优势,实现更优智能化。目前双方已经围 绕英特尔® 至强® 可扩展处理器开展了测试工作,其在图像处理和 数据分析方面“更上一层楼”的能力,有望为海康威视的解决方案 带来更强的竞争力。

经验

在前端的摄像机中置入英特尔®Movidius VPU及相应的智 能算法,不仅让其实现了更全面的智能化,控制摄像头识别 有关键特征信息的画面,还能将其捕捉下来,生成高清图片 回传,降低网络和分析系统的压力。

英特尔® 至强融核TM 处理器提供的出色性能,再辅以英特尔 MKL-DNN,针对英特尔® 架构优化的Caffe等软件工具和 框架对深度学习软件的优化,有望提升训练效率,并增强训 练平台的可扩展性。海康威视正与英特尔就此积极开展合 作,尝试用上述软硬件的组合来提升训练效率,助力智能算 法持续升级。