【金沙js333娱乐场】GTC 201九| 柒鑫易维眼球追踪助力 AI 驱动以往

金沙js333娱乐场 9

【金沙js333娱乐场】GTC 201九| 柒鑫易维眼球追踪助力 AI 驱动以往

原标题:车载眼球追踪微讲座问答实录 | Plug and Play移动出行独角兽加速计划

声明:新闻稿非映维官方稿件,所涉及任何法律问题均与映维无关

作者 | 乔梁

编辑 | Vincent

AI前线出品| ID:ai-front

前言:在“车载眼球追踪微讲座精彩呈现 | Plug and
Play移加速计划”(点击“阅读原文“回顾)中,七鑫易维产品经理赵海杰向我们展示了眼球追踪技术原理及现状。

眼球追踪技术新成果

AI
前线导语:
“目前市面上有很多产品,比如:支付宝,美颜相机还有人脸解锁功能等等,很多都是应用了Face++
的技术。本文的作者乔梁先生,将从自己作为产品专家的角度,详细解析人脸解锁的前世今生”。

这里让我们一起快速回顾本次微讲座问答环节。

北美时间 3 月 17 日至 21 日,一年一度的 GTC(GPU Technology Conference)
在美国硅谷举行。七鑫易维受邀参加本次大会并展示眼球追踪技术新成果。

大家好,我是乔梁,来自
Face++。我今天分享的内容可能偏干货多一点,主要介绍一下人脸解锁的具体技术。

问题1:七鑫易维有没有做过人脸识别跟手势识别方面的研究跟产品?

金沙js333娱乐场 1

人工智能分为两个阶段,首先是感知阶段,然后是认知阶段。目前整个人工智能还在比较初级的感知阶段,而最主要的两种感知途径就是视觉和听觉,目前我们主要做的是视觉方向。我们公司成立于
2012
年,在视觉方向研究了很多年,一直专注以人脸为核心的方向,那么为什么我们会做人脸呢?在我们看来,人脸是信息量最大、商业价值最高的图像数据,我们可以通过一张图像知道一个人的年龄、性别、颜值、以及该人是否为他本人等等很多信息。

赵海杰:这些方面是有的,我们之前是有跟一个国内做手势识别的一家公司一起去给戴姆勒的加速营计划做过一个样车,当时就是用眼动去选定,用手势去确认这样一个DEMO,具体的研究跟产品我们都期望是跟合作商、合作伙伴一块儿去做,大家专业人做专业的事,这是有过一点经验的。

英伟达NVIDIA 创始人 &CEO 黄仁勋在主题演讲中指出,Turing RTX 是英伟达 15
年来最伟大的创新,包含一项重要技术——可变码率渲染 Variable Rate Shading。

手机解锁在今年终于爆发了,它其实是人脸识别多年经验积累的最终一个落地结果。我们先看一下手机安全的发展过程。

金沙js333娱乐场 2

可变码率渲染技术的工作原理是基于眼球追踪传感器提供的用户实时眼动信息,动态改变着色像素的数量,对注视中央区域应用
100% 的 GPU 性能进行渲染,对周围区域应用较少的 GPU
性能进行渲染,从而可以节省 GPU
一倍以上的渲染计算量,提升渲染效率。光线技术普及应用后,渲染运算会节省更多,渲染画面会更加自然流畅。该技术已经与七鑫易维眼球追踪技术成功结合,成为新一代注视点渲染技术,将广泛应用于虚拟现实领域。

金沙js333娱乐场 3

问题:2:七鑫易维有和车企一起做过疲劳和分神检测相关的业务吗?

金沙js333娱乐场 4

从 2008 年第一台苹果手机的发布到现在已有将近 10 年的时间。在 2009
年时候出现了密码解锁;在 2010
年的时候了出现图形锁之后出现了很多生物识别技术(见图中蓝色字体)。生物识别的出现,最主要目的是为了解决用户体验,因为时常需要输入密码很麻烦,画一个图形解锁也很麻烦,在
2013
年有了指纹解锁之后,大家手指一按马上就可以解锁了。指纹、人脸识别、虹膜都是为了解决体验性问题。

赵海杰:这个确实是有的,但是并不是说像刚才或者是行业内大家都认为的,人脸关键点是对驾驶员进行一个疲劳跟分神检测,我们现在是跟阿波罗,就是百度的无人驾驶车做的是属于自动驾驶环境下后排监测人员是否疲劳这么一个检测,通过眼球追踪做的,因为自动驾驶现在属于走在行业的前沿,如果发生危险是会成为整个行业的问题,大家比较关注,而且也发布了一些政策要求,每一个自动驾驶车辆必须要有一个后排监测人员。

基于 RTX 技术,黄仁勋还发布了数据中心级别的图像服务器 NVIDIA RTX
Servers,它能够支持渲染、Omniverse 和 Geforce Now
云端游戏服务,在云渲染、效率和规模上实现了飞跃。七鑫易维 VR
云注视点渲染解决方案结合了 VR 云渲染和注视点渲染两种技术,在用户运行 VR
内容时,基于注视点在云端进行画面渲染,可以缩短渲染延迟,并大大降低用户成本。

今年有两款代表性的手机发布,让人脸这种生物识别技术站到了台前。第一个是上半年发布的三星
S8,三星 S8
是前置单摄的解锁方案,也就是今年最普及的人脸解锁方案;第二个是 iPhone
10。iPhone 10 是前置结构光双摄的解锁方案,这个代表着人脸解锁的未来趋势。

问题3:虹膜只用来Driver identification吗?Eye
Tracking会用到虹膜吗?

在本次 GTC 上,七鑫易维展示了与 RealDrive
联手推出的,结合可变码率渲染技术与 VR 技术的虚拟驾驶模拟系统。RealDrive
虚拟驾驶模拟系统包括 Cybertron
虚拟训练场,能够真实还原现实生活中的道路场景和交通路况给用户带来身临其境的全方位虚拟驾驶体验感。

那么是什么因素推动了今年的人脸解锁成为手机解锁的主流呢?

赵海杰:虹膜方面,一般来说虹膜是做身份验证,用眼球追踪+虹膜其实都是属于采集眼部图像,一般来说眼球追踪采集的眼部图像是可以同时做虹膜识别+眼球追踪,所以Eye
Tracking本身是会考虑用虹膜,但是主要是结合虹膜去做身份验证,采集同样的一张眼图,分别做两件事情。我们会把眼图给到像国内做虹膜识别比较不错的合作商,像合作商中科虹霸这块他们去做身份认证,然后我们同步去做注视感知、注视追踪这样一些事。

金沙js333娱乐场 5

我觉得最主要的因素是工业设计和制造工艺的提升。今年的全面屏成为工业设计上的主流趋势,大指纹设计挪到了手机背面,指纹的用户体验优势降低了。人脸不仅弥补了体验上的不足,更重要的是,人脸只需要摄像头就可以完成,不需要像指纹一样占用更多屏幕面积,所以能够大大提高屏占比。

问题4:头动的范围一般是怎么确定的?

该虚拟驾驶系统和 ADAS
辅助系统可以有效针对汽车的辅助驾驶功能进行模拟驾驶,并进行分析研究。在
RealDrive
中,当你驾驶时间超过一定时长并且检测到你处于疲劳驾驶状态的时候,系统会及时发出提示,提醒你注意及时休息等信息。

第二个原因是成本和收益问题,如果厂商想要在手机那么小的空间内装一个指纹模组、虹膜模组,所要牺牲的手机内部空间占用,换句话说所需要的成本是巨大的。而人脸识别不会占用除摄像头模组外更多的内部空间。

赵海杰:头动范围是指摄像头如果正对你人脸,它两个中心如果重合的话,头动是指向左移、向右移,向上移、向下移这样的一个距离。我们一般定义是这样,但是因为相机的原因,我们会先确定在相机调校距离下头动范围是多大。基于这样的一个定义,头动范围我们是通过相机FOV确定,然后具体看应用场景的需要,我们可能会选取不同的相机然后去适配不同的头动范围,核心就是让相机去采集到可以用的眼图。

黄仁勋还提到,数据驱动的数据科学研究法在计算机领域发展迅速,已经成为科学研究方法第四大支柱。他强调了应用数据科学研究法的三大要素:第一是庞大的数据采集量;第二是机器学习和深度学习算法的优化;第三是计算能力。

第三个是芯片处理能力的提升与人脸识别算法的成熟。一些硬件层的加速方案可以让人脸识别的算法能在手机上跑得更快,新的活体技术可以让刷脸变得更安全。这在后面会具体来讲。

进一步说一下头动范围,其实我们确定头动范围第一是先根据场景的需求,比如对驾驶员的话,驾驶环境头部向左移20厘米,向右移10厘米这样一个范围是在左右移动范围,向上大约是10厘米,向下大约是10厘米这样一个范围。我们会基于驾驶员这样一个用户驾驶的场景所确定的一个头部移动的这样一个范围,去选一些相机,对相机进行选型确定,保证相机始终能在这样的视角范围能精确或者是比较合适的采集到可以用算法用的眼图。

金沙js333娱乐场 6

第五个原因是摄像头模组制造工艺的突破。其实结构光在几年前就有了,但是并没有小型化到手机这么小的体积内,iPhone
是第一家推出这样设备的厂商。除了结构光之外,还包括普通的红外 IO
摄像头、TOF 摄像头、摄像头模组的小型化。

问题5:怎么判定人属于哪个等级的疲劳?疲劳的外在表现每个人是不同的,你们怎么定义判别呢?

(图片来源:英伟达官网)

最后一个原因是用户体验,大家在刷脸解锁的过程中不需要做任何的配合式操作,可以拿起手机直接解锁。而刷脸还可以抵抗一些常见的干扰,例如暗光、侧脸、小范围遮挡等。这让刷脸成为一种体验更优的生物识别方案。

赵海杰:首先需要将疲劳分为不同的等级,现在行业内还没有特别标准的行业都认可对疲劳等级的分配,我们可以设定一个程度,一个分数,比如说人闭眼5秒属于100%程度的疲劳,可能频繁的眨眼或者发呆这种程度大约是进行到疲劳的60%,这些方面首先要确定疲劳的程度,就是疲劳本身的这种等级的分类。目前行业内还没有这样的标准,我们不仅仅要结合眼球追踪跟结合车载,我们可能还要结合医学方面制定一些疲劳判定标准。

七鑫易维展示了应用最新眼皮检测模型的虚拟社交眼神交互场景,该场景复现了视线方向、眨眼、眯眼等眼睛活动,使虚拟角色看上去栩栩如生。新眼皮检测模型是七鑫易维利用深度学习技术,设计
24 层卷积以及 2
个全连接层的网络架构,在百万张规模的眼图数据集上,训练出高质量的眼皮检测模型,检测率能够达到
97% 以上,可以满足 VR 设备上和眼皮相关产品的应用需求。

说到用户体验问题,我们来对比一下现在最常见的手机解锁方案的体验。

其次我们再去做结合眼球追踪或者结合人脸关键点去做疲劳驾驶判定。结合人脸关键点和眼球追踪去做这种疲劳程度的判断,这需要再结合不同疲劳程度下,绝大多数或者大量的人脸关键点的变化,和人脸眼球生理指标的一些变化,这样去判定他是属于哪个等级的疲劳。总结一下这个逻辑,就是先去判断在正常疲劳分为什么样的一些程度,去定一些标准,这个可能要结合医学上的一些指标去定一个行业内认可的疲劳标准。其次,再去看每一个程度或者每一个阶段下疲劳中关键点,人脸关键点变化情况,和眼球的一些生理指标变化情况,这个是需要样本去验证测试的,目前来说大家定量做的还很少,行业内认为2021年可能人脸关键点疲劳点测试已经是商用落地比较好,但是要在高层次或者更精细的去落地的话可能还有点距离。

眼动数据分析被逐渐应用到更广泛的商业领域和学术研究领域。房地产商可以通过设计虚拟现实样板间场景供用户体验,分屏显示客户选择房型的过程,实时获取用户在感受房间时的
3D
热图,更加直观体现客户兴趣点所在。在体验行为过后,通过系统后台生成包含
3D
移动轨迹、注视区域时长等其他内容的整体数据报表,供专业人员进行数据研究与分析,最终为
B 端用户优化消费者等用户体验。

金沙js333娱乐场 7

确实疲劳的外在表现每个人都是不同的,这个怎么去判别,就像刚才回答第一个问题那样,首先不仅要结合眼动包括脑电等的疲劳度,结合医学上人们对疲劳程度的划分,每个人不一样,但是不一样它应该是属于某一个分布,比如说是正态分布还是高斯分布等等这样一些分布情况下,结合医学上能够定制一套基本上被大家认可的一个疲劳程度的标准,什么样程度下疲劳是什么样的一些情况,它的特征有哪些,不仅仅是眼动或者人脸关键点这样的一些程度,先把这个疲劳的定义或程度先定义出来,然后再去通过大量样本去分析,哪一种程度下人脸关键点跟眼球追踪一些生理指标的变化。

GTC 2019| 七鑫易维眼球追踪助力 AI 驱动未来最先出现在映维网。

首先在底库采集方面,人脸解锁只需要采集一张照片就可以了,但指纹需要采集多张。虹膜相对比较快,但虹膜需要把手机举到面前然后等几秒钟。从解锁速度来看,人脸解锁速度是最快的,拿起手机直接解锁,而指纹需要按到感应器,虹膜也需要对齐眼部。指纹解锁存在一些常见的干扰,比如指纹在手湿的时候完全不能解锁,戴手套也不能解锁。虹膜解锁的时候,戴隐形眼镜或者对着阳光直射也会受到干扰。人脸识别也存在干扰场景,比如说晚上家里灯全关了,或者戴墨经、双胞胎等等都会干扰,而我们现在解锁已经做到通过点亮屏幕的亮度就可以进行解锁。因此人脸在整个体验上比较具有优势。

问题6,如何界定疲劳识别的敏感性?怎样解决因传感器过于敏感而使驾驶员感到烦躁的问题?

说完用户体验,我们来说一下解刷脸这件事到底安不安全。

赵海杰:我们一般进行疲劳识别或者判断用户是否疲劳,现在的方式是通过时长,比如说这个人闭眼3秒,闭眼5秒就认为是一个阶段性疲劳,如果对于疲劳识别敏感性进行定义的话,我们可以通过时长去界定,超过这个时长是疲劳识别,达到疲劳了。第二个是通过注视轨迹的这样一个变化,比如说是正常人遇到不同路况,那反映是比较敏锐的,从一个点能够迅速移动到另一个点。如果是疲劳的人移动速度和变化的轨迹是跟正常的人是不一样的,我们通过做一些室内的实验,之前我们在室内有做过疲劳状态下人阅读或者是看一些显示界面的一些注视轨迹,跟移动速度,是跟正常非疲劳状态下是不一样的,这个时候是可以能发现的,有这样一个实验。可以通过像时长还有轨迹的停留、轨迹的移动变化去界定疲劳识别是否达到疲劳,是否已经构成敏感程度。如果传感器过于敏感,我们就通过刚才这样的一些指标,一些眼动的生理指标,可能会结合人脸关键点的一些指标同步去判断一些疲劳,就是判断相对精准了,驾驶员就不会有感觉到烦燥这样的问题。

常见的生物识别,除了指纹、虹膜还包括指静脉、巩膜、视网膜等一些生物识别特征。传统生物识别所采集到的都是隐私的特征,所以人脸是个比较另类的生物识别方式,它采集到的是一个没有那么隐私的数据,因为在我们日常生活中,你很容易暴露自己的照片。

问题7:能识别盲人的眼球吗?

金沙js333娱乐场 8

赵海杰:如果盲人的眼球是完全不可见的,他眼球如果是非正常的,就是例如有的盲人朋友可能眼皮把整个眼球都遮挡了,这种情况因为采集不到眼图,你不知道他注视的方向,这个是做不了眼球追踪的。但是如果有的盲人就看他的眼疾是属于什么样的疾病,如果只是说视网膜什么位置有一定的问题,但是他瞳孔基本上是可以正常转动,一个眼睛是正常的,另一个眼睛非正常,他在看一个位置的时候正常的眼睛注视向那个方向,不正常的眼睛瞳孔方向也可以指向那个位置,目前来说我们倒没尝试做过这方面的事,但是可以研究这种情况下,非正常的眼球如果也能指向注视位置的话,确实可以追踪到。但是可想而知,这种追踪不一定是比较精准的,也许他有正常的光斑中心跟瞳孔中心,但是这可能会跟正常的眼睛是有区别的,不太确保他是否能准确或者相对准确的追踪到不正常的那只眼睛。

如上图所示,从另一个角度来讲,我们人眼很难辨别这些指纹图像是不是一个人,但我们能够很轻松地知道右边这些图是否属于同一个人。在我们人脑中有个区域叫梭状回,这个区域就是用来做人脸识别的。梭状回出了问题,就是俗称的脸盲症,得了这个病的人就没法做人脸识别。以上观点是想说明人脸相比其它生物识别是缺少私密性的,而且人脸更适合由人脑来做识别。所以将人脸识别放到解锁上来做,需要更强的鉴别真伪的手段。

总结来说,如果我们的盲人朋友是百分之百盲的这种朋友,在做眼球追踪的时候是几乎不太可能的,但是确实有一些弱视或者弱视程度比较高,他能注视出相应的方位或者一个方向,但是他看不清,他可能是10%或者20%程度的这种盲,这种方向我们可以估计他的注视方向。确实有一些做弱视眼镜的朋友也联系我们,就是用眼球追踪估计弱势这种10%或者20%盲的这种朋友注视的方向,然后用摄像头把注视方向的景物拍出来放到近处的眼镜上,这样可以减轻弱势群体看远处景物的问题,这种情况下眼球追踪是可以起到一定的作用,或者你认为他可以识别出。

那么人脸识别背后到底用了哪些技术?我们看一下手机解锁的流程。

问题8:关于驾驶员注视的区域有定义吗?eye gaze
zone会区分哪些跟驾驶相关,哪些属于distraction区域吗?

第一步,我们拿起手机,采集视频序列帧,这时候需要检测这些帧有没有人脸,需要找到人脸。

金沙js333娱乐场,赵海杰:我刚才提的这种短期或者中期的时候都是属于摸索应用,您刚才提到对于注视区域的定义,现在只能说是大家基于经验去定性的,比如驾驶员正前方多少厘米乘以多少厘米是正常的一个注视的驾驶区域,向右侧多少厘米是一个驾驶区域,如果他要是分神了,他的注意力,驾驶的区域会在什么样的位置,他的变化是什么样的,这种情况目前来说行业内都还没有这种很好的标准化案例。所以,对于目前来看,这方面对于驾驶员注视区域的一些定义都是不成熟的,都是大家目前基于经验去监测的。

第二步,分析人脸上的一些属性,包括人脸眼睛的睁闭状态,头的角度等情况,根据这个去判断其到底适不适合解锁。比如眼睛闭着的时候就不适合解锁,因为这说明是别人在拿着我的手机对着我拍。第三个技术是活体检测,我们需要通过画面进行判断你到底是本人在用手机,还是别人在拿着你的翻拍照片进行解锁。第四项技术是人脸识别,我们通过把底库的照片和这一帧所提取出来的人脸特征进行比对,判断到底是不是属于同一个人。

长远来看这件事情去做,我想应该还是属于中期或者长期去设定驾驶员疲劳区域,这个应该会基于很多实际的落地的一些数据,比如说什么样的人,什么样场景,货车、轿车,什么样的驾驶员,什么年龄段,他们分别常用常规的注视区域会是在什么位置,基于这样的大数据分析出来。然后非常规的驾驶区域会是什么样的情况,他们的驾驶场景是什么样,这些得需要一段时间去积累。当然这些应该都是属于第二阶段或者第三阶段要做的事,短期来说要做的事儿就是先找到可以让眼球追踪定性能落地的DEMO的点,第一步做好了再会去做第二步,像驾驶员注视区域的一些内容。

金沙js333娱乐场 9

admin

网站地图xml地图