谷歌公布亚毫秒级人脸检测算法 人脸检测又一突破

  • 时间:
  • 浏览:0
  • 来源:极速快3_快3神彩争8_极速快3神彩争8

谷歌近日发布了一款专为移动 GPU 推理量身定制的轻量级人脸检测器——亚毫秒级的人脸检测算法 Blaze Face。它也能在旗舰设备上以 1000~10000+ FPS 的传输速率运行,但会 也能应用在诸多需要快速准确的识别出人脸区域的任务中,例如:2D/3D 面部关键点识别与几何评估、面部形状和表情分类以及面部区域分割等。谷歌发表了相关论文介绍了该研究成果,雷锋网 AI 科技评论将其编译如下。

BlazeFace 简介

近年来,通过对宽度神经网络中各种架构的改进,让人们让人们机会也能实现实时目标检测。在移动应用tcp连接池池中,实时目标检测通常是视频避免流程中的第一步,接着是各种特定任务组件,例如分割,跟踪或几何推理。但会 ,目标检测模型推理需要尽机会快地运行,其性能最好也能达到远高于标准的实时基准。

让人们让人们提出了什儿 生活名为 BlazeFace 的新面部检测框架,该框架是在单镜头多盒检测器(SSD)框架上针对移动 GPU 推理进行的优化。让人们让人们的主要创新包括:

1、有关于推理传输速率

一一一四个专为轻量级目标检测而设计的在形状上与 MobileNetV1/V2 相关的非常紧凑的形状提取器卷积神经网络。

什儿 生活基于 SSD 的新型 GPU-friendly anchor 机制,旨在提高 GPU 利用率。Anchors(SSD 术语中的先验)是预定义的静态边界框,作为网络预测调整和挑选预测粒度的基础。

2、有关于推理效果

什儿 生活替代非最大抑制的联合分辨率策略,可在多预测之间实现更稳定、更平滑的联系分辨率。

基于 AR 的人脸检测

我觉得该框架适用于各种目标检测任务,但在本文中,让人们让人们致力于探讨手机相机取景器中的人脸检测疑问图片。机会不同的焦距和捕获物体尺寸,让人们让人们分别为前置和后置摄像头构建了模型。

除了预测轴对齐的面部矩形外,BlazeFace 模型还生成了 6 个面部关键点坐标(用于眼睛中心、耳、嘴中心和鼻尖),以便让人们让人们估计面部旋转宽度(滚动宽度)。这麼 的设置使其也能将旋转的面部矩形传递到视频避免流程的后期任务特定阶段,从而减轻后续避免步骤对重要平移和旋转不变性的要求。

模型形状与设计

BlazeFace 模型架构围绕下面讨论的四个重要设计考虑因素而构建。

1、扩大感受野

我觉得大多数现代卷积神经网络架构(包括 MobileNet,https://arxiv.org/pdf/1704.04861.pdf  )都倾向于在模型图中都使用 3 x 3 卷积核,但让人们让人们注意到宽度可分离卷积计是是否是由它们的点态部分主导。在 s×s×c 输入张量上,应用可分离卷积操作,其中,k×k 的宽度卷积涉及 s^2ck^2 次乘加运算,而后续的 1×1 卷积到 d 个输出通道由 s^2cd 次乘加运算组成,是宽度阶段的 d /(k^2)倍。

实际上,在具有金属外壳的 Apple 苹果苹果苹果苹果 6 X 上,16 位浮点运算中的 3×3 宽度卷积对于 56×56×128 的张量需要花费 0.07 ms,相比之下 128 到 128 通道的 1×1 卷积运算会慢 4.3 倍,即后续的点卷积操作需要 0.3 毫秒(机会固定成本和存储器访问因素原因的纯算术运算计数差)。

该观察表明增加宽度部分的核尺寸性价比更高。让人们让人们在模型架构中使用 5×5 内核,这麼 使得感受野达到指定大小所需的 bottleneck 数量大大减少,得到的 BlazeBlock 有下图所示的什儿 生活形状:



图 1 单个 BlazeBlock (左) 与 双 BlazeBlock (右)

2、形状提取器

对于具体的例子,让人们让人们专注于前置摄像头模型的形状提取器。该形状提取器需要考虑较小范围的目标尺度,但会 它具有较低的计算需求。提取器采用 128×128 像素的 RGB 输入,包括一一一四个 2D 卷积和 5 个单 BlazeBlock 和 6 个双 BlazeBlock 组成,完整性布局见下表。最大张量宽度(通道分辨率)为 96,而最低空间分辨率为 8×8(与 SSD 相比,它将分辨率一直降低到 1×1)。



图 2 BlazeFace 形状提取器的网络形状

3、Anchor 机制

例如 SSD 的目标检测模型依赖于预定义的固定大小的基础边界框,称为先验机制,或 Faster-R-CNN 术语中的锚点。为每个锚预测一组回归(机会还包括分类)参数,例如中心偏移量和尺寸调整。它们用于将预定义的锚位置调整为紧密的边界矩形。

通常的做法是根据目标比例范围在多个分辨率级别定义锚点,一起去下采样也是计算资源优化的手段。典型的 SSD 模型使用 1×1,2×2,4×4,8×8 和 16×16 形状映射大小的预测。然而,金字塔池化网络 PPN 架构(https://arxiv.org/pdf/110007.03284.pdf)的成功原因在形状图达到某个形状映射分辨率后,将产生一定量额外的计算。

相比于 CPU 计算,GPU 独有的关键形状是调度特定层计算会有一一一四个显著的固定成本,这对于流行的 CPU 定制架构固有的宽度低分辨率层而言非常重要。例如,在一一一四个实验中让人们让人们观察到 MobileNetV1 推理时间需要 4.9 毫秒,而在实际 GPU 计算中花费 3.9 毫秒。

考虑到什儿 生活点,让人们让人们采用了另什儿 生活锚定方案,该方案等待英文在 8×8 形状图尺寸处而不要进一步下采样(图 2)。让人们让人们机会将 8×8,4×4 和 2×2 分辨率中的每个像素的 2 个锚点替换为 8×8 的 6 个锚点。机会人脸长宽比的变化有限,但会 发现将锚固定为 1:1 纵横比足以进行精确的面部检测。



图 3 锚点计算,SSD(左)与 BlazeFace(右)

4、后避免机制

机会让人们让人们的形状提取器未将分辨率降低到 8×8 以下,但会 给定目标重叠的锚点数量会随目标尺寸的增加而显著增加。在典型的非最大抑制方案中,也能一一一四个锚点被选中作为算法的输出。这麼 的模型应用于后续视频人脸预测时,预测结果将在不同锚之间波动但会 在时间序列上检测框上持续抖动(人类易感噪声)。

为了最小化什儿 生活疑问图片,让人们让人们用什儿 生活混合策略代替抑制算法,该策略以重叠预测之间的加权平均值估计边界框的回归参数,它几乎不要产生给这麼 的 NMS 算法带来额外成本。对于人脸检测任务,此调整使准确度提高 10%。

让人们让人们通过连续输入目标轻微偏移的图像来量化抖动量,并观察模型结果(受偏移量影响)如保受到影响。在联合分辨率策略修改这麼 ,抖动量(定义为原始输入和移位输入的预测之间的均方根差)在让人们让人们的前置摄像头数据集上下降了 40%,在中有 较小人脸的后置摄像头数据集上下降了 1000%。

实验

让人们让人们在 66K 图像的数据集上训练让人们让人们的模型。为了评估实验结果,让人们让人们使用了由 2K 图像组成的地理位置多样数据集。

对于前置摄像头模型,它只考虑存在图像区域的 20%以上的面部,这是由预期的用例决定的(后置摄像头型号的阈值为 5%)。

回归参数误差采用眼间距离(IOD)进行尺度不变性归一化,中值绝对误差为 IOD 的 7.4%。通过上述tcp连接池池评估的抖动度量是 IOD 的 3%。

图 4 显示了所提出的正面人脸检测网络的平均精度(AP)度量(标准 0.5 交叉联合边界框匹配阈值)和移动 GPU 推理时间,并将其与基于 MobileNetV2 的目标检测器(MobileNetV2-SSD)进行了比较。让人们让人们在 16 位浮点模式下使用 TensorFlow Lite GPU 作为推理时间评估的框架。



图 4 前置相机人脸检测性能

图 5 给出了更多旗舰设备上什儿 生活网络模型的 GPU 推理传输速率的透视图:



图 5 跨多个移动设备的推理传输速率

图 6 展示了机会模型尺寸较小引起的回归参数预测质量的退化程度。如下一节所述,这不一定会原因整个 AR 管道质量的成比例降低。



图 6 回归参数预测质量

应用

上述模型也能在完整性图像或视频帧上运行,但会 也能作为几乎任何与人脸相关的计算机视觉应用的第一步,例如 2D / 3D 人脸关键点、轮廓或皮下组织几何估计、面部形状或表情分类以及人脸区域分割。但会 ,计算机视觉流程中的后续任务也能根据适当的面部剪裁来定义。结合 BlazeFace 提供的一定量面部关键点估计,此结果也也能旋转,这麼 图像中的面部是居中的、标准化的但会 滚动角接近于零。这消除了 SIG-nifi 也能平移和旋转不变性的要求,从而允许模型实现更好的计算资源分配。

让人们让人们通过一一一四个具体的人脸轮廓估计示例来说明什儿 生活措施。在图 7 中,让人们让人们展示了 BlazeFace 的输出,即预测的边界框和面部的 6 个关键点(红色)如保通过一一一四个更复杂化的人脸轮廓估计模型来进一步细化,并将其应用于扩展的结果。



图 7 流程示例;红色代表 BlazeFace 输出;绿色代表任务特定的模型输出

完整性的关键点也能产生更精细的边界框估计(绿色),并在不运行人脸检测器的具体情况下重新用于后续帧中的跟踪。为了检测该计算节省策略的故障,该模型还也能检测面部是是否是存在所提供的矩形裁剪中合理地对齐。每当违反该条件时,BlazeFace 人脸检测器将再次在整个视频帧上运行。

微信公众号搜索"

驱动之家

"加关注,每日最新的手机、电脑、汽车、智能硬件信息也能我就一手全掌握。推荐关注!【

微信扫描下图可直接关注