Skip to content

Latest commit

 

History

History
84 lines (70 loc) · 13.9 KB

2019-07-30.md

File metadata and controls

84 lines (70 loc) · 13.9 KB
layout
default

嵌入式AI简报 (2019-07-30)

关注模型压缩、低比特量化、移动端推理加速优化、部署
注:PC端微信链接打不开请用手机打开

业界新闻

  • 阿里平头哥第一颗产品——玄铁910首次交货 | 量子位
    摘要:7月25日,玄铁910正式亮相发布。这并非一款C端常见的完整集成芯片。玄铁910,基于RISC-V开源架构开发,核心针对高性能计算,是一款IP core,是一款处理器,也可以理解为就是SoC里的CPU。或许以英特尔和ARM为参照,更容易理解玄铁910定位。它不是英特尔一样完全整合的CPU,而是ARM类似的CPU IP形态,华为麒麟需要用,高通骁龙需要用,三星苹果的手机芯片也离不开。只是平头哥玄铁,面向AIoT,面向更丰富的万物互联场景,性能更高,适用性更广,开发和进一步流片量产的门槛更低。
    单位性能7.1 Coremark/MHz,主频在12nm工艺下达到了2.5GHz。性能比公开的RISC-V最好处理器还要提升40%,主频功耗仅为0.2瓦。而且玄铁910采用3发射8执行的复杂乱序执行架构,是公开的RISC-V处理器中——首个实现每周期2条内存访问的处理器。并进一步实现了对RISC-V指令的系统性增强,扩展到50+条指令,系统性增强了RISC-V的算术运算、内存访问和多核同步。
    若进一步横向比较,玄铁910与ARM v8的高性能处理器A72,处于同一水平。更直接来说,拿玄铁910打造旗舰手机芯片,完全OK。
  • 高通入门级移动平台骁龙215发布:性能增50% | 安兔兔
    摘要:高通宣布推出旗下的入门级移动平台骁龙215,这是一款面向低端手机的全功能SoC芯片。规格方面,骁龙215采用28nm工艺打造,四核心Cortex-A53架构,主频1.3GHz,GPU为Adreno 308。
  • 首发联发科12nm芯!vivo Y7s上架:1798元 | 安兔兔
    摘要:vivo在印度尼西亚推出了新机S1,搭载了联发科P65芯片,上架一款Y7s,目前开启预约,售价1798元,同样搭载P65,外观配置基本与印尼版S1相同。
    P65是联发科上个月发布的一颗新U,采用12nm制程工艺八核心,集成两颗ARM Cortex-A75 CPU,频率为2GHz,以及六颗Cortex-A55处理器,频率为1.7GHz,八核丛集系统共享一个大型L3缓存。
  • 华为 Mate 20 X 5G 版发布 | 雷锋网
    摘要:5G 版 Mate 20 X 搭载麒麟 980 芯片,外挂巴龙 5000 基带芯片,两颗芯片均为 7nm 制程。
    除了发布 5G 版 Mate 20 X,华为智慧屏战略也正式公布——华为智慧屏将成为家庭场景中的智慧交互中心、跨屏体验中心、IoT 控制中心和影音娱乐中心。 华为智慧屏还将搭载自研的麒麟 AI 芯片,鸿鹄智慧显示芯片,凌霄 WIFI 芯片;搭载的 HiAI 引擎涵盖智能终端语音、自然语言处理、人脸、人体、图像、视频、OCR 与用户画像 8 大业务领域。
  • 不止麒麟985 华为还将全球首发集成5G基带的7nm芯片 | CNMO手机中国
    摘要:近日,日媒报道称,华为今年准备一口气推出两款旗舰级麒麟芯片,第一款是用于Mate 30系列的麒麟985,采用台积电第二代7nm EUV工艺打造。这款芯片也承载着华为Mate 30系列大规模出货。第二款芯片是全球首款集成5G基带SoC,也就是单颗芯片整合AP(应用处理器)+BP(基带处理器),同样采用7nm EUV工艺,并且最快年底前就可以和用户见面。猜测其命名可能会是麒麟990。
  • 谷歌预热Pixel 4两大全新功能:真·人脸解锁+隔空体感操作 | 新智元
    摘要:今年秋天谷歌即将推出Pixel 4,两大亮点着实吸引人的眼球:
    人脸识别:Pixel 4 将具备人脸识别解锁的功能, 将成为第一款支持真立体识别的 Android 手机。基于运动感应雷达Soli的技术开发。雷达技术在近几十年来就一直用于探测飞机和其他大型目标。Pixel4顶部安装了一台微型雷达,可以感知手机周围的目标的微小动作,这一技术结合了独特的软件算法与先进的硬件传感器,可以识别手势,并在用户靠近时检测出来;
    体感识别:用户可以隔空用手势控制手机,可以用来换歌、让电话铃声静音,以及关闭闹铃!

论文

  • Facebook新压缩算法Bit Goes Down:5MB的神经网络也高效 | 量子位
    摘要:为啥是5MB,因为1MB的精度不如HAQ方法。Facebook提出了一种适用于ResNet类架构的压缩方法,利用了结构化量化算法PQ(Product Quantization)中卷积的高相关性,关注activations的重建,非权重本身。换句话说,该方法只关注域内输入的重建质量。
    让未经压缩的神经网络充当“老师”,利用蒸馏提炼(distillation)技术来指导“学生”网络的压缩。该过程是无监督的,即不需要标注数据。ResNet-18经过该方法压缩29倍,模型大小1.54MB,top-1准确率比原模型降低不到4%。此外,ResNet-50、MobileNetv1/v2也有类似表现。见:https://github.com/facebookresearch/kill-the-bits
  • Benchmarking TPU, GPU, and CPU Platforms for Deep Learning | 机器之心
    摘要:为了系统地对深度学习平台进行基准测试,研究者提出了 ParaDnn,这是一个用于深度学习的参数化基准测试套件,它能够为全连接(FC)、卷积(CNN)和循环(RNN)神经网络生成端到端的模型。研究者使用 6 个实际模型对 Google 的云 TPU v2/v3、NVIDIA 的 V100 GPU,以及 Intel 的 Skylake CPU 平台进行了基准测试。他们深入研究了 TPU 的架构,揭示了它的瓶颈,并重点介绍了能够用于未来专业系统设计的宝贵经验。研究者还提供了平台的全面对比,发现每个平台对某些类型的模型都有自己独特的优势。最后,他们量化了专用的软件堆栈对 TPU 和 GPU 平台提供的快速性能改进。
    有关深度学习算法的基准测试论文已是汗牛充栋,但对硬件平台进行测试的论文很少见。通过本论文,读者可系统了解各种机器学习训练的平台特性,并针对自身的需求选择:https://arxiv.org/pdf/1907.10701.pdf

开源项目

  • 复现FastDVDNet:实时视频去噪算法 | 张斌 CVer
    摘要:FastDVDNet是一种比其他SOTA方法速度更快的视频去噪方法。计算机视觉中的视频去噪方法,大多基于传统算法,如VBM4D等non-local,还有一些是常见图像去噪方法的简单扩展。由于视频有着较强的时间相关性,那么一个好的视频去噪算法必将要充分利用这一特点。利用时间相关性主要体现为两个方面:
    1. 对于给定的patch,不仅要在同一帧的相邻区域搜索像素的patch,也要在时间相近的frame上进行搜索;
    2. 使用相邻时间的frame还可以有效减少flockering,因为每一帧之间的残余就会是相关的。
      为了解决motion带来的对齐困难问题,DVDNet中使用光流进行了显式的估计,但是光流的计算是比较耗时的,即便是快速算法也是如此。对于encoder-decoder结构的U-Net,其本身具有在感受也范围内对齐的功能,因此,在FastDVDNet中采用了这种做法,也就提高了性能。
  • OpenCV 4.1.1 发布 | OpenCV中文网
    摘要:更新东西挺多的,重点有:
    1. DNN方面。支持3D卷积的Convolution、BatchNorm、Pooling、Eltwise,Deconvolution3D也实现了,但仅在使用 DNN_BACKEND_INFERENCE_ENGINE时支持。英特尔推理引擎(Intel Inference Engine),其中支持异步推理;使用dot文件实现深度学习网络的可视化;对ONNX 与 TenforFlow importers 模型转换进行了改进;
    2. 性能方面。大量广泛通用的内部函数,支持 AVX512 SIMD加速等;
    3. 安卓支持方面。添加了CameraActivity实用程序类,以自动化Android上的Camera权限处理;默认的C ++运行时库,因体积等考虑,由默认静态改成默认动态;统一了JavaCamera2View/JavaCameraView之间选择帧大小的编码。
  • 联邦学习开源框架FATE | 机器之心
    摘要:FATE的特别之处在于,它源自微众银行进行大数据风控建模的实际场景,因此 FATE 是一个生产系统,它的可扩展性非常优秀。FATE 自带一个分布式计算框架,它的稳定性比一般的研究型项目好很多,而且预测和训练也都集成在了一起。
    FATE 并不只有一个框架,它还带了一些经典算法,包括线性回归、提升树和其它分类模型等。这些都得到了大量实践证明,是工业上很常见的方法,所以如果开发者不愿意从头构建,那么就可以直接使用这些方法,或者在这些方法上做修改。
    随着手机芯片越来越强和5G,联邦学习落地到广大移动端设备并不会太远。
  • Stanford CS217: Hardware Accelerators for Machine Learning
    摘要:课程讲义(Lecture Notes)可以在https://cs217.stanford.edu下载。

博文

  • 华为鸿蒙系统会用在哪?首发设备曝光 | 安兔兔
    摘要:鸿蒙操作系统的最大特点是低时延,它与安卓、iOS是不一样的操作系统。开发设计的初衷是用于物联网,比如工业控制、无人驾驶等场景的支撑使用,现在首先将落地在手表、智能8K大屏上、车联网上。
  • 主流的手机散热技术有哪些,哪个更好 | 电子产品世界
    摘要:有一份研究表明,手机内部电子元器件因热量集中引起的材料失效,占据总失效的65%-80%,换句话说,手机内部电子元器件因热量堆叠,导致温度过高,进而影响处理器正常工作,轻则导致系统卡顿,重则导致元器件损坏。因此,散热技术成为目前影响手机性能发挥的关键点之一,那现在主流手机散热技术,都有哪些呢?一起来看看吧。
  • 轻量级网络/检测/分割 | 陀飞轮 知乎
    摘要:由于深度学习的关系,计算机视觉领域发展迅速,各大榜单精度刷的很高,但是这些性能强大的模型却没有用武之地,在现实场景下,更加需要的是轻量级的模型。本文将从轻量级网络(MobileNetV2、ShuffleNetV2)、轻量级检测(Light-Head R-CNN、ThunderNet)、轻量级分割(BiSeNet、DFANet)3个方面进行介绍。
  • 知识蒸馏(Knowledge Distillation)最新进展(一) | 孟让 知乎
    摘要:知识蒸馏是一种模型压缩常见方法,用于模型压缩指的是在teacher-student框架中,将复杂、学习能力强的网络学到的特征表示“知识”蒸馏出来,传递给参数量小、学习能力弱的网络。蒸馏可以提供student在one-shot label上学不到的soft label信息,这些里面包含了类别间信息,以及student小网络学不到而teacher网络可以学到的特征表示‘知识’,所以一般可以提高student网络的精度。
  • 用了这么多年的 CPU 利用率,其实是错的 | 王强 陈善佩 Linux阅码场
    摘要:CPU 利用率已经开始成为一个容易误导的指标:它包含访存导致的等待周期,这样会影响一些新应用。也许 “%CPU” 应该重命名为 “%CYC”(cycles的缩写)。要清楚知道 “%CPU” 的含义,需要使用其他指标进行辅助,其中就包括每周期指令数(IPC)。IPC < 1.0 多半意味着访存密集型,IPC > 1.0 多半意味着计算密集型。作者之前的文章中涵盖有 IPC 说明,以及用于测量 IPC 的 Performance Monitoring Counters(PMCs)的介绍。
    所有的性能监控产品如果展示 “%CPU”,都应该同时展示 PMC 指标用于解释其真实意义,不要误导用户。比如,可以把 “%CPU” 和 “IPC” 一起放,或者说指令执行消耗周期和 stalled 周期。有这些指标之后,开发者和操作者就能够知道该如何更好地对应用和系统进行调优。
  • 嵌入式中是否应该使用动态内存 | RTThread物联网操作系统
    摘要:
    1. 没有使用RTOS的项目:不建议使用动态内存,这种项目一般很简单,不必使用动态内存增大系统开销和复杂度。
    2. 使用RTOS的消费级项目:建议使用动态内存,一般这种项目代码复杂度比裸机高,合理使用动态内存会有效降低内存的开销。同时很多Github项目的linux程序都是会使用内存管理,有这套机制能更加方便的移植代码。
    3. 使用RTOS的军工、航天、医疗等高稳定性和高安全性项目:建议尽量降低对动态内存的使用与依赖以确保系统的稳定性。当然也不代表动态内存就无法在这些项目上使用,只是要求系统开发者对系统内存的把控要求更高。
  • 深度学习框架的来龙去脉——史上最全面最新的深度学习框架对比分析 | 知乎
  • 能耗换取灵活性,今天的 FPGA 走错路了? | 机器之心
    摘要:在 FPGA 广泛应用的今天,康奈尔大学计算机科学助理教授 Adrian Sampson 思考它是否走在正确的路上,如何能够实现通用 FPGA 等问题。