Skip to content

Latest commit

 

History

History
73 lines (65 loc) · 11.5 KB

2017-10-17.md

File metadata and controls

73 lines (65 loc) · 11.5 KB
layout
default

嵌入式AI 双周简报 (2017-10-17)

业界新闻

  • 2017全国高性能学术年会 | 中国计算机学会
    简评:HPC CHINA 2017 开幕在即,欢迎来澎峰科技的展台来玩,也欢迎来参加10月21日(第三天)上午的深度学习分论坛!
  • Intel Gears Up For FPGA Push | Timothy Prickett Morgan
    简评:看英特尔如何发力 FPGA。从应用最广泛的 Xeon 系列到支持大多数数据中心的 Knights 系列以及转为深度学习推理加速的STRATIX FPGA系列,再到支持训练和推断的 Crest 家族系列。
  • 华为Mate10 AI技术全盘点:专访华为软件工程部副总裁张宝峰 | 新智元
    简评:余承东在慕尼黑发布了携带华为首款人工智能手机芯片——麒麟970的 HUAWEI Mate 10 系列。余承东认为:比 Mate 10 系列比 iPhone X 的人脸解锁更好,得益于 HiAI 移动计算架构,其 NPU(Neural Network Processing Unit)专用硬件处理单元赋能的摄像头能够智能识别多达13种场景和物体,从而根据对象的特点和属性自动调节参数设置,用更聪明的算法进行拍摄。此外,在电量、屏占比、厚度等方面全面对标 iPhone X。
  • 共筑开放AI生态:ONNX模型标准得到华为、英特尔等更多厂商支持
    简评:前不久继Facebook、微软联合推出 ONNX 标准,号称要解决开发框架碎片化后,更多厂商愿意支持。早前,Microsoft Cognitive Toolkit、PyTorch 和 Caffe2 均已宣布支持 ONNX。而就在今天,AMD、ARM、华为、IBM、英特尔、高通同时宣布支持 ONNX。
  • NNVM Compiler: Open Compiler for AI Frameworks | tvmlang [blog]<br > 简评:陈天奇:我们今天发布了基于TVM工具链的深度学习编译器 NNVM compiler。支持将包括mxnet,pytorch,caffe2, coreml等在内的深度学习模型编译部署到硬件上并提供多级别联合优化。速度更快,部署更加轻量级。 支持包括树莓派,服务器和各种移动式设备和 cuda, opencl, metal, javascript以及其它各种后端。欢迎对于深度学习,编译原理,高性能计算,硬件加速有兴趣的同学一起加入dmlc推动领导开源项目社区。

论文

  • Efficient Methods and Hardware for Deep Learning | Stanford Digital Repository [paper]
    简评:Song Han的博士论文,不久前他获得斯坦福大学博士学位,一直致力于energy-efficient deep learning、机器学习和计算机架构的交叉领域,他曾提出的 Deep Compression 在不损失预测精度的前提下大幅压缩模型。同时参与设计了 EIE 项目(Efficient Inference Engine:a hardware architecture that can perform inference directly on the compressed sparse model, which saves memory bandwidth and results in significant speedup and energy saving)。
  • [1710.02224] Dilated Recurrent Neural Networks
    简评:众所周知,递归神经网络(RNNs)长序列的训练是一个艰巨任务。三个主要挑战:1)提取复杂的依赖关系;2)梯度消失和爆炸;3)高效并行化。作者介绍一种简单而有效的RNN连接结构:Dilated RNN,同时解决这些挑战。该结构特点是多分辨率dilated递归skip connection,并且可以与不同的RNN单元灵活组合。此外,dilated RNN显著减少了参数数量并提高训练效率,(即使有传统RNN单元的情况下)也能达到state-of-the-art的performance。最后作者详尽地论述提出的Dilated RNN比其他RNN架构的优势。
  • [1710.02254] Lattice Recurrent Unit: Improving Convergence and Statistical Efficiency for Sequence Modeling [code]
    简评:RNN在资源不足的情况下泛化性能弱。作者引入了称为晶格循环单元(LRU)的结构,以解决有限资源学习深层多层次复用模型的问题。作者与Grid-LSTM和Recurrent Highway网络相比,在四个公开数据集上的研究结果表明:LRU计算收敛率和统计效率值,同时语言模型的表达更准确。
  • [1710.01992] Fast and Accurate Image Super-Resolution with Deep Laplacian Pyramid Networks
    简评:卷积神经网络展示了对单一图像超分辨率高质量的重建效果。然而,现有方法往往需要大量的网络参数和需要大量计算负载以生成高精度超分辨率结果。作者提出了拉普拉斯算子金字塔超分辨率网络:在多个水平上网络逐步重建高分辨率图像。与现有方法相比,仅需低计算负载。此外作者利用在金字塔内的递归层以及共享参数,大大减少了参数数量。
  • [1710.01878] To prune, or not to prune: exploring the efficacy of pruning for model compression
    简评:作者探索模型剪枝的必要性,对同一个大模型分别剪枝成大而稀疏和小而稠密的模型,经测试(CNN,Stacked LSTM,C2C LSTM)发现稀疏大模型始终优于稠密模型,实现了在最小精度的损失下,减少了10倍的参数。

开源项目

博文