layout |
---|
default |
关注模型压缩、低比特量化、移动端推理加速优化、部署
注:PC端微信链接打不开请用手机打开
- PyTorch 1.3发布:能在移动端部署,支持Colab云TPU,阿里云上也能用 | 量子位
摘要:PyTorch 1.3率先公布。新的版本不仅能支持安卓iOS移动端部署,甚至还能让用户去对手Google的Colab上调用云TPU。
PyTorch 1.3支持端到端的工作流,从Python到部署在iOS和安卓端。移动端的部署还是早期实验版本,针对端到端做了优化重点在:- 库大小优化,根据用户需要构建级别优化和选择性编译;
- 提升了移动CPU和GPU上的性能;
- 高级API:扩展移动原生API,覆盖常用预处理、将机器学习合并到移动应用需要的集成任务,比如计算机视觉或者NLP的任务。
移动端部署细节:https://pytorch.org/mobile/home/
- Arm推出嵌入式CPU的客制化指令 | Arm中国
摘要:Arm Custom Instruction(客制化指令)让设计片上系统(SoC)的合作伙伴,透过特定嵌入式与物联网(IoT)应用的优化,达成市场差异化区分。 在避免软件碎片化的情况下,架构上可支持完全整合之客制化CPU指令的智能与快速开发。建立在Armv8-M架构的关键优点上,包括强大的软件生态系统、安全性与更快的处理加速 ,且不会产生额外费用。
Arm Custom Instruction(客制化指令)让设计片上系统(SoC)的合作伙伴,透过特定嵌入式与物联网(IoT)应用的优化,达成市场差异化区分。 在避免软件碎片化的情况下,架构上可支持完全整合之客制化CPU指令的智能与快速开发。建立在Armv8-M架构的关键优点上,包括强大的软件生态系统、安全性与更快的处理加速 ,且不会产生额外费用。 - 多核性能击败麒麟990和骁龙855!联发科首款5G芯片HelioM70跑分曝光,采用A77架构 | EETOP
摘要:近日GeekBench官网出现疑似Helio M70的跑分结果,单线程3447/多线程12151,搭载最新A77架构,不出意外的话这款就是联发科首款5G芯片Helio M70。 对比骁龙855及麒麟990跑分,可以看到单核心跑分弱于这两者,但凭借多核心12151的跑分已经超过了855和990,妥妥的是旗舰级性能。加上GPU、4K60fps录像、AI等方面的规格,可以说已经具备了冲击高端手机的实例。
联发科Helio M70(MT6297)采用台积电7nm工艺制造(高通骁龙X50还是28nm),是一款5G多模整合基带,同时支持2G/3G/4G/5G,完整支持多个4G频段,可以简化终端设计,再结合电源管理整体规划可以大大降低功耗。 - FPGA行业巨头Xilinx推出Vitis AI平台,并在GitHub上开源 | 量子位
摘要:FPGA芯片厂商赛灵思(Xilinx)在北京发布了Vitis统一软件平台,支持赛灵思多种可编程逻辑器件(如FPGA、ACAP、MPSoC等硬件)上的应用程序的新框架。它为云端、边缘和混合计算应用加速提供了统一编程模型。
Vitis提供了一系列重要组件,包括Vitis AI开发环境、Vitis加速库、Vitis运行时库等等。其中,Vitis AI是赛灵思的人工智能开发平台,适用于在赛灵思硬件上进行AI推理,帮助FPGA释放AI加速的潜力。 - Instagram 上线 AR 试妆功能 | 雷锋网
摘要:Instagram今日刚刚上线了一项AR试妆功能。目前这项功能仅向化妆品(Mac和Nars是早期合作伙伴)和眼镜品牌(Warby Parker和Ray-Ban)开放,未来也将逐渐推广到其他产品类别。
通过这项功能,消费者将产品添加至购物车前,可以预览这些产品用在自己身上的实际效果。同时,也可以将试用的效果图分享至Instagram,其他消费者通过这张效果图就可以快速连接至该商品,形成病毒式的传播。
据了解,这项功能背后的技术与Spark AR平台相同,后者为Instagram的相机效果和Facebook的AR广告提供了大量支持。
- 麻省理工HAN Lab | ProxylessNAS自动为目标任务和硬件定制高效CNN结构(文末论文及源码) | 计算机视觉战队
摘要:NAS受限于其过高的计算资源需求,仍无法在大规模任务上直接进行神经网络的学习。
这篇文章主要解决NAS代理机制下无法搜索到全局最优的问题,改进搜索策略,一定程度上解决资源消耗的问题。
作者提出了ProxylessNAS,第一个在没有任何Proxy的情况下直接在ImageNet量级的大规模数据集上搜索大设计空间的的NAS算法,并首次专门为硬件定制CNN架构,作者还将模型压缩(减枝、量化)的思想与NAS进行结合,把NAS的计算成本(GPU时间和内存)降低到与常规训练相同的规模,同时保留了丰富的搜索空间,并将神经网络的硬件性能(延时,能耗)也直接纳入到优化目标中。
- Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB: 💎 1MB轻量级通用人脸检测模型
- pytorch/xla: Enabling PyTorch on Google TPU
- tpoisonooo/chgemm: symmetric int8 gemm
摘要:chgemm 是一个 int8 gemm 工程,与 BLAS gemm 不完全相同:- 输入为 [-127, +127] 范围内的 int8_t 类型矩阵,输出为 int32_t 矩阵。需注意溢出;
- 更多地为深度学习应用场景考虑,packAB 接口暴露出来可以调整;
- 实现为 C = A * B。alpha 和 beta 在深度学习推理中无实用意义;
- 行主序实现,放弃远古 fortran 时代的列主序;
- 不低于其他项目的 symmint8 gemm 速度。
- 快手王华彦:端上视觉技术的极致效率及其短视频应用实践 | AI科技大本营
摘要:快手硅谷Y-tech实验室负责人王华彦讲述了端上视觉技术的极致效率及其短视频应用实践。
他指出了其中面临的技术挑战:第一,不可控的复杂场景和环境;第二,极为有限的移动设备计算资源;第三,由于所有应用有很强的时效性,需要做到快速开发和部署模型。
为了应对这些挑战,他介绍了解决方案和研究方向的三要素:首先是运用高度结构化的模型,并充分利用先验知识;其次,面对计算资源紧缺需要充分发掘各种冗余来提高算法的推理效率;最后,用高度结构化的信息表示提高学习算法利用数据的效率。 - 大小仅1MB,超轻量级通用人脸检测模型登上GitHub趋势榜 | 知乎
摘要:近日,用户 Linzaer 在 Github 上推出了一款适用于边缘计算设备、移动端设备以及 PC 的超轻量级通用人脸检测模型,该模型文件大小仅 1MB,320x240 输入下计算量仅 90MFlops。项目推出不久即引起了大家的关注,登上了今天的 Github trending。 - 世界知名半导体ST、NXP、Microchip、TI、Renesas公司的MCU和MPU定位、性能及特点 | strongerHuang
摘要:前不久,恩智浦推出了Cortex-M7 + M4内核的MCU(i.MX RT1170),主频高达1GHz,打破MCU低频的传统。来了解一下世界上几个知名MCU厂商各家的MCU产品。概念:- MCU:Microcontroller Unit,微控制器,或者单片机;
- MPU:Microprocessor Unit,微处理器;
- DSC:Digital signal controller,数字信号控制器。
- RISCV的高性能计算探索:HWACHA的硬件架构解析 | MikesICroom
摘要:最近在学习RISCV相关的东西,发现了Berkeley一个很有意思的项目:HWACHA。这是一个使用RISCV开源处理器构建的类vector的多核异构系统,可以用来做低算力的深度学习应用。当然HWACHA本身也是开源的,有兴趣可以去github下载源码跑跑看。这里还是从硬件设计的角度来分析下这种多核异构系统的特点。
Summary:HWACHA使用了自定义的类Vector指令集,通过内嵌调用的形式和RISCV ISA整合在一起。HWACHA的执行类似于紧耦合的coprocessor,RISCV core负责循环的控制,Vector units负责主要的向量运算。两者通过特殊的指令进行co-work,实现控制和运算错拍的并行执行。相比传统的处理器Vector扩展,HWACHA将integer和vector完全隔离,硬件设计相对简单且易于扩展,可以提供良好的并行性。不过由于是独立的指令集,需要和RISCV ISA一起联合编译,对compiler有特殊的要求。 - 技术架构的战略和战术原则 | InfoQ
摘要:技术架构,是将产品需求转变为技术实现的过程。技术架构解决的问题包括了如何进行纯技术层面的分层、开发框架选择、语言选择(这里以 JAVA 语言为主)、涉及到各自非功能性需求的技术点(安全、性能、大数据)。技术架构是确定组成应用系统实际运行的技术组件、技术组件之间的关系,以及部署到硬件的策略。
技术架构面临最大的挑战是“不确定性”。在技术架构上,很多时候就会面临这种选择。是要选择业界最新的技术?还是选择团队最熟悉的技术?如果选择最新的技术,遇到新技术出了问题怎么解决?如果选择目前熟悉的技术,后续技术演进怎么办。