layout |
---|
default |
关注模型压缩、低比特量化、移动端推理加速优化、部署
注:PC端微信链接打不开请用手机打开
- 苹果全球开发者大会(WWDC)推出机器学习模型框架Core ML 3 | 新智元
摘要:在今年的全球开发者大会(WWDC)上,苹果面向iOS开发者推出了最新版的机器学习模型框架Core ML 3,将机器智能引入智能手机app:- Core ML 3将首次能够为设备上的(on-device)机器学习提供训练;
- 使用Core ML 3和新的Create ML app,轻松创建、训练并部署机器学习模型;
- 支持高级神经网络、100多种图层,利用CPU、GPU和Neural Engine提供最高性能和效率。
- 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 | AI科技评论
摘要:继前不久旷视8000人脸关键点后,美图影像实验室(MTlab, Meitu Imaging & Vision Lab)推出「10000 点 3D 人脸关键点技术」——利用深度学习技术实现 10000 点的人脸五官精细定位,该项技术可以在 VR 游戏中构建玩家人脸的 3D 游戏角色并且驱动,也可以应用于虚拟试妆试戴和医疗美容领域等; - AMD新旗舰Ryzen 9跑分出炉秒杀18核i9 | 机器之心
摘要:AMD Ryzen 9 3950X 预计将会在今年 9 月发售,售价 749 美元(约合人民币 5200 元)。它拥有 16 核 32 线程,时钟频率为 3.5GHz,加速频率 4.7GHz,缓存高达 8+64MB,设计功耗(TDP)为 105W; - 2019菜鸟全球科技挑战赛:手机摇一摇测体积,助力智能物流 | 机器之心
摘要:近日,2019 菜鸟全球科技挑战赛赛题「智能体积测量」关注物流要素「长宽高」进行数字化,挑战赛设定被测物体在 50mm 到 500mm 之间,且它们都是在空旷的平面上完成测量。在实际测量时,比赛要求选手通过普通手机「自动」测量出物体的垂直高和最小外接矩形的长宽。虽然描述很简单,但其中有三个关键点,即普通手机、自动化和求最小。第一名方案:基于全局姿态与 MVSNet 的体积测量生成多视角深度图,最后,对不同视角的深度图进行滤波与融合操作,模型就能重建带尺度的 3D 稠密点云; - 大疆发布旗下首款教育机器人产品,取名机甲大师RoboMaster S1 | 量子位
摘要:大疆发布旗下首款教育机器人产品,取名机甲大师RoboMaster S1——step 1,迈出第一步:- 全身配备31个传感器,可以感知图像、光线、声音、 振动,还有FPV摄像头结合机器视觉技术,能够识别多样的物体
- 6块感应装甲可以感知物理打击
- 麦克风可以识别声音
- 红外传感器则能接收来自另一台S1的红外信号
视觉、听觉,触觉都有了。因为背后还有一个算力担当的智能中控:五核SOC Cortex-A处理器。AI识别技术支持以下多种识别模式:线路识别,视觉标签识别,行人识别,掌声识别,姿势势识别,S1机器人识别。
- ICLR 2019论文解读:量化神经网络 | 机器之心
- UNDERSTANDING STRAIGHT-THROUGH ESTIMATOR IN TRAINING ACTIVATION QUANTIZED NEURAL NETS
摘要:使用直通估计器(STE)的理由可以通过一个简单实例进行说明。设有一个简单的阈值函数——ReLU 函数,即 f(x) = max(0,x)。此外,设网络一开始就有某套初始权重。这些 ReLU 的输入(乘上了权重的信号)可以是负数,这会导致 f(x) 的输出为 0。
对于这些权重,f(x) 的导数将会在反向传播过程中为 0,这意味着该网络无法从这些导数学习到任何东西,权重也无法得到更新。STE 的概念也由此而来。STE 会将输入的梯度设置为一个等于其输出梯度的阈值函数,而不管该阈值函数本身的实际导数如何。有关 STE 的最早研究(Bengio et al. 2013)请见:https://arxiv.org/pdf/1308.3432.pdf。
这篇论文使用了「粗粒梯度(coarse gradient)」这个术语来指代通过「经 STE 修改的链式法则」而得到的损失函数在权重变量方面的梯度。通过选择这种非一般的梯度,问题就变成了:STE 梯度并非该损失函数的实际梯度(实际上,STE 梯度不是任何函数的梯度),为什么在其负方向搜索有助于最小化训练损失?此外,该如何选择一个「好的」STE?
这篇论文讨论了通过二元激活和高斯数据学习二层线性层网络的三种代表性 STE。作者还证明选择适当的 STE 能得到表现优良的训练算法。 - ANALYSIS OF QUANTIZED MODELS
摘要:近年来,为了加快推理速度、降低内存成本或降低功耗,研究者们已经提出了很多量化模型。这在便携式或手持式设备方面尤显重要。但是,这些模型的训练仍然而且往往是基于浮点精度完成的。因此,训练过程仍然非常耗时。
人们已经提出许多不同的用于加速训练的方法,比如用于在训练过程中近似全精度权重的权重量化(Courbariaux et al., 2015, Lin et al., 2016)。此外,为了在近似/量化权重时取得更好的表现,人们也对量化的方法进行过研究。
近期另一个引人关注的方法是利用分布式训练加速量化网络(Dean et al., 2012)。分布式学习面临的一些关键难题是梯度和模型参数同步过程具有高昂的通信成本(Li et al., 2014)。此外,(Ferdinand et al., 2019)已经从编码理论角度研究了同步丢失梯度和模型参数的问题。我认为在将纠错(error correction)用于机器学习的分布式计算方面,这是一种非常有趣的方法。
之前的 DoReFa-Net(Zhou et al., 2016))和 QNN(Hubara et al., 2017)等研究已经探索过权重和梯度的量化。但是,它们都不是在分布式设置中完成的。在这篇论文中,作者考量了分布式设置中权重和梯度都量化的情况。
- UNDERSTANDING STRAIGHT-THROUGH ESTIMATOR IN TRAINING ACTIVATION QUANTIZED NEURAL NETS
- KDD 2019 | 自动探索特征组合,第四范式提出新方法AutoCross | 机器之心
摘要:本文提出了一种在实际应用中自动实现表数据特征组合的方法 AutoCross。该方法可以获得特征之间有用的相互作用,并提高机器学习算法的预测能力。该方法利用集束搜索策略(beam search strategy)构建有效的组合特征,其中包含尚未被现有工作覆盖的高阶(两个以上)特征组合,弥补了此前工作的不足。
此外,该研究提出了连续小批量梯度下降和多粒度离散化,以进一步提高效率和有效性,同时确保简单,无需机器学习专业知识或冗长的超参数调整。这些算法旨在降低分布式计算中涉及的计算、传输和存储成本。在基准数据集和真实业务数据集上的实验结果表明,AutoCross 可以显著提高线性模型和深度模型对表数据的学习能力和性能,优于其他基于搜索和深度学习的特征生成方法,进一步证明了其有效性和效率。
- PyTorch Hub发布!一行代码调用最潮模型,图灵奖得主强推 | 量子位
摘要:Facebook官方博客表示,PyTorch Hub是一个简易API和工作流程,为复现研究提供了基本构建模块,包含预训练模型库。 并且,PyTorch Hub还支持Colab,能与论文代码结合网站Papers With Code集成,用于更广泛的研究。 图灵奖得主Yann LeCun强烈推荐,无论是ResNet、BERT、GPT、VGG、PGAN还是MobileNet等经典模型,只需输入一行代码,就能实现一键调用; - 谷歌EfficientNet缩放模型,PyTorch实现出炉 | 量子位
摘要:谷歌上个月底提出的EfficientNet开源缩放模型,在ImageNet的准确率达到了84.1%,超过Gpipe,已经是当前的state-of-the-art了; - 用三百行代码快速实现一个RISC-V及汇编器 | 合圆芯
摘要:一个仅用300多行的RiscV32I及汇编器实现。使用器刻语言verilog自动生成器生成的一个四级流水的RISCV32I兼容处理器及汇编器实现。支持中断。并额外增加了wait指令,用于等待外部事件。
- 芯片战争6—Eureka!第一个晶体管的诞生(混沌之际,1932-1949年) | 科技红利及方向型资产研究
摘要:中国半导体产业的思考—随笔之《芯片战争——亮剑!国运之战》,讲述第一个晶体管的诞生(混沌之际,1932-1949年); - AI芯片的“冷”与“热” | StarryHeavensAbove
摘要:参加AI硬件峰会,我和业界朋友聊了很多AI芯片相关的话题。总的感觉,AI芯片经过几年比较热的发展,现在似乎进入一个相对平静的阶段。不过,与其说是AI芯片“遇冷”,可能说产业更加“冷静”更合适。同时,AI芯片的热潮在这两年对于相关的产业链也产生很多积极的影响,把“热度”传导到了其它一些领域。本文很多内容是闲聊的结果,如果引用了哪位朋友的话而没有说明还请见谅; - Int8量化-Winograd量化原理及实现(四) | 知乎
摘要:当前网络模型大量使用的Conv3x3s1在Float32推理过程中采用了Winograd算法(理论上论文中最快的F(6,3)加速比是5.0625,实际工程中即使引入更多的访存、矩阵转换耗时后的最优加速比也有3.0左右),极大减少计算量,而反观目前int8的推理过程,绝大多数基于Im2col+SGEMM或Direct Conv的计算方式进行量化。
最终导致大量使用Conv3x3s1结构的网络模型采用Int8量化后的速度相比Float32没有可见优势,甚至更慢。
本文尽量从工程角度来介绍Int8 Winograd F(2x2,3x3)的实现细节,不讲Winograd的原理; - GSA的memory+会议札记(3) | 杂谈与闲话
摘要:现在的AI很火,大家都往那边去,没有人太关心体系结构了。Google在2017年发布了TPU V1之后,现在已经有越来越多的AI startup的芯片出现,大家基本上都是用标准的Resnet50,Googlenetv3 等网络为benchmark, 一次一次地刷新性能和功耗比,个人觉得很有可能在一天,AI芯片的性能和功耗比在特定的imagenet的任务上超过人脑,现在AI在准确率和性能上都超过了。对于AI的芯片来讲,有一个指标也是大家讨论比较多:Roofline model。
Wechat ID: NeuroMem
Editor: https://github.com/ysh329
Project: https://github.com/ysh329/awesome-embedded-ai
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。