layout |
---|
default |
关注模型压缩、低比特量化、移动端推理加速优化、部署
注:PC端微信链接打不开请用手机打开
- 鸿蒙OS仓库连登GitHub榜首,华为鸿蒙手机或将年底上市 | 新智元
摘要:华为宣布鸿蒙“开源”,直接吊足了开发者的胃口。GitHub也悄悄出现了一个精选华为鸿蒙操作系统相关资源的仓库,给出了清晰的资源路线图。也有小伙伴说 - 联发科发布旗下首款游戏处理器,红米拿到了全球首发权 | ZAKER
摘要:台湾芯片制造商联发科,发布了全新旗舰级手机处理器 Helio G90/G90T,也是该公司首次专为游戏打造的 G 系列产品首个 Soc。这两款产品的目的不言而喻,那就是要同市场上的同类产品竞争,无论是从参数还是性能来看,G90系列的对手就是高通的730系列和麒麟刚刚发布的810。
综合考虑产品定位、性能提升幅度、成本等因素后,Helio G90/G90T 采用的是12nm 工艺制程和 Arm 最新发布的 CPU/GPU。CPU是2个大核Cortex-A76@2.05GHz
和 6 个小核Cortex-A55@2.0GHz
的组合,GPU 为 Arm Mali-G76,频率最高达800MHz。支持高达 10GB 的 LPDDR4x RAM。 - 格芯推出12纳米 ARM 架构 3D 芯片,成熟度优于台积电7纳米 | EETOP
摘要:格芯指出,新开发出基于ARM 架构的3D 高密度测试芯片,是采用格芯的12 纳米FinFET 制程所制造,采用3D 的ARM 网状互连技术,允许数据更直接的传输到其他内核,极大化的降低延迟性。而这样的架构,这可以降低数据中心、边缘运算以及高阶消应用的延迟,并且提升数据的传输速度。 - 三星确认新SoC搭载AMD GPU | 安兔兔
摘要:三星电话会议上分享了有关AMD GPU IP许可的部分细节。集成AMD Radeon图形处理技术的手机芯片预计在未来2年内发布,它将大幅提升三星手机的GPU性能,值得期待。
资料显示,三星于2019年6月份宣布与AMD达成战略合作,后者将Radeon图形处理技术授权给三星,用于智能手机终端。目前三星智能手机使用ARM研发设计的Mali GPU,之前市场传言三星将自行设计开发GPU架构,但是至今未有相关产品发布。在与AMD达成技术授权协议后,三星自行研发、基于ARM架构的Exynos芯片将会显著提升其图形处理性能,与高通骁龙Adreno展开正面对抗。 - 三星发布 1.08 亿像素传感器,小米参与合作并将全球首发 | 雷锋网
摘要:8月12日,三星官方正式宣布推出1亿像素传感器ISOCELL Bright HMX,这是目前业内首款超过1亿像素的移动图像传感器。在较暗的设置中使用高ISO,有助于降低噪点,从而使图像更清晰。 三星称,小米和三星从早期的概念阶段到生产都紧密合作,从而联合打造了这款超过1亿像素的传感器。出货时间方面,三星称ISOCELL Bright HMX的批量生产将于本月晚些时候开始。 - 外媒:海思将放弃麒麟985,下月推990,全球首款7nm+工艺 | EETOP
摘要:据俄罗斯媒体报道称,华为消费者业务软件总裁王成禄接受其采访时表示,华为海思在下月有大动作,将发布全球首款商用的7nm+移动处理器,并且自家的Mate30系列会首发。报道中提到,Mate 30系列会在今年9月19日亮相,而在这之前 ,华为将在德国IFA大会上发布麒麟新一代旗舰处理器,命名上可能直接跳过原来的985,既冠以麒麟990的称号。麒麟990最大的卖点是升级为台积电第二代7nm(7nm EUV)制程工艺打造,CPU主频、GPU频率、基带速率可能会有所提升。 - AutoML构建加速器优化模型首尝试,谷歌发布EfficientNet-EdgeTPU | 机器之心
摘要:今年5月份,谷歌提出了一种利用复合系数统一缩放模型所有维度的新型模型缩放方法,并基于这种模型缩放方法又推出了一种新型 CNN 网络 EfficientNet。近日,谷歌宣布推出一种衍生自 EfficientNet 的图像分类模型 EfficientNet-EdgeTPU,通过定制化在谷歌 Edge TPU 实现最佳运行。
Github 上,谷歌发布了 EfficientNet-EdgeTPU 的训练代码和预训练模型。使用 TensorFlow 的后训练量化工具,谷歌将浮点训练模型转换为 Edge TPU 可兼容的整数量化模型。对于这些模型而言,后训练量化的效果非常好,仅产生非常轻微的精度损失(~0.5%)。
Github 项目链接:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet/edgetpu
Coral 网页:https://coral.withgoogle.com/docs/
- 清华大学「天机」芯片登上Nature封面:类脑加传统计算融合实现通用人工智能 | 机器之心
摘要:8月1日,顶级学术期刊《自然》杂志的封面文章介绍了清华大学在通用人工智能上的新尝试:一款名为「天机」的全新芯片架构,结合类脑计算和人工智能算法,展示了迄今为止从未有人实现过的强大能力。
这篇名为《面向通用人工智能的混合天机芯片架构》(Towards artificial general intelligence with hybrid Tianjic chip architecture)的论文展示了一辆由新型人工智能芯片驱动的自动驾驶自行车。试验中,无人自行车不仅可以识别语音指令、自动控制平衡,还能对前方行人进行探测和跟踪,并自动避开障碍。
新型芯片结合了类脑计算和基于计算机科学的人工智能——这种融合技术有望提升各类系统的能力,最终实现通用人工智能。作为人工智能的终极目标,人们对于「通用人工智能」的定义通常是:一种可以执行人类能够完成的所有任务的 AI。
论文链接:https://www.nature.com/articles/s41586-019-1424-8 - TPU、GPU、CPU深度学习平台哪家强?有人做了一个基准测试研究 | 机器之心
摘要:GPU、TPU、CPU 都可以用于深度学习模型的训练,那么这几个平台各适用于哪种模型,又各有哪些瓶颈?在本文中,来自哈佛的研究者设计了一个用于深度学习的参数化基准测试套件——ParaDnn,旨在系统地对这些深度学习平台进行基准测试。
ParaDnn 能够为全连接(FC)、卷积(CNN)和循环(RNN)神经网络生成端到端的模型。研究者使用 6 个实际模型对谷歌的云 TPU v2/v3、英伟达的 V100 GPU、以及英特尔的 Skylake CPU 平台进行了基准测试。他们深入研究了 TPU 的架构,揭示了它的瓶颈,并重点介绍了能够用于未来专业系统设计的宝贵经验。他们还提供了平台的全面对比,发现每个平台对某些类型的模型都有自己独特的优势。最后,他们量化了专用的软件堆栈对 TPU 和 GPU 平台提供的快速性能改进。 - AutoML: A Survey of the State-of-the-Art | 机器之心
摘要:在特定领域构建高质量的深度学习系统不仅耗时,而且需要大量的资源和人类的专业知识。为了缓解这个问题,许多研究正转向自动机器学习。本文是一个全面的 AutoML 论文综述文章,介绍了最新的 SOTA 成果。首先,文章根据机器学习构建管道的流程,介绍了相应的自动机器学习技术。然后总结了现有的神经架构搜索(NAS)研究。论文作者同时对比了 NAS 算法生成的模型和人工构建的模型。最后,论文作者介绍了几个未来研究中的开放问题。
作者:Xin He、Kaiyong Zhao、Xiaowen Chu
论文链接:https://arxiv.org/pdf/1908.00709v1
- didi/AoE: AoE (AI on Edge,终端智能,边缘计算) 是一个终端侧AI集成运行时环境 (IRE),帮助开发者提升效率
摘要:AoE (AI on Edge,终端智能,边缘计算) 是一个滴滴开源的 终端侧 AI 集成运行时环境 ( IRE )。以 “稳定性、易用性、安全性” 为设计原则,帮助开发者将不同框架的深度学习算法轻松部署到终端高效执行。目前,AoE 提供了 Android 和 iOS 的实现,Linux 平台运行时环境 SDK 正在紧锣密鼓地开发中,预计在 9 月底发布,方便智能终端设备上落地 AI 业务。 - stanford-futuredata/dawn-bench-entries: DAWNBench: An End-to-End Deep Learning Benchmark and Competition
摘要:DAWNBench是端到端的深度学习训练和推理的基准工具。计算时间和花费成本是构建深度模型的关键,但许多现有基准仅关注模型精度,DAWNBench提供了一组常见的深度学习工作负载,用于量化不同优化策略,模型体系结构,软件框架,云和硬件的训练时间、成本,推理延迟和推理成本。
主页:https://dawn.cs.stanford.edu//benchmark/ - intel/Immintrin-debug: immintrin_dbg.h is an include file, a wrapper around immintrin.h. It implements most of AVX, AVX2, AVX-512 vector intrinsics to enable source level debug of vector code.
摘要:immintrin_dbg.h
是一个封装了immintrin.h
的文件,对Intel的Intrinsic实现了源码级Debug。 - jacobtomlinson/jupyterlab-nvdashboard: A JupyterLab extension for displaying dashboards of GPU usage.
摘要:训练过程中在Jupyter监控GPU使用。 - ethereon/lycon: A minimal and fast image library for Python and C++
摘要:从OpenCV中摘出来的,小巧、极速的Python、C++图像处理库,性能比OpenCV稍好。 - hollance/coreml-training: Source code for my blog post series "On-device training with Core ML"
摘要:端上训练这篇文章 On-device training with Core ML – part 1 的源码。
- 到底什么是微内核操作系统?除了华为鸿蒙,其他很多操作系统也在采用 | EETOP
摘要:华为开发者大会上正式宣布了鸿蒙操作系统,该系统其中一个亮点是 —— 微内核。华为声称,微内核的启用,使其速度大大提升,并且在安全性上产生变革性突破,微内核打破了宏内核下root即可获取用户所有权限的做法,在安全性上大大提升。 - 自动驾驶中FPGA加速的挑战与实践 | 智驾大脑ACU 阿波罗智能驾驶
摘要:在前不久的 Baidu Create 2019 百度 AI 开发者大会上,Apollo 发布了业内首创的 AVP 专用车载计算平台——百度 AVP 专用量产计算单元 ACU-Advanced。
本篇文章,我们将从与自动驾驶的关系、加速中遇到的挑战、量化计算、节约资源和带宽五个方面,介绍 ACU-Advanced 的核心高性能芯片 FPGA 的相关技术。 - 对开源框架Tensorflow的优化总结 | zhihu
摘要:介绍了阿里云TensorFlow On PAI, 阿里妈妈TensorFlowRS, 阿里大规模分布式训练框架PAISoar的几个在应用原生TF的缺点以及对应优化点。 - 手机拍视频,实时换背景,继马卡龙玩图后,Versa又出了一款更厉害的App | 量子位
摘要:绿幕侠背后用到视频人景分离技术,把视频拆成一帧一帧,实现每一帧的语义分割,其保证分割出来的精确度(边缘)的同时,处理时间低于30毫秒(否则卡顿)。最后模型在手机本地运行。
在该过程中,Versa通过自研“概念网络”的优化,提升了当前帧的分割精确度,又将时间空间信息嵌入到更紧凑的维度上,降低backbone的复杂度,花了半年多完成了绿幕侠算法的研究,将每一帧的处理时间降到30毫秒以下,模型也被压缩到了1M左右。
但因手机算力和功耗发热问题,最终选择在荣耀9X的SoC麒麟810上运行模型,不仅算力和功耗达到了要求,而且发现麒麟810的I/O的设计更好,数据搬移效率高。
麒麟810跑60ms,GTX1070上加上I/O大概是20ms。桌面GPU虽然算力强,但是小模型根本用不上这么大的算力,反而视频数据显存搬移的I/O是瓶颈,时间都花在数据搬运上了。麒麟810的I/O设计出色,省了不少时间。另外,桌面GPU是32bit浮点,810是16bit浮点。GPU是通用芯片,NPU是专门用于神经网络计算,对算子可以特别优化。最终的总时间上跟手机上可比。 - AI芯片“软硬件协同设计”的理想与实践 | StarryHeavensAbove
摘要:最近看到一篇文章“Hardware-Software Co-Design Reappears”[1],很好的总结了软硬件协同设计“失败”的历史,也提出一些新的想法,这个话题在AI芯片的背景下还是非常值得探讨的。
其中几个核心概念包括:1. 一种能够描述软件和硬件的单一语言;2. 优化实现;3.功能划分,包括不同功能在不同类型硬件上的实现;3. 所有功能“一键”完成(自动化)。 - 简单几招助您加速 ARM 容器应用开发和测试流程 | 云栖社区
摘要:利用容器、操作系统和虚拟化技术,我们可以轻松在X86平台构建和测试ARM应用,简化了多CPU体系架构应用的支持。
Wechat ID: NeuroMem
Editor: https://github.com/ysh329
Project: https://github.com/ysh329/awesome-embedded-ai
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。