手机流畅运行470亿大模型：上交大发布LLM手机推理框架PowerInfer-2，提速29倍-杏鑫平台【官方网站】

产品搜索

您现在的位置：杏鑫平台【官方网站】 > 新闻中心 > 手机流畅运行470亿大模型：上交大发布LLM手机推理框架PowerInfer-2，提速29倍

产品分类

手机流畅运行470亿大模型：上交大发布LLM手机推理框架PowerInfer-2，提速29倍

作者：天富平台发布于：2024-06-12 13:10:20 文字：【大】【中】【小】

摘要：苹果一出手，在手机等移动设备上部署大模型不可避免地成为行业关注焦点。然而，目前在移动设备上运行的模型相对较小（苹果的是3B，谷歌的是2B），并且消耗大量内存，这在很大程度上限制了其应用场景。即使是苹果，目前也需要与OpenAI合作，通过将云端GPT-4o大模型嵌入到操作系统中来提供能力更强的服务。这样一来，苹果的混

苹果一出手，在手机等移动设备上部署大模型不可避免地成为行业关注焦点。然而，目前在移动设备上运行的模型相对较小（苹果的是3B，谷歌的是2B），并且消耗大量内存，这在很大程度上限制了其应用场景。即使是苹果，目前也需要与OpenAI合作，通过将云端GPT-4o大模型嵌入到操作系统中来提供能力更强的服务。这样一来，苹果的混合方案引起了非常多关于数据隐私的讨论和争议，甚至马斯克都下场讨论。如果苹果在操作系统层面集成OpenAI，那么苹果设备将被禁止在我的公司使用。这是不可接受的安全违规行为。既然终端侧本地部署大模型的方案既让手机用户享受到AI强大的智能，又能保护好自己的隐私安全，为什么苹果还要冒着侵犯隐私的风险选择联手OpenAI采用云端大模型呢？主要挑战有两点：手机内存不够大：按照大模型的Scaling Law法则，模型参数越大，能力对应的也就越强，这就意味着能力更强的模型对内存的要求越高。手机算力不够强：即使勉强把通过量化等手段把模型塞进手机了，推理速度也慢，适合的应用场景也就非常有限了。为了解决上述挑战，上海交大IPADS实验室推出了面向手机的大模型推理引擎（目前论文已在arxiv公开）：PowerInfer-2.0。 PowerInfer-2.0能够在内存有限的智能手机上实现快天富注册登录速推理，让Mixtral 47B模型在手机上达到11 tokens/s的速度。与热门开源推理框架llama.cpp相比，PowerInfer-2.0的推理加速比平均达到25倍，最高达29倍。为了充分释放出PowerInfer-2.0框架的最大潜力，上海交大团队还提出了配套的大模型优化技术Turbo Sparse，相关论文近期也上传了arxiv，并且已经在业内引起关注。另外值得一提的是，去年底上海交大团队提出了针对PC场景的快速推理框架PowerInfer-1.0，在4090等消费级显卡的硬件上，实现了比llama.cpp高达11倍的推理加速，曾连续三天登顶GitHub趋势榜，5天获得了5k的GitHub star，目前已达到7.1k star。相比PC，手机的内存和算力受到的约束更多，那么这次的PowerInfer-2.0是如何针对手机场景加速大模型推理呢？动态神经元缓存首先，针对手机运行内存（DRAM）不足的问题，PowerInfer-2.0利用了稀疏模型推理时的一个特点：每次只需要激活一小部分神经元，即“稀疏激活”。没有被激活的神经元即使不参与AI模型的推理计算，也不会对模型的输出质量造成影响。稀疏激活为降低模型推理的内存使用创造了新的机会。为了充分利用稀疏激活的特性，PowerInfer-2.0把整个神经网络中的神经元分成了冷、热两种，并在内存中基于LRU策略维护了一个神经元缓存池。近期频繁激活的”热神经元”被放置在运行内存中，而“冷神经元”只有在被预测激活的时候，才会被拉进内存，大幅降低了内存使用量。其实冷热神经元分类，是继承自PowerInfer-1.0已有的做法。而在去年12月，苹果在面向端侧的大语言模型推理方案“LLM in a Flash”中提出了和神经元缓存类似的“滑动窗口”技术。但这些工作主要针对的都是PC环境，直接迁移到手机环境，还会遇到新的难题。首先手机平台的硬件条件远不及PC，无论是算力、内存总量还是存储带宽，都与PC存在较大差距。其次，手机硬件平台存在CPU、GPU、NPU三种异构的计算单元，十分复杂。各大硬件平台宣发时都会强调一个总算力，实际上是把CPU、GPU、NPU提供的算力加起来。然而真正跑起大模型来，能不能高效利用各种异构算力还是个问题。以神经元簇为粒度的异构计算针对这一点，PowerInfer-2.0进一步把粗粒度的大矩阵计算分解成细粒度的“神经元簇”。每个神经元簇可以包含若干个参与计算的神经元。对于不同的处理器，会根据处理器的特性来动态决定划分出来的神经元簇的大小。例如，NPU擅长于做大矩阵的计算，那么可以把所有神经元合并成一个大的神经元簇，一起交天富平台登录注册给NPU计算，这样就可以充分利用NPU的计算能力。而在使用CPU时，可以拆出多个细粒度的神经元簇，分发给多个CPU核心一起计算。具体而言，PowerInfer-2.0为模型推理的预填充阶段（Prefill）和解码阶段（Decoding）分别设计了两套神经元簇的划分方案：预填充阶段会一次性输入很多token，基本上绝大部分神经元都会被激活，因此选择使用大神经元簇交给NPU计算。CPU此时也没有闲着，在后台为NPU执行反量化模型权重的操作。解码阶段每次只有一个token，具有较高的稀疏性，因此更加适合划分成若干细粒度的神经元簇，交给CPU灵活调度和执行计算。

这是水淼·PHPWEB站群文章更新器的试用版本更新的文章，故有此标记(2024-06-12 13:10:22)

标签：天富注册开户天富注册