广告位
产品搜索
 
产品分类
手机流畅运行470亿大模型:上交大发布LLM手机推理框架PowerInfer-2,提速29倍
作者:天富平台    发布于:2024-06-12 13:10:20    文字:【】【】【
摘要:苹果一出手,在手机等移动设备上部署大模型不可避免地成为行业关注焦点。 然而,目前在移动设备上运行的模型相对较小(苹果的是3B,谷歌的是2B),并且消耗大量内存,这在很大程度上限制了其应用场景。 即使是苹果,目前也需要与OpenAI合作,通过将云端GPT-4o大模型嵌入到操作系统中来提供能力更强的服务。 这样一来,苹果的混
苹果一出手,在手机等移动设备上部署大模型不可避免地成为行业关注焦点。 然而,目前在移动设备上运行的模型相对较小(苹果的是3B,谷歌的是2B),并且消耗大量内存,这在很大程度上限制了其应用场景。 即使是苹果,目前也需要与OpenAI合作,通过将云端GPT-4o大模型嵌入到操作系统中来提供能力更强的服务。 这样一来,苹果的混合方案引起了非常多关于数据隐私的讨论和争议,甚至马斯克都下场讨论。 如果苹果在操作系统层面集成OpenAI,那么苹果设备将被禁止在我的公司使用。这是不可接受的安全违规行为。 既然终端侧本地部署大模型的方案既让手机用户享受到AI强大的智能,又能保护好自己的隐私安全,为什么苹果还要冒着侵犯隐私的风险选择联手OpenAI采用云端大模型呢?主要挑战有两点: 手机内存不够大:按照大模型的Scaling Law法则,模型参数越大,能力对应的也就越强,这就意味着能力更强的模型对内存的要求越高。 手机算力不够强:即使勉强把通过量化等手段把模型塞进手机了,推理速度也慢,适合的应用场景也就非常有限了。 为了解决上述挑战,上海交大IPADS实验室推出了面向手机的大模型推理引擎(目前论文已在arxiv公开):PowerInfer-2.0。 PowerInfer-2.0能够在内存有限的智能手机上实现快天富注册登录速推理,让Mixtral 47B模型在手机上达到11 tokens/s的速度。 与热门开源推理框架llama.cpp相比,PowerInfer-2.0的推理加速比平均达到25倍,最高达29倍。 为了充分释放出PowerInfer-2.0框架的最大潜力,上海交大团队还提出了配套的大模型优化技术Turbo Sparse,相关论文近期也上传了arxiv,并且已经在业内引起关注。 另外值得一提的是,去年底上海交大团队提出了针对PC场景的快速推理框架PowerInfer-1.0,在4090等消费级显卡的硬件上,实现了比llama.cpp高达11倍的推理加速,曾连续三天登顶GitHub趋势榜,5天获得了5k的GitHub star,目前已达到7.1k star。 相比PC,手机的内存和算力受到的约束更多,那么这次的PowerInfer-2.0是如何针对手机场景加速大模型推理呢? 动态神经元缓存 首先,针对手机运行内存(DRAM)不足的问题,PowerInfer-2.0利用了稀疏模型推理时的一个特点:每次只需要激活一小部分神经元,即“稀疏激活”。没有被激活的神经元即使不参与AI模型的推理计算,也不会对模型的输出质量造成影响。 稀疏激活为降低模型推理的内存使用创造了新的机会。为了充分利用稀疏激活的特性,PowerInfer-2.0把整个神经网络中的神经元分成了冷、热两种,并在内存中基于LRU策略维护了一个神经元缓存池。 近期频繁激活的”热神经元”被放置在运行内存中,而“冷神经元”只有在被预测激活的时候,才会被拉进内存,大幅降低了内存使用量。 其实冷热神经元分类,是继承自PowerInfer-1.0已有的做法。 而在去年12月,苹果在面向端侧的大语言模型推理方案“LLM in a Flash”中提出了和神经元缓存类似的“滑动窗口”技术。但这些工作主要针对的都是PC环境,直接迁移到手机环境,还会遇到新的难题。 首先手机平台的硬件条件远不及PC,无论是算力、内存总量还是存储带宽,都与PC存在较大差距。 其次,手机硬件平台存在CPU、GPU、NPU三种异构的计算单元,十分复杂。各大硬件平台宣发时都会强调一个总算力,实际上是把CPU、GPU、NPU提供的算力加起来。然而真正跑起大模型来,能不能高效利用各种异构算力还是个问题。 以神经元簇为粒度的异构计算 针对这一点,PowerInfer-2.0进一步把粗粒度的大矩阵计算分解成细粒度的“神经元簇”。 每个神经元簇可以包含若干个参与计算的神经元。对于不同的处理器,会根据处理器的特性来动态决定划分出来的神经元簇的大小。 例如,NPU擅长于做大矩阵的计算,那么可以把所有神经元合并成一个大的神经元簇,一起交天富平台登录注册给NPU计算,这样就可以充分利用NPU的计算能力。而在使用CPU时,可以拆出多个细粒度的神经元簇,分发给多个CPU核心一起计算。 具体而言,PowerInfer-2.0为模型推理的预填充阶段(Prefill)和解码阶段(Decoding)分别设计了两套神经元簇的划分方案: 预填充阶段会一次性输入很多token,基本上绝大部分神经元都会被激活,因此选择使用大神经元簇交给NPU计算。CPU此时也没有闲着,在后台为NPU执行反量化模型权重的操作。 解码阶段每次只有一个token,具有较高的稀疏性,因此更加适合划分成若干细粒度的神经元簇,交给CPU灵活调度和执行计算。


这是水淼·PHPWEB站群文章更新器的试用版本更新的文章,故有此标记(2024-06-12 13:10:22)
脚注信息