高性能边缘计算：芯动力RPP架构芯片助力DeepSeek R1模型部署

在人工智能技术迅猛发展的时代，芯片与模型的协同优化成为推动智能应用落地的关键。近日，珠海市芯动力科技有限公司在人工智能领域迈出了重要一步，成功基于其 RPP 架构芯片部署DeepSeek R1蒸馏版本1.5B，7B，8B模型的适配，且性能强劲，在端侧大模型应用为DeepSeek R1蒸馏模型提供极佳性能体验。

板卡强劲性能解析：

芯动力 RPP 架构芯片所搭载的板卡规格参数：

Number of processing cores	1024
Max. BF16 performance	16 TFLOPS
Max. INT8 performance	32 TOPS
Video H.265/H.264 DECODER	32 channel 1920×1080@30fps
Video MJPEG/JPEG CODEC	210 M pixel/s
On-chip shared memory	24 MB

1.强大算力核心：拥有1024个处理核心，为模型运行提供了充足的计算资源。无论是复杂的算法运算还是大规模的数据处理，都能轻松应对。2.超高运算性能：最大BF16性能可达16TFLOPS，最大INT8性能更是高达32 TOPS，确保了在不同精度要求下都能实现高效的计算，满足各类复杂人工智能任务的需求。3.高效视频编解码：支持32通道1920×1080@30fps的Video H.265/H.264 解码，以及210 M pixel/s 的 Video MJPEG/JPEG 编解码，为视频相关的智能应用，如智能安防监控、视频会议等提供了有力支持。4.充足片上共享内存：配备24MB 的片上共享内存，有效减少数据传输延迟，提高数据访问速度，进一步提升了芯片的整体性能。

适配模型性能指标

测试模型	DeepSeek-R1-Distill-Qwen-1.5B	DeepSeek-R1-Distill-Qwen-7B	DeepSeek-R1-Distill-Llama-8B
Prefilling(s)	0.37	0.86	0.84
Decoding(token/s)	30.53	11.11	10.21

模型部署视频演示

DeepSeek-R1-Distill-Qwen-1.5B

DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1-Distill-Llama-8B

便携部署，轻松上手

为了让开发者能够快速将芯动力RPP架构芯片与 DeepSeek R1模型结合应用，芯动力提供了详细且便捷的模型部署流程：

（一）安装开发环境

只需简单两步，即可完成开发环境的安装：

安装开发环境与部署

sudo chmod 755 azurengine_llm_v1.0.6.2.run

bash azurengine_llm_v1.0.6.2.run

二）安装 Miniconda

通过以下命令，即可顺利安装 Miniconda，并配置好环境变量：

安装 Miniconda

Wget

https://repo.anaconda.com/miniconda/Miniconda3-py38_23.1.0-1-Linux-x86_64.sh

sudo chmod +x Miniconda3-py38_23.1.0-1-Linux-x86_64.sh

bash Miniconda3-py38_23.1.0-1-Linux-x86_64.sh

echo ‘export PATH=”~/miniconda3/bin:$PATH”‘ >> ~/.bashrc

source ~/.bashrc

conda –version

（三）创建虚拟环境及安装pip依赖包

创建虚拟环境及安装pip依赖包

cd workspace/test_framwork/test_llm/qwen_series/qwen2/qwen2_graph_demo/

conda create -n deepseek_export_onnx python=3.8

pip install -r requirements.txt

（四）模型加载及推理

针对不同的模型，只需按照以下命令，即可轻松实现模型加载及推理：

例如：

DeepSeek-R1-Distill-Llama-8B

conda activate deepseek_export_onnx

cd /home/azurengine/workspace/test_framwork/test_llm/deepseek_series/DeepSeek-R1-Distill-Llama3/graph_demo

python deepseek_llama3_8b_run_graph_8k_dyn.py -g

/home/azurengine/LLM_model/deepseek/deepSeek-R1-Distill-llama31-8B_graph

广泛应用

芯动力RPP边缘计算加速卡以其高性能、低功耗和强兼容性，广泛应用于AIPC、边缘计算、机器视觉、信号处理和医疗影像等领域。此外，芯动力已全面适配Llama3-8B、Llama3.1-8B、Qwen2-7B、Stable Diffusion、BLIP、CLIP、Whisper等边缘大模型，欢迎咨询体验。

新闻资讯

高性能边缘计算：芯动力RPP架构芯片助力DeepSeek R1模型部署

板卡强劲性能解析：

模型部署视频演示

便携部署，轻松上手

二）安装 Miniconda

（四）模型加载及推理

广泛应用

突破M.2接口的功耗红线：芯动力如何以RPP架构重塑端侧AI布局？

芯动力科技携手中兴通讯共筑边缘计算光接入新生态

芯动力团建漫游记：芯聚鹏城，漫游关西

联系我们 | CONTACT US

微信公众号

新闻资讯

高性能边缘计算：芯动力RPP架构芯片助力DeepSeek R1模型部署

板卡强劲性能解析：

模型部署视频演示

便携部署，轻松上手

二）安装 Miniconda

（四）模型加载及推理

广泛应用

突破M.2接口的功耗红线：芯动力如何以RPP架构重塑端侧AI布局？

芯动力科技携手中兴通讯 共筑边缘计算光接入新生态

芯动力团建漫游记：芯聚鹏城，漫游关西

联系我们 | CONTACT US

微信公众号

芯动力科技携手中兴通讯共筑边缘计算光接入新生态