新闻资讯

高性能边缘计算:芯动力RPP架构芯片助力DeepSeek R1模型部署

在人工智能技术迅猛发展的时代,芯片与模型的协同优化成为推动智能应用落地的关键。近日,珠海市芯动力科技有限公司在人工智能领域迈出了重要一步,成功基于其 RPP 架构芯片部署DeepSeek R1蒸馏版本1.5B,7B,8B模型的适配,且性能强劲,在端侧大模型应用为DeepSeek R1蒸馏模型提供极佳性能体验。

 

板卡强劲性能解析:

芯动力 RPP 架构芯片所搭载的板卡规格参数:

Number of processing cores 1024
Max. BF16 performance 16 TFLOPS
Max. INT8 performance 32 TOPS
Video H.265/H.264 DECODER 32 channel 1920×1080@30fps
Video MJPEG/JPEG CODEC 210 M pixel/s
On-chip shared memory 24 MB

 

1.强大算力核心:拥有1024个处理核心,为模型运行提供了充足的计算资源。无论是复杂的算法运算还是大规模的数据处理,都能轻松应对。2.超高运算性能:最大BF16性能可达16TFLOPS,最大INT8性能更是高达32 TOPS,确保了在不同精度要求下都能实现高效的计算,满足各类复杂人工智能任务的需求。3.高效视频编解码:支持32通道1920×1080@30fps的Video H.265/H.264 解码,以及210 M pixel/s 的 Video MJPEG/JPEG 编解码,为视频相关的智能应用,如智能安防监控、视频会议等提供了有力支持。4.充足片上共享内存:配备24MB 的片上共享内存,有效减少数据传输延迟,提高数据访问速度,进一步提升了芯片的整体性能。

适配模型性能指标

测试模型 DeepSeek-R1-Distill-Qwen-1.5B DeepSeek-R1-Distill-Qwen-7B DeepSeek-R1-Distill-Llama-8B
Prefilling(s) 0.37 0.86 0.84
Decoding(token/s) 30.53 11.11 10.21

 

模型部署视频演示

DeepSeek-R1-Distill-Qwen-1.5B

 

DeepSeek-R1-Distill-Qwen-7B

 

DeepSeek-R1-Distill-Llama-8B

 

便携部署,轻松上手

为了让开发者能够快速将芯动力RPP架构芯片与 DeepSeek R1模型结合应用,芯动力提供了详细且便捷的模型部署流程:
(一)安装开发环境
只需简单两步,即可完成开发环境的安装:
安装开发环境与部署
sudo chmod 755 azurengine_llm_v1.0.6.2.run

bash azurengine_llm_v1.0.6.2.run

 

二)安装 Miniconda

通过以下命令,即可顺利安装 Miniconda,并配置好环境变量:
安装 Miniconda
Wget

https://repo.anaconda.com/miniconda/Miniconda3-py38_23.1.0-1-Linux-x86_64.sh

sudo chmod +x Miniconda3-py38_23.1.0-1-Linux-x86_64.sh

bash Miniconda3-py38_23.1.0-1-Linux-x86_64.sh

echo ‘export PATH=”~/miniconda3/bin:$PATH”‘ >> ~/.bashrc

source ~/.bashrc

conda –version

 

(三)创建虚拟环境及安装pip依赖包
创建虚拟环境及安装pip依赖包
cd workspace/test_framwork/test_llm/qwen_series/qwen2/qwen2_graph_demo/

conda create -n deepseek_export_onnx  python=3.8

pip install -r requirements.txt

 

(四)模型加载及推理

针对不同的模型,只需按照以下命令,即可轻松实现模型加载及推理:
例如:
DeepSeek-R1-Distill-Llama-8B
conda activate deepseek_export_onnx

cd /home/azurengine/workspace/test_framwork/test_llm/deepseek_series/DeepSeek-R1-Distill-Llama3/graph_demo

python deepseek_llama3_8b_run_graph_8k_dyn.py -g

/home/azurengine/LLM_model/deepseek/deepSeek-R1-Distill-llama31-8B_graph

 

广泛应用

芯动力RPP边缘计算加速卡以其高性能、低功耗和强兼容性,广泛应用于AIPC、边缘计算、机器视觉、信号处理和医疗影像等领域。此外,芯动力已全面适配Llama3-8B、Llama3.1-8B、Qwen2-7B、Stable Diffusion、BLIP、CLIP、Whisper等边缘大模型,欢迎咨询体验。