在人工智能技术迅猛发展的时代,芯片与模型的协同优化成为推动智能应用落地的关键。近日,珠海市芯动力科技有限公司在人工智能领域迈出了重要一步,成功基于其 RPP 架构芯片部署DeepSeek R1蒸馏版本1.5B,7B,8B模型的适配,且性能强劲,在端侧大模型应用为DeepSeek R1蒸馏模型提供极佳性能体验。
板卡强劲性能解析:
芯动力 RPP 架构芯片所搭载的板卡规格参数:
| Number of processing cores | 1024 |
| Max. BF16 performance | 16 TFLOPS |
| Max. INT8 performance | 32 TOPS |
| Video H.265/H.264 DECODER | 32 channel 1920×1080@30fps |
| Video MJPEG/JPEG CODEC | 210 M pixel/s |
| On-chip shared memory | 24 MB |
1.强大算力核心:拥有1024个处理核心,为模型运行提供了充足的计算资源。无论是复杂的算法运算还是大规模的数据处理,都能轻松应对。2.超高运算性能:最大BF16性能可达16TFLOPS,最大INT8性能更是高达32 TOPS,确保了在不同精度要求下都能实现高效的计算,满足各类复杂人工智能任务的需求。3.高效视频编解码:支持32通道1920×1080@30fps的Video H.265/H.264 解码,以及210 M pixel/s 的 Video MJPEG/JPEG 编解码,为视频相关的智能应用,如智能安防监控、视频会议等提供了有力支持。4.充足片上共享内存:配备24MB 的片上共享内存,有效减少数据传输延迟,提高数据访问速度,进一步提升了芯片的整体性能。
适配模型性能指标
| 测试模型 | DeepSeek-R1-Distill-Qwen-1.5B | DeepSeek-R1-Distill-Qwen-7B | DeepSeek-R1-Distill-Llama-8B |
| Prefilling(s) | 0.37 | 0.86 | 0.84 |
| Decoding(token/s) | 30.53 | 11.11 | 10.21 |
模型部署视频演示
DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Llama-8B
便携部署,轻松上手
bash azurengine_llm_v1.0.6.2.run


二)安装 Miniconda
https://repo.anaconda.com/miniconda/Miniconda3-py38_23.1.0-1-Linux-x86_64.sh
sudo chmod +x Miniconda3-py38_23.1.0-1-Linux-x86_64.sh
bash Miniconda3-py38_23.1.0-1-Linux-x86_64.sh
echo ‘export PATH=”~/miniconda3/bin:$PATH”‘ >> ~/.bashrc
source ~/.bashrc
conda –version


conda create -n deepseek_export_onnx python=3.8
pip install -r requirements.txt



(四)模型加载及推理
cd /home/azurengine/workspace/test_framwork/test_llm/deepseek_series/DeepSeek-R1-Distill-Llama3/graph_demo
python deepseek_llama3_8b_run_graph_8k_dyn.py -g
/home/azurengine/LLM_model/deepseek/deepSeek-R1-Distill-llama31-8B_graph
广泛应用