第四范式- 发布大模型推理加速卡、推理框架,推理性能提升10倍,成本下降一半

<p class="ql-align-justify"><span style="color: rgb(39, 64, 119);">为破解大模型推理中GPU显存瓶颈,第四范式发布了大模型推理框架SLXLLM以及硬件版本的推理加速卡4Paradigm Sage LLM Accelerator(简称SLX)。通过多任务共享存储及处理优化技术,大模型推理性能提升10倍;在模型效果无损情况下,同样使用8张24G显存GPU对6B/7B大模型进行FP16推理,可部署的模型数量从8增至16,GPU利用率从55%最高提升至100%,推理成本仅为原来的一半。值得一提的是,该能力也将集成在4Paradigm Sage AIOS 5.0中,推动大模型落地应用。</span></p><p><br></p>