发布于 10 天前
摘要
你的Jetson Orin刚部署好记忆搜索,结果发现llama.cpp在ARM上死活不调用CUDA——推理速度慢到像在用CPU跑大模型。别急着换硬件,问题出在官方预编译产物上。实测自编译CUDA支持后,batch
