- 主题:[求助]大模型继续问:如何进行多线程
请问找个如何使用呢?
看网上都是在教如何安装,安装完了就可以了吗?不需要在代码里显式的调用它?
另外,vllm可以显示的批量预测,即多个提示词一起进行推理处理。flash-attn可以吗?或者其他的框架也可以吗?
【 在 zengraoli 的大作中提到: 】
: flash-attn
--
FROM 123.58.106.*
比如TensorRT,还有很多别的,搜搜呗
【 在 tgfbeta 的大作中提到: 】
: 举几个栗子?
--
FROM 39.144.45.*
单线程都慢,那多线程岂不是更慢了?
【 在 earlyinsect 的大作中提到: 】
: 多谢!今天上午看了看vllm,准备试试。
: 就两块24G的显存,看起来不太够啊
:
--
FROM 114.249.194.*
想着多线程是不是可以充分利用GPU空闲时间
【 在 omelet 的大作中提到: 】
: 单线程都慢,那多线程岂不是更慢了?
:
--
FROM 123.58.106.*
github:mani-kantap/llm-inference-solutions
全不全?
【 在 Xjt 的大作中提到: 】
: 比如TensorRT,还有很多别的,搜搜呗
--
FROM 221.198.64.*