[求助]大模型继续问：如何进行多线程

水木社区手机版

主题:[求助]大模型继续问：如何进行多线程
10楼|earlyinsect|2024-08-16 17:39:20|只看此ID
请问找个如何使用呢？
看网上都是在教如何安装，安装完了就可以了吗？不需要在代码里显式的调用它？

另外，vllm可以显示的批量预测，即多个提示词一起进行推理处理。flash-attn可以吗？或者其他的框架也可以吗？

【在 zengraoli 的大作中提到: 】
: flash-attn
--
FROM 123.58.106.*
11楼|Xjt|2024-08-16 17:57:47|只看此ID
比如TensorRT，还有很多别的，搜搜呗
【在 tgfbeta 的大作中提到: 】
: 举几个栗子？
--
FROM 39.144.45.*
12楼|omelet|2024-08-19 15:48:44|只看此ID
单线程都慢，那多线程岂不是更慢了？

【在 earlyinsect 的大作中提到: 】
: 多谢！今天上午看了看vllm，准备试试。
: 就两块24G的显存，看起来不太够啊
:
--
FROM 114.249.194.*
13楼|earlyinsect|2024-08-20 11:31:10|只看此ID
想着多线程是不是可以充分利用GPU空闲时间

【在 omelet 的大作中提到: 】
: 单线程都慢，那多线程岂不是更慢了？
:
--
FROM 123.58.106.*
14楼|tgfbeta|2024-08-21 10:38:34|只看此ID
github：mani-kantap/llm-inference-solutions
全不全？
【在 Xjt 的大作中提到: 】
: 比如TensorRT，还有很多别的，搜搜呗
--
FROM 221.198.64.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版