- 主题:[求助]大模型继续问:如何进行多线程
rt,各位大佬,目前部署的qwen2-7b-instruct,单线程进行推理处理太慢,不知道它是否支持多线程,同时进行多个推理?我自己用多线程试了试,发现报了很多错误,也有可能方法不对。哪位大佬知道望不吝赐教,多谢!
--
FROM 123.58.106.*
用点框架吧。有一堆堆的多线程推理的框架了
问题上,哪怕再节约显存的框架,每多一个线程还是要多存很多内容(比如kv cache之类),你的显存够嘛?
【 在 earlyinsect 的大作中提到: 】
: rt,各位大佬,目前部署的qwen2-7b-instruct,单线程进行推理处理太慢,不知道它是否支持多线程,同时进行多个推理?我自己用多线程试了试,发现报了很多错误,也有可能方法不对。哪位大佬知道望不吝赐教,多谢!
--
FROM 140.210.152.*
多谢!今天上午看了看vllm,准备试试。
就两块24G的显存,看起来不太够啊
【 在 Xjt 的大作中提到: 】
: 用点框架吧。有一堆堆的多线程推理的框架了
: 问题上,哪怕再节约显存的框架,每多一个线程还是要多存很多内容(比如kv cache之类),你的显存够嘛?
--
FROM 123.58.106.*
Vllm会降低推理质量,我感觉很多人已经不用了。现在新框架一大堆啊。推理质量比速度和节约显存更重要吧
【 在 earlyinsect 的大作中提到: 】
: 多谢!今天上午看了看vllm,准备试试。
: 就两块24G的显存,看起来不太够啊
:
--
FROM 39.144.45.*
你用什么部署的?
【 在 earlyinsect 的大作中提到: 】
: rt,各位大佬,目前部署的qwen2-7b-instruct,单线程进行推理处理太慢,不知道它是否支持多线程,同时进行多个推理?我自己用多线程试了试,发现报了很多错误,也有可能方法不对。哪位大佬知道望不吝赐教,多谢!
--
FROM 114.249.194.*
flash-attn
【 在 omelet 的大作中提到: 】
: 你用什么部署的?
:
--
FROM 114.64.236.*
举几个栗子?
【 在 Xjt 的大作中提到: 】
: Vllm会降低推理质量,我感觉很多人已经不用了。现在新框架一大堆啊。推理质量比速度和节约显存更重要吧
--
FROM 221.198.64.*
那肯定质量比速度更重要。求推荐新框架
【 在 Xjt 的大作中提到: 】
: Vllm会降低推理质量,我感觉很多人已经不用了。现在新框架一大堆啊。推理质量比速度和节约显存更重要吧
: :
--
FROM 123.58.106.*
手工写python代码调用的,没有用框架
就是用transformers的库来加载模型进行调用
【 在 omelet 的大作中提到: 】
: 你用什么部署的?
:
--
FROM 123.58.106.*
这是什么,研究研究去
【 在 zengraoli 的大作中提到: 】
: flash-attn
--
FROM 123.58.106.*