[求助]大模型继续问：如何进行多线程

水木社区手机版

主题:[求助]大模型继续问：如何进行多线程
楼主|earlyinsect|2024-08-16 07:44:57|只看此ID
rt，各位大佬，目前部署的qwen2-7b-instruct，单线程进行推理处理太慢，不知道它是否支持多线程，同时进行多个推理？我自己用多线程试了试，发现报了很多错误，也有可能方法不对。哪位大佬知道望不吝赐教，多谢！
--
FROM 123.58.106.*
1楼|Xjt|2024-08-16 11:31:59|只看此ID
用点框架吧。有一堆堆的多线程推理的框架了

问题上，哪怕再节约显存的框架，每多一个线程还是要多存很多内容(比如kv cache之类），你的显存够嘛？
【在 earlyinsect 的大作中提到: 】
: rt，各位大佬，目前部署的qwen2-7b-instruct，单线程进行推理处理太慢，不知道它是否支持多线程，同时进行多个推理？我自己用多线程试了试，发现报了很多错误，也有可能方法不对。哪位大佬知道望不吝赐教，多谢！
--
FROM 140.210.152.*
2楼|earlyinsect|2024-08-16 12:50:00|只看此ID
多谢！今天上午看了看vllm，准备试试。
就两块24G的显存，看起来不太够啊

【在 Xjt 的大作中提到: 】
: 用点框架吧。有一堆堆的多线程推理的框架了
: 问题上，哪怕再节约显存的框架，每多一个线程还是要多存很多内容(比如kv cache之类），你的显存够嘛？
--
FROM 123.58.106.*
3楼|Xjt|2024-08-16 12:55:05|只看此ID
Vllm会降低推理质量，我感觉很多人已经不用了。现在新框架一大堆啊。推理质量比速度和节约显存更重要吧
【在 earlyinsect 的大作中提到: 】
: 多谢！今天上午看了看vllm，准备试试。
: 就两块24G的显存，看起来不太够啊
:
--
FROM 39.144.45.*
4楼|omelet|2024-08-16 14:26:50|只看此ID
你用什么部署的？

【在 earlyinsect 的大作中提到: 】
: rt，各位大佬，目前部署的qwen2-7b-instruct，单线程进行推理处理太慢，不知道它是否支持多线程，同时进行多个推理？我自己用多线程试了试，发现报了很多错误，也有可能方法不对。哪位大佬知道望不吝赐教，多谢！
--
FROM 114.249.194.*
5楼|zengraoli|2024-08-16 14:37:48|只看此ID
flash-attn
【在 omelet 的大作中提到: 】
: 你用什么部署的？
:
--
FROM 114.64.236.*
6楼|tgfbeta|2024-08-16 15:41:54|只看此ID
举几个栗子？
【在 Xjt 的大作中提到: 】
: Vllm会降低推理质量，我感觉很多人已经不用了。现在新框架一大堆啊。推理质量比速度和节约显存更重要吧
--
FROM 221.198.64.*
7楼|earlyinsect|2024-08-16 16:22:24|只看此ID
那肯定质量比速度更重要。求推荐新框架

【在 Xjt 的大作中提到: 】
: Vllm会降低推理质量，我感觉很多人已经不用了。现在新框架一大堆啊。推理质量比速度和节约显存更重要吧
: :
--
FROM 123.58.106.*
8楼|earlyinsect|2024-08-16 16:23:42|只看此ID
手工写python代码调用的，没有用框架
就是用transformers的库来加载模型进行调用

【在 omelet 的大作中提到: 】
: 你用什么部署的？
:
--
FROM 123.58.106.*
9楼|earlyinsect|2024-08-16 16:24:21|只看此ID
这是什么，研究研究去

【在 zengraoli 的大作中提到: 】
: flash-attn
--
FROM 123.58.106.*