咋矛盾了?任何时候,最先进的模型都不可能ondevice上跑起来,都必须用各种技术处理,可能是量化,可能是稀疏化,也可能是蒸馏,或者混合用然后finetune,
如果一台车上就能飞快的跑起来训练好的原始模型,那只能说这个模型太落后了
【 在 whistlingMe (哈哈) 的大作中提到: 】
: …仔细读读你自己这句话是不是前后矛盾,量化了还保证不了响应时间,那不就算力不够吗
: 现在各家恰恰都在基于LLM做新方案…
: 32B的模型4bit量化,thor-x都吃力。但是32B的模型对于“世界知识”都有点不够。
: 现在车端算力是还差的多而不是过剩
--
FROM 203.208.61.*