取经?你倒是说说具体是谁在研究,是谁在取经啊?有名有姓嘛?你报个名字出来呀。
别是几个国外的喜欢做china no.1专赚你们这种傻冒流量的国外自媒体吧。
deepseek v3在论文里重点拿出来说的就2点,一个是在开源llm里在各种评测中做到了sota,另一个是训练成本很低,推理成本很低,推理速度很快。
但只要是了解一点llm的人都不会对此有啥意外。因为deepseek就是一个moe模型,由256个37b小模型构成。
所以训练推理成本低压根就没啥好研究的,这是moe模型的天然优势,哪个moe模型不是这样?
你知道deepseek本来就喜欢搞moe模型,在2024年初就发布过moe模型嘛?
你是觉得要到现在,由deepseek v3来告诉大家moe模型的好嘛?你是觉得就你知道有这么好的东西,其他人都是sb,非要耗费巨资挤破头一样抢巨量算力资源?你知道moe模型的问题吗?
你知道在2023年有个法国团队发布的mistral 8x7b嘛?你知道它也是个moe模型,并在在同期的开源llm中达到了sota嘛?我猜你肯定不知道。
你知道gpt4据小道消息也是一个moe模型嘛?你知道后来各家的moe模型都是源自gpt4是个moe模型这个小道消息么?我猜你还是不知道。
追根溯源,这一切还是源于openai。还已经超越硅谷,自己无知不是你的错,拿这当真到处说那就别怪被喷。
deepseek v3现在这么火,吹它的视频一箩筐,你倒是找一个实战视频出来呀,让我看到在coding的实战中deepseek v3做到了claude 3.5 sonnect没做到的效果呀,我可以下定论你一个都找不到,欢迎你找个视频出来打我脸。
至于在开源llm里在打榜中做到了sota,尤其是在bench中按着llama 70b打,然后看齐或者超越gpt4/claude的,这种事情每几个月就会来一次,google的gemma2 7b,微软的phi-4 14b,也都做到了类似的成绩,你看看它们才多大。不说国外的,国内也有qwen,yi,都是你方唱罢我登场,多大事。
你要是看自媒体,那gpt4/claude简直就是战五渣,但openrouter.ai的ranking页面可稳定的很,claude常年第一第二。哪个好用哪个不好用,愿意真金白银买单的人都很清楚。(openrouter里面openai的模型排名低,是因为大部分只知道openai的一般就直连了,只有喜欢各种模型比来比去的才会来openrouter)
最后,所以我就很讨厌这种傻x帖,他两嘴一掰随便扯一句,我tm得回一堆东西。所以我现在越来越懒得发帖了。我是觉得都ai时代了,应该让ai来管理这帮傻x,让他们知道发帖是需要有门槛和成本的。不过现在的社区嘛,不被消灭就不错了,所以大家还是开心就好吧。
【 在 mseer 的大作中提到: 】
: 硅谷几大傻都在研究deepseek的论文取经

--
修改:lvsoft FROM 218.1.145.*
FROM 218.1.145.*