- 主题:折腾了小半年,发现垂直领域模型是个坑
rag也算是高质量数据集吗
【 在 scramjet 的大作中提到: 】
: 分别和某头部大学,以及北京某研究所合作
: 搞海洋测绘数据的垂直大模型,以及某化工过程的行业大模型
: 最后的结果都是一地鸡毛,花费大量的精力训出来的模型
: 其效果和RAG+基座模型相比并没有实质性改善
: --
:
--
FROM 218.108.210.*
那么,大公司的顶级大模型,会往垂直领域发展吗?还是保持通用?
【 在 Xjt 的大作中提到: 】
: 这玩意我在2023年就想通了。。。你们是完全没战略思维啊
:
: 2023年我还在研究fine-tune、lora、RHLF等等。后来想通了,这东西普通人根本没必要搞,你搞的再好,也没顶级大模型进化的快
:
: 对普通人,或者普通团队,研究怎么更好的使用顶级大模型,比做模型训练有意义
: ..................
发自「今日水木 on iPhone SE 2」
--
FROM 111.194.202.*
Github一堆垂直大模型全套,换用训练数据和算力而已,鸡毛科技,全是搞经费的
【 在 scramjet 的大作中提到: 】
: 分别和某头部大学,以及北京某研究所合作
: 搞海洋测绘数据的垂直大模型,以及某化工过程的行业大模型
: 最后的结果都是一地鸡毛,花费大量的精力训出来的模型
: 其效果和RAG+基座模型相比并没有实质性改善
- 来自 水木说
--
FROM 221.219.4.*
慢慢来。ai肯定是方向。
7,80年代神经网络刚起步时也是弱智的一批。
【 在 scramjet 的大作中提到: 】
: 分别和某头部大学,以及北京某研究所合作
: 搞海洋测绘数据的垂直大模型,以及某化工过程的行业大模型
: 最后的结果都是一地鸡毛,花费大量的精力训出来的模型
: ...................
--
FROM 120.245.112.*
RAG在医疗、法律等垂直领域,准确率可达业务要求的95%门槛
RAG+基座模型,准确率就更高了
【 在 scramjet 的大作中提到: 】
: 分别和某头部大学,以及北京某研究所合作
: 搞海洋测绘数据的垂直大模型,以及某化工过程的行业大模型
: 最后的结果都是一地鸡毛,花费大量的精力训出来的模型
: ...................
--
修改:TexasPotato FROM 116.128.189.*
FROM 116.128.189.*
是这样的
【 在 Xjt 的大作中提到: 】
: 这玩意我在2023年就想通了。。。你们是完全没战略思维啊
: 2023年我还在研究fine-tune、lora、RHLF等等。后来想通了,这东西普通人根本没必要搞,你搞的再好,也没顶级大模型进化的快
: 对普通人,或者普通团队,研究怎么更好的使用顶级大模型,比做模型训练有意义的多
: ...................
--
FROM 120.230.74.*
ChatGPT出来本身就证明了垂直行业大模型思路不对。
大模型被称作AI本质是通用能力,推理能力,也就是“智商”。而不是记忆力。
微调大模型99%的结果是得到一个能背诵课本的弱智
--
FROM 221.197.232.*
TB级别数据太少了
【 在 scramjet 的大作中提到: 】
:前面部分我认同,海洋测绘那个数据量其实很大(接近TB级),但是问题是覆盖率依然不够,因为海洋测绘这个领域虽然数据量大,但
- 来自 水木社区APP v3.5.7
--
FROM 123.121.210.*
【 在 scramjet 的大作中提到: 】
: 分别和某头部大学,以及北京某研究所合作
: 搞海洋测绘数据的垂直大模型,以及某化工过程的行业大模型
: 最后的结果都是一地鸡毛,花费大量的精力训出来的模型
: ...................
我觉得你低估了垂类模型训练工作的复杂性
现在LLM模型的成果是建立在海量高质量数据集基础上的,这是整个学术界和产业界经过了N多年的努力和合作才实现的,也有很多类似StackOverflow/github/quora这样的训练数据来源
TB级数据量太小了
另外,你要搞的这种东西,我感觉像是lecun说的那个世界模型
还需要深度学习领域里基础理论的创新
transformer架构这种 预测next token的 根本原理 可能并不适用与你想解决的问题
毕竟世界不是3d打印出来的
--
FROM 111.196.129.*
什么叫通用,通用就是适合所有方向。垂直难道不被包含在通用里?
【 在 lbj6 的大作中提到: 】
: 那么,大公司的顶级大模型,会往垂直领域发展吗?还是保持通用?
: 发自「今日水木 on iPhone SE 2」
--
FROM 218.82.25.*