【 在 scramjet 的大作中提到: 】
: 分别和某头部大学,以及北京某研究所合作
: 搞海洋测绘数据的垂直大模型,以及某化工过程的行业大模型
: 最后的结果都是一地鸡毛,花费大量的精力训出来的模型
: ...................
我觉得你低估了垂类模型训练工作的复杂性
现在LLM模型的成果是建立在海量高质量数据集基础上的,这是整个学术界和产业界经过了N多年的努力和合作才实现的,也有很多类似StackOverflow/github/quora这样的训练数据来源
TB级数据量太小了
另外,你要搞的这种东西,我感觉像是lecun说的那个世界模型
还需要深度学习领域里基础理论的创新
transformer架构这种 预测next token的 根本原理 可能并不适用与你想解决的问题
毕竟世界不是3d打印出来的
--
FROM 111.196.129.*