不用RAG有分析总结长PDF的方法吗

水木社区手机版

主题:不用RAG有分析总结长PDF的方法吗
楼主|wangstone|2025-03-14 22:01:51|只看此ID
目前用RAG,Embedding后他只调用几个片段，漏掉很多信息，且割裂严重
就不能让模型直接载入PDF总结分析吗。。。
--
FROM 124.79.118.*
1楼|nowan|2025-03-15 14:08:47|只看此ID
你自己搜一遍也可以，不用依赖rag  ，限制就是漏掉同义词，自己搜的时候就用同义词搜，我就这么干的

【在 wangstone (王二) 的大作中提到: 】
:  目前用RAG,Embedding后他只调用几个片段，漏掉很多信息，且割裂严重
:  就不能让模型直接载入PDF总结分析吗。。。
:  --
:
--
FROM 202.120.235.*
2楼|wangstone|2025-03-15 16:31:09|只看此ID
不行吧，载入都载入不进去

【在 nowan 的大作中提到: 】
: 你自己搜一遍也可以，不用依赖rag ，限制就是漏掉同义词，自己搜的时候就用同义词搜，我就这么干的
--
FROM 124.79.118.*
3楼|nowan|2025-03-15 23:48:44|只看此ID
搜索引擎可以读pdf，建索引，搜完了喂给模型整理答案

【在 wangstone (王二) 的大作中提到: 】
:  不行吧，载入都载入不进去
:
:  【在 nowan 的大作中提到: 】
:  : 你自己搜一遍也可以，不用依赖rag  ，限制就是漏掉同义词，自己搜的时候就用同义词搜，我就这么干的
--
FROM 222.67.64.*
4楼|upndown|2025-03-16 21:19:24|只看此ID
具体怎么做？本地部署搜索引擎？

【在 nowan 的大作中提到: 】
: 搜索引擎可以读pdf，建索引，搜完了喂给模型整理答案
--
FROM 39.149.15.*
5楼|stevenwyy|2025-03-17 11:55:34|只看此ID
是不是embedding模型的维度少了？

【在 wangstone (王二) 的大作中提到: 】
:  目前用RAG,Embedding后他只调用几个片段，漏掉很多信息，且割裂严重
:  就不能让模型直接载入PDF总结分析吗。。。
:  --
:
--
FROM 117.143.100.*
6楼|nowan|2025-03-17 11:56:33|只看此ID
文档规模不大的话，python自带的搜索库就行，wooshu，发音是这个拼写忘了

【在 upndown (每天锻炼2小时为祖国健康工作100年) 的大作中提到: 】
:  具体怎么做？本地部署搜索引擎？
:
:
:  【在 nowan 的大作中提到: 】
--
FROM 220.196.194.*
7楼|wangstone|2025-03-17 12:24:11|只看此ID
现在的RAG一般好像就引用3-5个片段，太长的无法阅读完全
另外片段片段之间整合成问题

【在 stevenwyy 的大作中提到: 】
: 是不是embedding模型的维度少了？
--
FROM 58.246.240.*
8楼|ToSimplicity|2025-03-17 12:58:32|只看此ID
不能转成html全部prompt么，现在模型输入上限高
--
FROM 148.135.22.*
9楼|larryxin|2025-03-18 10:45:14|只看此ID
现在rag只能读pdf吗?我看例子都是读pdf文件
--
FROM 112.45.178.*