[Idea] 知识库 #863
Replies: 4 comments 2 replies
-
本地化知识库讨论 |
Beta Was this translation helpful? Give feedback.
-
技术调研报告:构建本地化知识库摘要本报告讨论了在浏览器环境中构建本地化知识库的技术选型和设计思路,旨在实现一个能与文件进行对话的能力。此过程包括文件的读取、存储、解析,以及将文本信息向量化以支持后续的大模型会话功能。 1. 文件读取与存储技术选型
设计思路文件读取采用 File API,它允许应用读取用户选择的文件内容。对于存储,将文件内容存储到 IndexedDB 中,便于后续的检索和向量化处理。 优缺点
2. 文件解析技术选型
设计思路使用特定的前端库来解析不同类型的文件内容,并考虑使用 Web Workers 来避免主线程的阻塞,特别是对于较大的文件。 优缺点
3. 文本向量化与存储技术选型
设计思路创建一个独立的 IndexedDB 表来存储文本的向量化数据。由于不需要频繁访问原始文本,分离的表结构可以专门针对向量数据进行优化。 优缺点
4. 最终方案和选择原因最终方案选择使用 File API 读取文件、IndexedDB 存储文件内容,并采用独立的表结构来存储文本的向量化数据。选择这个方案的原因是它提供足够的灵活性和性能优化空间,特别是在实现 RAG 大模型会话时,向量化数据的高效检索至关重要。 由于目前缺乏成熟且广泛支持的浏览器内向量数据库解决方案,使用 IndexedDB 加上自定义查询逻辑是一个可行的起点。随着应用的发展和性能需求的提升,可以考虑引入 WebAssembly 或服务工作者(Service Workers)来实现更高级的向量搜索功能。 |
Beta Was this translation helpful? Give feedback.
-
我是来自chatchat项目组的成员,我们是做开源、可离线部署的本地检索增强生成(RAG)大模型知识库项目。看是否有意与我们合作接入本地知识库方案,我们可以提供api接口,我们的项目地址:https://github.com/chatchat-space/Langchain-Chatchat |
Beta Was this translation helpful? Give feedback.
-
背景
本地化向量检索
使用openai embedding 后存储进本地数据库。
然后采用向量检索引擎实现本地化检索 https://github.com/tantaraio/voy
相关讨论 https://sharegpt.com/c/WS5LsIv
Beta Was this translation helpful? Give feedback.
All reactions