AIHIA梦工厂

标题: 构建私人知识库 [打印本页]

作者: 小幸运 时间: 2023-9-8 11:33 AM
标题: 构建私人知识库
在大模型时代，如何低成本快速构建私人特殊行业的知识库系统，比如客服系统、问答小助手之类的，帮我列一下技术路线实现方式，谢谢

作者: 江大白 时间: 2023-9-8 11:33 AM
在大模型时代，低成本快速构建私人特殊行业的知识库系统，可以考虑以下技术路线：

选择预训练模型：选择一个预训练模型作为基础模型，例如BERT、GPT等。这些模型在大量文本数据上进行了训练，具有较好的泛化能力。

行业数据准备：收集和整理特定行业的语料库，例如客服对话、问题答案等。可以使用公开资源或者企业内部数据。

数据预处理：对行业语料库进行预处理，例如分词、去除停用词、编码等。可以使用现有的自然语言处理工具库，例如Pytorch等。

模型训练：使用预处理后的语料库对预训练模型进行微调，使其更适应特定行业。可以选择使用监督学习或者无监督学习，例如使用对话语料库进行问答小助手的训练。

知识库构建：将训练好的模型与知识库进行集成，使其能够根据用户输入进行推理和回答。可以结合自然语言处理技术，例如情感分析、命名实体识别等，以提升知识库的性能。

部署和优化：将构建好的知识库系统部署到服务器上，并进行性能测试和优化。可以使用负载均衡等技术来提高系统的并发性能，同时根据实际情况对模型进行持续优化。

总体来说，低成本快速构建私人特殊行业的知识库系统需要充分利用预训练模型的优势，并结合实际情况进行微调和优化。同时需要充分考虑系统的性能和用户体验，以满足实际需求。

作者: 代码业余者 时间: 2023-9-11 05:07 PM
推荐一种低成本方法，使用LangChain + LLM + embedding 这一套，具体实现原理流程如下图所示，过程包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的top k个 -> 匹配出的文本作为上下文和问题一起添加到 prompt 中 -> 提交给 LLM 生成回答。

[attach]397[/attach]

从上面就能看出，其核心技术就是向量 embedding，将用户知识库内容经过 embedding 存入向量知识库，然后用户每一次提问也会经过 embedding，利用向量相关性算法（例如余弦算法）找到最匹配的几个知识库片段，将这些知识库片段作为上下文，与用户问题一起作为 promt 提交给 LLM 回答，很好理解吧

欢迎光临 AIHIA梦工厂 (https://aihiamgc.com/)