您现在的位置是:网站首页> AI人工智能
AI搭建知识库技术收集
- AI人工智能
- 2025-03-19
- 340人已阅读
AI搭建知识库技术收集
大模型RAG企业项目实战:手把手带你搭建一套完整的RAG系统
Deepseek-R1本地免费部署后 联网搜索使用教程,超简单
用rag外挂做知识问答知识库,投喂那种格式数据效果最好,给几个例子
DeepSeek训练私有知识库】更适合AI客服回答精准问题场景
Deepseek-R1本地免费部署后 联网搜索使用教程,超简单
用rag外挂做知识问答知识库,投喂那种格式数据效果最好,给几个例子
豆包:
在构建以做 tag 为目的的问答知识库时,以下几种数据格式效果较好,且能方便地进行存储、管理和检索,以下为你介绍并给出例子:
JSON 格式
特点:数据格式简洁,易于解析和处理,支持多种数据类型,适合在不同的编程语言和系统之间进行数据交换。
示例
json
[
{
"question": "什么是人工智能",
"answer": "人工智能是指计算机系统能够执行通常需要人类智能才能完成的任务,如学习、推理、解决问题等",
"tags": ["人工智能", "定义"]
},
{
"question": "人工智能有哪些应用领域",
"answer": "人工智能的应用领域包括医疗、交通、金融、教育等",
"tags": ["人工智能", "应用领域"]
}
]
CSV 格式
特点:以表格形式存储数据,结构简单,易于理解和编辑,可方便地导入到电子表格软件中进行查看和处理。
示例
csv
question,answer,tags
"什么是区块链","区块链是一个共享又不可篡改的账本,它的作用是促进业务网络中的交易记录和资产跟踪流程","区块链,定义"
"区块链有什么特点","区块链具有去中心化、不可篡改、安全透明等特点","区块链,特点"
XML 格式
特点:具有良好的可读性和可扩展性,能够清晰地表示数据的层次结构,适合用于需要严格遵循特定格式和规范的数据存储。
示例
xml
<questions>
<question>
<text>什么是物联网</text>
<answer>物联网是通过各种信息传感器等设备和技术,实现物与物、人与物之间的泛在连接,实现对物品和过程的智能化感知、识别和管理</answer>
<tags>
<tag>物联网</tag>
<tag>定义</tag>
</tags>
</question>
<question>
<text>物联网的关键技术有哪些</text>
<answer>物联网的关键技术包括传感器技术、RFID技术、网络通信技术等</answer>
<tags>
<tag>物联网</tag>
<tag>关键技术</tag>
</tags>
</question>
</questions>
kimi:
在使用RAG(Retrieval-Augmented Generation,检索增强生成)技术构建知识问答知识库时,投喂数据的格式对效果有重要影响。以下是适合RAG模型的数据格式和一些例子:
适合的数据格式
文本格式
纯文本文件(.txt):这是最简单的格式,适合直接提取文本内容。例如,将一段段落或文章直接存储为文本文件。
Markdown文件(.md):适合包含标题、列表和简单格式化的文档。
PDF文件:适合包含复杂格式(如标题、表格、图片等)的文档。需要通过工具(如PP-StructureV2)解析为文本。
结构化数据格式
CSV文件:适合表格数据,例如用户信息、产品数据等。可以将CSV文件中的每一行或每一列作为知识库的一部分。
JSON文件:适合存储具有层级结构的数据,例如问答对、知识图谱等。
多模态数据格式
文本+表格+图片:可以通过多模态嵌入模型将文本、表格和图片转换为向量,存储在向量数据库中。
数据投喂格式的例子
纯文本文件(.txt)
plaintext
复制
人工智能是一种模拟人类智能行为的技术,包括机器学习、自然语言处理等领域。
机器学习是人工智能的一个重要分支,它通过算法让计算机从数据中学习规律。
这种格式适合简单的知识输入,模型可以直接提取文本内容。
Markdown文件(.md)
markdown
复制
# 人工智能简介
- **定义**:人工智能是一种模拟人类智能行为的技术。
- **主要领域**:
- 机器学习
- 自然语言处理
- 计算机视觉
Markdown格式适合有层次结构的知识。
CSV文件(表格数据)
csv
复制
问题,答案
人工智能是什么,人工智能是一种模拟人类智能行为的技术。
机器学习的作用,机器学习通过算法让计算机从数据中学习规律。
CSV格式适合问答对或结构化数据。
JSON文件(结构化数据)
JSON
复制
{
"人工智能": {
"定义": "模拟人类智能行为的技术",
"主要领域": ["机器学习", "自然语言处理", "计算机视觉"]
},
"机器学习": {
"定义": "通过算法让计算机从数据中学习规律"
}
}
JSON格式适合包含层级结构的知识。
多模态数据(文本+表格+图片)
文本:描述性文字。
表格:数据表格(如实验数据、用户信息等)。
图片:流程图、架构图等。
这种格式适合复杂知识体系,需要通过多模态嵌入模型处理。
总结
选择哪种格式取决于知识库的内容和应用场景。纯文本和Markdown适合简单知识,CSV和JSON适合结构化数据,而多模态数据适合复杂知识体系。在实际应用中,可以根据需求选择合适的格式,以提高RAG模型的问答效果
DeepSeek
在使用RAG(Retrieval-Augmented Generation,检索增强生成)技术构建知识问答系统时,数据格式对模型效果至关重要。以下是适合RAG模型的数据格式及示例:
1. 问答对格式(Q&A Pairs)
格式说明:每个数据点包含一个问题及其对应的答案。
优点:直接提供问答对,便于模型学习问题和答案之间的映射。
示例:
json
复制
{
"question": "什么是RAG模型?",
"answer": "RAG模型是一种结合检索和生成的模型,通过检索相关文档并生成答案来解决开放域问答任务。"
}
2. 段落格式(Passages)
格式说明:每个数据点包含一段文本,通常是从文档中提取的段落。
优点:提供上下文信息,帮助模型理解答案的背景。
示例:
json
复制
{
"passage": "RAG模型由Facebook AI提出,结合了检索和生成两种技术。它首先从大规模文档库中检索相关文档,然后基于这些文档生成答案。"
}
3. 文档格式(Documents)
格式说明:每个数据点包含一个完整的文档或文章。
优点:提供更丰富的上下文信息,适合需要深入理解内容的场景。
示例:
json
复制
{
"document": "RAG模型是一种用于开放域问答的模型。它通过检索相关文档并生成答案来解决复杂问题。该模型结合了检索和生成两种技术,能够处理多种类型的问答任务。"
}
4. 带标签的段落格式(Labeled Passages)
格式说明:每个数据点包含一段文本及其对应的标签或类别。
优点:帮助模型更好地理解文本的类别或主题,提升检索效果。
示例:
json
复制
{
"passage": "RAG模型由Facebook AI提出,结合了检索和生成两种技术。",
"label": "人工智能"
}
5. 多轮对话格式(Multi-turn Dialogue)
格式说明:每个数据点包含多轮对话,每轮对话包括用户的问题和系统的回答。
优点:适合需要处理多轮对话的场景,帮助模型理解上下文。
示例:
json
复制
{
"dialogue": [
{"user": "什么是RAG模型?", "system": "RAG模型是一种结合检索和生成的模型。"},
{"user": "它有什么优点?", "system": "它能够处理开放域问答任务,并生成准确的答案。"}
]
}
6. 结构化数据格式(Structured Data)
格式说明:数据以结构化的形式(如表格、JSON等)呈现。
优点:适合处理结构化信息,便于模型快速检索和生成答案。
示例:
json
复制
{
"table": [
{"Model": "RAG", "Type": "Retrieval-Augmented Generation", "Developer": "Facebook AI"},
{"Model": "GPT-3", "Type": "Generative Pre-trained Transformer", "Developer": "OpenAI"}
]
}
7. 带上下文的问答格式(Contextual Q&A)
格式说明:每个数据点包含一个问题、答案以及相关的上下文信息。
优点:提供更丰富的上下文,帮助模型生成更准确的答案。
示例:
json
复制
{
"context": "RAG模型由Facebook AI提出,结合了检索和生成两种技术。",
"question": "RAG模型是由谁提出的?",
"answer": "Facebook AI"
}
8. 带注释的文本格式(Annotated Text)
格式说明:文本中包含注释或标记,用于指示关键信息或实体。
优点:帮助模型更好地理解文本中的关键信息。
示例:
json
复制
{
"text": "RAG模型由<organization>Facebook AI</organization>提出,结合了<technique>检索</technique>和<technique>生成</technique>两种技术。"
}
总结
选择合适的数据格式取决于具体的应用场景和需求。问答对格式适合直接生成答案,段落和文档格式适合提供丰富的上下文信息,而结构化数据格式则适合处理表格或JSON等结构化信息。根据任务需求选择合适的数据格式,可以显著提升RAG模型的效果。
DeepSeek训练私有知识库】更适合AI客服回答精准问题场景
MaxKB调优,选中自己知识库》问题》创建问题》选择关联段落
Easy Dataset数据集整理工具
目前各行各业都在积极探索微调自己行业的大模型,其实微调的过程不是难事,最难的是数据集准备的环节,高质量领域数据集的构建始终面临多重挑战,所以我之前大模型微调的教程一发出,大家问的最多的就是数据集的问题:
总结了常见问题就是这些:
完全不知道怎么做,目前就在纯人工去做,想提高效率
直接将文档丢给 AI ,但是 AI 对于大文件生成的 QA 对效果比较差
AI 本身有上下文的限制,一次不能生成太多的问题,分批生成后面又会生成重复的问题
已经有整理出来的数据集了,想有一个批量管理数据集的地方,可以进行标注和验证
对于数据集有细分领域的需求,不知道如何去构建领域标签
想要微调推理模型,但是不知道推理微调数据集中的 COT 怎么构造
想从一个格式的数据集转换成另一个格式的数据集,不知道怎么转换
目前市面上确实没有一款工具可以满足这样的需求,因此,借助 AI,我大概花了 3 个晚上的时间构建出了 Easy DataSet(https://github.com/ConardLi/easy-dataset)的第一个版本,通过系统性解决方案实现从文献解析到数据集导出的全流程闭环。
数据生成引擎:
问题批量生成:基于文本块语义,按字符密度动态生成问题(可配置),支持批量创建与中断恢复。
答案智能构建:关联原始文本块生成答案,支持推理模型(如DeepSeek-R1)生成带思维链(COT)的复杂答案。
质量校验机制:提供问题/答案的批量删除、手动编辑及AI优化(输入指令自动润色),确保数据可用。
格式生态适配:
多格式导出:支持Alpaca、ShareGPT标准格式,自定义字段映射,包含领域标签与 COT 信息。
数据集广场:聚合 HuggingFace、Kaggle 等多平台数据源,支持关键字一键检索,解决「数据从哪来」的初始难题。
上一篇:AI开发平台及框架
下一篇:AI量化交易技术收集