知识图谱KG与LLM大语言模型 - bettermorn/KGCourse GitHub Wiki

可参考 【学习资源】知识图谱与大语言模型融合,wiki内容会持续更新。

模型库获取

https://modelscope.cn/models 注 下载模型需运行 git lfs install

论文综述

大型语言模型与知识图谱:机遇与挑战

https://arxiv.org/pdf/2308.06374 中文简介参考 https://www.zhuanzhi.ai/vip/a5161119cf42421e3f6757d2d29384a1 重要内容包括 4.1. LLMs 用于KGs:知识提取和规范化 4.1.1 Entity Resolution and Matching 4.1.2 Knowledge Extraction from Tabular Data 4.1.3 Knowledge Extraction from Text 4.2 LLMs for KGs: Knowledge Graph Construction 4.2.1 Link Prediction 4.2.2 LLMs for KGs: Triple Extraction from LLMs 4.3 LLMs for KGs: Ontological Schema Construction 4.3.1 Constraint and Rule Mining from KGs 4.3.2 Ontology Refinement 4.3.3 Ontology Alignment 4.4 KGs for LLMs: Training and Accessing LLMs 4.4.1 KGs for (Pre-)Training Language Models 4.4.2 KGs for Prompt Construction 4.4.3 Retrieval Augmented Methods 4.5 Application 4.5.1 Commonsense Knowledge 4.5.2 Digital Build Environment 4.5.3 Digital Healthcare 4.5.4 Domain Specific Content Search 4.1. LLMs 用于 KGs:知识提取和规范化 4.1.1 实体解析和匹配 4.1.2 从表格数据中提取知识 4.1.3 从文本中提取知识 4.2 用于KG的LLMs:知识图谱构建 4.2.1 链接预测 4.2.2 面向KM的 LLMs:从 LLMs 中提取三重知识 4.3 KG 的 LLMs: 本体模式构建 4.3.1 从KGs中挖掘约束和规则 4.3.2 本体细化 4.3.3 本体对齐 4.4 KGs for LLMs: 训练和访问 LLM 4.4.1 用于(预)训练语言模型的知识库 4.4.2 用于构建提示的 KGs 4.4.3 检索增强方法 4.5应用 4.5.1 常识性知识 4.5.2 数字化建设环境 4.5.3 数字医疗 4.5.4 特定领域内容搜索

大型语言模型与知识图谱协同研究综述:两大技术优势互补

https://mp.weixin.qq.com/s/HMCMyT0FKV5fGo4NRKSa5g 机器之心 2023年07月03日 13:00 包含以下几种方式 1)KG 增强型 LLMs,在 LLMs 的预训练和推理阶段纳入 KG,或用于增强对 LLMs 所学知识的理解; 2)LLM 增强型 KG、 3) LLMs + KGs 协同:LLMs 和 KGs 发挥同等作用,并以互惠互利的方式增强 LLMs 和 KGs,以实现由数据和知识驱动的双向推理。

图模互补:知识图谱与大模型融合综述_黄勃

[图模互补:知识图谱与大模型融合综述_黄勃.pdf] (https://www.teambition.com/project/667fd1efa88341cb56ded9e3/works/66a9ac8dd1e5fef683ce2f85/work/66aa099a37523049334474e8) 黄勃,吴申奥,王文广,杨勇,刘进,张振华,陈南希,杨洪山.图模互补:知识图谱与大模型融合综述[J/OL].武汉大学学报(理学版).https://doi.org/10.14188/j.1671-8836.2024.004

大语言模型增强的知识图谱问答研究进展综述

大语言模型增强的知识图谱问答研究进展综述 2024年9月29日 冯拓宇,李伟平,郭庆浪,王刚亮,张雨松,乔子剑.大语言模型增强的知识图谱问答研究进展综述[J/OL].计算机科学与探索.https://link.cnki.net/urlid/11.5602.TP.20240929.1255.004

基于大语言模型的时序知识图谱推理模型蒸馏方法

基于时序知识图谱的推理, 是提升智能决策效率推理未来态势的技术基础。传统推理模型面临着模型参数规模大、 计算硬件需求高等问题, 难以满足低性能、 低功耗分布式设备的实时推理决策要求。传统模型压缩方法忽略了时序特征。提出一种应用于时序知识图谱推理模型的蒸馏方法, 构建基于大语言模型的蒸馏框架, 融合海量公开知识和特定时序知识, 模型训练。在公开数据集上展开的实验表明该方法优于国际同类方法。司悦航, 成清, 黄金才, 等 . 基于大语言模型的时序知识图谱推理模型蒸馏方法 [J]. 指挥与控制学报, 2024, 10 ( 6 ):712-719

肖仰华|人工智能大模型发展的新形势及其省思

肖仰华 学术前沿杂志 2024年07月18日 肖仰华|人工智能大模型发展的新形势及其省思

EMNLP2024|从知识图谱中习得大语言模型的规划能力

论文链接 https://arxiv.org/pdf/2406.14282 代码链接:https://github.com/zjukg/LPKG 中文介绍可查看 https://www.zhuanzhi.ai/vip/d53c25d9e27dc49a4e145906f35c6941

实践案例

##《知识图谱与大模型融合实践研究报告》 2023年08月04日 12:05 中国电子技术标准化研究院发布 https://mp.weixin.qq.com/s/5oQHqiow79g90hjEuGbyvw KG与LLM融合路线 报告查看 https://github.com/bettermorn/KGCourse/blob/master/Doc/Standards/6%E3%80%81%E3%80%8A%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E4%B8%8E%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%9E%8D%E5%90%88%E5%AE%9E%E8%B7%B5%E7%A0%94%E7%A9%B6%E6%8A%A5%E5%91%8A%E3%80%8B-%E5%8F%91%E5%B8%83%E7%A8%BF-2023%E5%B9%B48%E6%9C%88.pdf

达观数据的方案

来源 https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/134343616 架构图 知识图谱大模型融合系统架构图.png

一方面大模型会利用知识图谱和用户的查询作为输入,来生成合适的问答答案。另一方面则是通过大模型生成知识图谱的检索语句,并利用图数据库执行结果的反馈来纠正可能存在的错误。最后,这些结果以提示工程的方式输入到大模型中,并生成最终的答案来实现与用户的交互。
系统的关键点在于三点:
1.大模型和知识图谱的互动,以及整个系统能够给大模型的反馈;
2.在不同任务和场景中,知识图谱会提供不同的模式(Schema)给大模型,同时知识图谱的存储系统(图数据库)可以反馈执行结果;
3.前述所提到的各种推理增强方法都可应用到这个系统中,既包括知识图谱增强大模型的推理能力(比如时间推理能力),也包括大模型增强知识图谱的推理能力(比如长路径预测)。

关键技术

肖仰华丨面向领域应用的大模型关键技术

2023年7月7日世界人工智能大会“AI生成与垂直大语言模型的无限魅力”论坛上上海市数据科学重点实验室主任、复旦大学教授肖仰华《面向领域应用的大模型关键技术》的主题分享 2023 年 8 月 10 日 如何应对大模型的幻觉现象?一本正经胡说 如何应对大模型缺乏对于给定信息的"忠实度"? 可能的优化方法

  • 提升大模型对长文本的理解能力
  • 提升复杂任务的规划和协同能力
  • 优化文本的结构化解释和风格样式
  • 提升大模型的问答领域问题的能力,包括不兜圈子直接回答、忠实于给定文档的回答以及坚定正确信念等能力 全文查看 肖仰华丨面向领域应用的大模型关键技术

实用工具

用大模型增强的知识抽取 DeepKE-LLM

https://github.com/zjunlp/DeepKE/tree/main/example/llm 注:代码可以使用,但文档有不全的地方,使用时注意调试。

InstructionKGC-指令驱动的自适应知识图谱构建

将Instruction-based KGC制定为一种遵循指令的自回归生成任务。模型首先需要理解指令识别其意图,然后根据指令内容,模型会基于输入的文本抽取相应的三元组并以指定的格式输出。本文的 instruction 格式采纳了类JSON字符串的结构,实质上是一种字典型字符串。它由以下三个字段构成: (1) 'instruction',即任务描述,以自然语言指定模型扮演的角色以及需要完成的任务; (2) 'schema',这是一份需提取的标签列表,明确指出了待抽取信息的关键字段,反应用户的需求,是动态可变的; (3) 'input',指的是用于信息抽取的源文本。

用OneKE预测结果 612ie专用模型

参考 https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/README_CN.md#612ie%E4%B8%93%E7%94%A8%E6%A8%A1%E5%9E%8B 输入和输出数据查看 https://github.com/bettermorn/KGCourse/tree/master/Lab/LLM/OneKE OneKE是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架,具备中英文双语、多领域多任务的泛化知识抽取能力,并提供了完善的工具链支持。OneKE以开源形式贡献给OpenKG开放知识图谱社区。https://modelscope.cn/models/ZJUNLP/OneKE

大型语言模型的易用指令处理框架

https://github.com/zjunlp/EasyInstruct 注:使用此框架需要 openai_api_key

GraphRAG

https://github.com/microsoft/graphrag

GraphRAG 使用一个大型语言模型(LLM)来自动从任何文本文档集合中提取丰富的知识图谱。这种基于图的数据索引最令人兴奋的特性之一是它能够在用户查询之前报告数据的语义结构。它通过以分层方式检测“社区”中密集连接的节点来实现这一点,从高级主题到低级主题在多个层次上对图进行分割,如图 1 所示。使用 LLM 总结每个这些社区,创建了数据的分层摘要,提供了一个数据集概览,无需事先知道要提出什么问题。每个社区都作为一个社区摘要的基础,描述其实体及其关系。

重磅 - 微软官宣正式在GitHub开源GraphRAG Original KGGPT 知识图谱科技 2024年07月03日 07:28 北京 https://github.com/Azure-Samples/graphrag-accelerator/在 Azure 上托管,提供了一个易于使用的 API 体验,可以无需编码地在几次点击之内部署。

  • 参考代码:https://github.com/NanGePlus/GraphragTest 说明:此代码只需准备文本raw data和大语言模型,可实现本地和全局检索。从2万字西游记文本中建立知识索引,可实现本地和全局检索,产生用Neo4j可视化的知识图谱

从知识图谱到 GraphRAG:探索属性图的构建和复杂的数据检索实践

Original Divyanshu Dixit SPG知识图谱 2024年07月31日 19:05 浙江 作者介绍:Divyanshu Dixit,Divisin.ai 联合创始人 原文链接:https://div.beehiiv.com/p/knowledge-graphs-graphrag-advanced-intelligent-data-retrieval 详细内容: https://mp.weixin.qq.com/s/_2J4VGA1CMr8ZfTHrlgUgg 教程: https://github.com/run-llama/llama_index/blob/main/docs/docs/examples/cookbooks/GraphRAG_v1.ipynb

Modular RAG

其他参考文章

大模型研发核心:数据工程、自动化评估及与知识图谱的结合 - 专知VIP