油气大模型新进展:大模型和知识图谱的双向奔赴
以ChatGPT为代表的大语言模型主要应用在通用知识领域,具备关联推理能力强、人工成本低、适配能力强等优点。然而,要将大语言模型应用于垂直行业,还存在准确性(同一问题不同问法的回答不同甚至相反)、黑箱问题(无法得知推理过程和依据)、时效性问题(采用预训练方式、实时性不高)。
与之对应的,知识图谱作为知识的结构化表达,具有准确性高、可解释、扩展性强的优点。大模型和知识图谱,本质上都是知识的存储和表达形式,两者互为补充。 人工智能从通用领域走向垂直行业,需要大模型和知识图谱的进一步融合。
为了更好推动大模型在油气领域的应用,智通云联采用将知识图谱和大语言模型相结合的技术路径。采用知识图谱为大模型提供数据、约束内容范围,保证回答内容真实可信;利用大语言模型多种衍生模型,提高知识图谱构建速度、降低人工工作量。
目前,智通云联油气大模型正处于技术迭代升级阶段:将行业资料、图谱信息、数据库数据进行文本化训练,并提炼图谱信息、数据库数据作为语料进行微调训练,确保回答内容专业性;实际回答时,大模型优先获取最新信息再做出结合性回答,以保证回答内容时效性。
现阶段的智通云联油气大模型,可自动学习油气行业知识、智能识别任务类型,在描述内容中准确识别违规内容、对应法规条目,总结归纳油气行业知识、编写提纲性内容。
下一步,智通云联将联手石油石化勘探开发研究领域知名研究院,针对油气上游勘探开发相关业务,充分利用油气知识库语料,进行油气基础大模型训练、领域模型微调和强化训练,在研究类典型场景、生产类典型场景进行试点,探索油气领域大模型应用落地模式。