睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

教育知识图谱: 机遇与挑战

时间:2022-07-09来源:一半的歌浏览数:644

人工智能解决问题的重要实践方式是知识工程。知识工程旨在将人类的知识和推理能力赋予机器解决实际问题。知识工程发展到大数据时代的代表性技术就是知识图谱。

摘要:人工智能技术的快速发展为教育智能化带来重大机遇。教育信息化、数字化基础已然夯实,人工智能,特别是以知识图谱为核心的认知智能技术在教育的智能化发展过程中扮演着重要的角色。人工智能助力教育行业智能化转型、高质量发展发挥积极作用,才能彰显其独特价值。本文结合作者的一些研究与实践,对教育知识图谱的内涵与意义、应用方式、落地挑战与应对思路等展开系统性介绍。

一、什么是教育知识图谱

人工智能解决问题的重要实践方式是知识工程。知识工程旨在将人类的知识和推理能力赋予机器解决实际问题。知识工程发展到大数据时代的代表性技术就是知识图谱。知识图谱是一种大规模语义网络,富含概念、实体及各种语义关系,成为了人工智能基础设施,各类知识的重要载体,是实现认知智能的基石。教育知识图谱将碎片化、分散式的教育资源与相关实体关联成一张巨大的语义网络,为教育的智能化应用提供知识支撑。教育知识图谱通过语义网络的形式表达和沉淀了传统教育教学过程中所涉及的课程知识、教学知识、学科知识、百科知识、语言知识等。教育知识图谱侧重于实现教育相关的实体或资源的关联,包括知识点之间语义关联、知识点与学习资源之间的语义关联、知识点与术语、公式、图表等各种表达形式之间语义关联、知识点构成的概念层级关系、以及与师生(甚至机构)相关的语义关联等等。

二、教育知识图谱的意义

教育知识图谱是实现教育智能化的关键基础设施,是教育智能化实现的重要技术工具。教育知识图谱的意义从技术视角来看,其重要作用体现在以下几点:

1.知识图谱是教育知识的集中载体。教育是典型的知识密集型行业,各类学科知识、教学知识、专业知识在教育的各环节密集呈现、相互交织。教育的基本使命是实现知识在人类代际之间的连续传承。机器在教育过程中部分环节辅助甚至代替教师,首先需要具备教师的知识体系。而教育知识图谱正是一种结构化、规范化表达与承载教师经验或学科知识的技术手段。

2.知识图谱实现碎片化教学资源的关联。教育行业经过信息化、大数据时代的发展,积累了教学资源、学习过程、评估评测等类型多样的数据。这些数据以一种碎片化的形态分散在学校、教师、评估机构、教学平台等不同所有者手中,需要将碎片式的教育数据要素链接成为巨大的关联网络,创造价值。知识图谱正是通过建立碎片化教育要素的之间的关联而创造其技术价值。

3.知识图谱实现教育智能服务。知识与推理是一个智能系统的核心要素。作为教育知识的载体,教育知识图谱是教育知识引擎的核心部件,是教育智脑的重要构成,实现各种智能化教育信息服务的基础。教育知识图谱为语义搜索、个性化推荐、用户画像、智能问答、行为预测、精准分析、决策支持等一系列智能服务提供不可或缺的知识支撑。

知识图谱技术与教育各应用场景深度融合之后将会释放更大价值,对教育核心问题的解决带来机遇,将有力促进教育走上高质量发展道路,表现在以下几个方面:

提升教学效果

教学质量很大程度上取决于技术手段对于个性化教育、精准化干预的支撑程度。基于知识图谱的用户画像等技术能够实现学生学习情况、教师授课情况的精准刻画,从而对学习与教学过程进行精准干预,比如向学生针对性地推荐学习素材或练习题以强化学生薄弱知识点的掌握。知识图谱让因材施教有了更为具体的发力点。

提高教学效率

知识图谱作为背景知识能够实现优质学习资源的语义搜索和智能推荐,降低学生学习资源的获取门槛、提升资源获取效率。将常见问题组织成知识图谱实现答疑机器人,利用知识图谱实现阅卷机器人,均能较大幅度节省师生时间,提高师生互动效率。

优化教育决策

教育知识图谱既是教学过程中的重要资源,也是感知教学效果、优化教学过程的重要工具。提供个性化知识服务的同时,教育知识图谱中的实体或概念可用作学情标签帮助感知和刻画个体学生的学习情况,学生集体的学习状态,进而帮助学校和教师做出适时的、合理的教育决策,也可以作为检验知识指引并优化序列化的教育决策过程。

保障教育公正

教育知识图谱作为公共教学资源,能够借助互联网传播与服务等形式向所有学习者以一种智能化的交互方式提供优质学习资源,从而实现人工智能技术普惠,是缓解我国教育资源、教育发展不平衡等问题的重要手段。知识赋能下的应用场景,比如智能阅卷,在减轻了教师负担的同时,也能够避免人为阅卷的主观性,保证教育评测的客观与公正。

三、教育知识图谱如何应用

教育的应用场景复杂多样,对于人工智能技术有着不同的需求。需要从场景价值与技术可行性等角度仔细甄别适合知识图谱的应用场景。从当前的技术水平来看,以下几个典型的应用场景是可以直接受益于知识图谱的。

01数智教材

教材是教育最为重要的工具。发展教材的关键在于深植服务理念,深耕以教材为核心的知识服务。教材应该以一种平台化的服务形式呈现,一本经典教材应该变身成为该学科(或课程)的数字化与智能化教学与知识服务平台,系统性地集成围绕学科(或课程)学习、授课、练习、实验、评价等各环节的智能服务平台。知识图谱是驱动整个教材数化转变的知识引擎,是教材变革的助推器。

02深度阅读

阅读是人类获取知识最重要的方式之一。阅读过程本质上是知识获取的过程。通过知识图谱技术,可以将书籍自身的知识元素(知识点、实体、概念)以及书籍之外的背景知识进行关联,从而极大地拓展一本书籍所承载的有限知识容量。在内容理解、关联分析以及行为分析等技术的支撑下,可以实现个性化阅读、探索式阅读、主动推荐式阅读,因而形成深度阅读模式。早在2012年知识图谱技术诞生之初,笔者就提出基于知识图谱的深度阅读模式,并笃信知识图谱将在促进人类阅读方式变革方面有所作为。图1展示了《红楼梦》深度阅读的示例。

图1 基于知识图谱技术的《红楼梦》人物实体识别,并链接到红楼梦知识图谱百科,从而在读者阅读时,链接到背景知识。

03学科洞察

在学科教育中,尤其是高等教育的各个学科,其知识体系并非一成不变,往往处于动态发展与持续更新的过程。对于科研、教学和学科情报工作而言,需要具备足够的学科背景知识才能拥有一定的学科洞察力。学科知识图谱对于学科洞察具有积极意义,比如,学生搜索“深度学习”相关的文献,通过直接匹配论文关键字很难检索得到相关文献,但事实上标题含有“图神经网络”、“卷积神经网络”的论文均是符合要求的。显然,如果机器也拥有人类类似的学科背景知识,是能够胜任这类文献查找工作的。学科知识图谱的建立可以深化整个学科发展态势的洞察,提升科技情报服务的内涵。当前,词汇挖掘和关系挖掘等方法能够从海量学科论文、专利等语料数据自动挖掘学科术语(词汇、关键词等)及其之间的各种语义关系,构建以术语为核心的词汇知识图谱(其内涵与传统图书情报领域的叙词表相近),为学科洞察奠定了良好基础。图2展示了人工智能领域的部分词汇知识图谱。

图2 从NeurIPS会议论文集自动抽取的学科知识图谱,包含了学科术语及其之间的语义关系

04师生画像

个性化教学、精准化服务建立在学生的学情画像、教师的技能画像的基础上。而对于教师和学生的画像建立在学习资源、教学素材的画像基础之上。全面、实时、多维度的标签是精准画像的关键,是实现学习资源的语义搜索、精准推送的关键。知识图谱的标签挖掘技术可以从教育素材和资源中自动挖掘或生成大量的优质标签。标签还可以进一步组织成标签层级体系。教育知识图谱和标签体系可以增强知识点或者教学资源的语义描述,进而提升教师和学生画像完整性与精度,精准感知与刻画学情态势,为个性化的资源推荐、学习路径推荐等提供支撑,助力自适应性教学。

05智能服务

知识图谱作为背景知识有助于机器理解教育行业数据、提升机器学习的能力,实现可解释人工智能,在数据分析、语义搜索、智能推荐、问答系统、可解释决策以及文本生成中得以广泛应用。知识图谱赋能的这些应用均可以在教育场景中取得显著效果。比如通过如图2所示的以术语为核心的词汇知识图谱,有助于实现精准的学科热点分析(比如将题目含有 “CNN”与“卷积神经网络”文献进行合并统计)、学科资源语义搜索(比如搜索“CNN”召回卷积神经网络相关的文章)、学科资源的精准推荐(比如向搜索了“CNN”的学生推荐RNN相关的资料)、自然语言问答(比如对于问题 “CNN存在哪些改进模型”,经图2的简单检索可以找到GRCNN)、可解释决策(比如CNN与随机森林之间的关系可以通过图2中的相应两个节点的路径进行解释)。

四、教育知识图谱存在哪些挑战

教育知识图谱与通用知识图谱存在哪些异同,与其他领域知识图谱相比有哪些特点,这些独特之处带来了哪些技术挑战。这些问题是在开展教育知识图谱实践之前必须澄清的问题。只有深刻理解教育知识图谱的独特挑战,才可能提出解决问题的有效思路。

01类型多样

教育所涉及的知识内容丰富多样,包含课程知识、教学知识、教材知识、学科知识、百科知识、课程题库等。知识内容的多样性增加了知识获取和组织的难度。不同类型的知识需要不同的表示方式,不同的知识处理手段。例如,在教学环节,教材知识极为重要,通常需要以知识点为核心组织教材的知识体系与内容逻辑,因而需要建设以知识点之间的逻辑关系为核心、辅以知识点与其定义、公式、说明的关联关系为外围的知识点知识图谱。而考评环节的关键是考题资源,往往需要建设以考题为核心的知识图谱,包含题目与知识点、学生、老师的关联关系。在某些应用场景,比如机器辅助解题,需要进一步从题目中拆解题干、选项、答案、解释等知识要素。教育的不同环节需要不同类型的知识,需要建设不同类型的图谱。类型多样对教育知识图谱的建设提出了巨大挑战。

02粒度多样

学科中的知识点是有粒度之分的。历史学科中的玄奘西行是个重要的历史事件,是历史教学重要知识点之一。一方面可以进一步抽象归类到唐朝的宗教活动这一粗粒度知识点,另一方面也可以细分为玄奘西行的目的、时间、路线、意义等更细粒度的知识点。不同抽象层次的知识点很自然地组织成层级体系,不同的层级对应不同的知识粒度,不同的知识粒度需要不同的处理手段。比如在将具体的教学资源向合适的知识点进行挂载时,知识点的粒度有着重要影响。一般而言粗粒度挂载较为简单,细粒度挂载则相对困难。细粒度处理需十分精细的语义识别能力,比如识别一道题是否在讲玄奘西行相对容易,但将其区分为是在考察玄奘西行的目的还是意义则要相对困难的多。不同学科的知识点层级也存在差异,往往在深浅、宽度、划分的维度等方面存在差异,增加层级粒度处理复杂程度。图3给出了化学和数学两个学科的不同深浅的知识点层级结构。

图3 不同层级的知识点

左图的化学知识点层级较浅,右图数学的知识点层级较深

03多模形态

现代教育的典型特征之一就是多媒体教学手段的大量应用。多媒体教学采用诸如视频、音频等多种渠道和手段,促进教学过程的直观性和趣味性,提升学习效率。多模态手段的应用对于某些学科的知识而言是必要的,比如,很难想象如果不借助具体的图示学生如何能够理解等腰三角形这个概念。因此,教育数据往往呈现出复杂的多模态特性,这一特性多模态的教育知识图谱提出了诉求也创造了条件。如图4所示,教育知识图谱中通常需要将多模态教育数据挂载到相应的知识点。多模态知识图谱本质上实现抽象的符号化概念(知识点)向多模态实例(考题、多模态素材)的接地(Grounding)。人类的抽象概念或知识往往是通过具体经验归纳总结而得到。这些经验是具体的、可感官的,其对应的数据形态是图像与影音。因此,理解某个概念一定程度上体现为能够列举概念的某个多模态实例。总体而言,多模态知识图谱的自动化构建仍处于起步阶段。相对于研究较多的互联网环境的多模态知识图谱构建,教育知识图谱的多模态化尤为困难。其原因是教育与互联网(或消费互联网)等通用领域的多模态数据内容与形式不同,后者的多模态数据往往是人类社会的真实图像、影音,而教育领域的多模态数据多是面向教学的示意图、表格、公式、流程图、原理图。这些图表的抽象程度介于真实世界的图像与纯文本之间,其理解方式与处理手段与物理世界图像完全不同。如何高效地构建大规多模态化的教育知识图谱,如何基于教育多模态图谱进行跨模态推理、跨模态搜索、跨模态阅读理解等仍存在很大的研究空间。

图4 教育知识图谱的多模态特性

04质量控制

质量是教育的生命线,更是教育知识图谱的生命线。错误、缺失、过期的知识会对学生的学习产生误导,反而增加了学习成本。教育知识图谱的质量要求相对苛刻。然而,现有的自动化构建方法往往带来知识图谱的质量问题。一方面,自动化方法不可避免地产生错误。另一方面,教育知识图谱的数据来源也良莠不齐。教育知识图谱的质量评估与控制需要付出巨大努力,需要专家的谨慎审核。为尽量减少教育知识图谱的质量维护成本,需要一套针对教育知识图谱的质量评估和控制方法,需要对知识图谱进行准确性、时效性、完整性、一致性的全面评估,对图谱的增、删、改等操作做风险评估。

05持续更新

信息时代,知识日新月异。从知识的更新速度而言,高等教育甚于基础教育。高等教育更关注理论与技术前沿,其持续更新恰是常态。在人工智能、气候变化与碳中和、生物医药等新兴学科,研究成果加速产出,新理论、新方法、新结果层出不穷,不断刷新旧知识,补充并完善着整个学科的知识体系。因此,教育知识图谱的持续更新能力对于高等教育而言尤为重要,然而,在技术层面知识图谱的更新研究相对稀少。如何识别需要更新的知识,如何评估知识更新所带来的影响均是开放性问题。

06学科差异

不同学科的知识形式与内涵存在巨大差异,对于教育知识图谱方案的普适性提出巨大挑战,学科差异是教育知识图谱落地的挑战之一。例如,语文教学过程中注重学生对文字的感知和表达能力,课堂上以阅读、写作等形式为主,教材也以各种文学作品的解读与分析为主。而数学教学过程则大不相同,其注重学生的数理逻辑和计算能力,课堂上以答题等逻辑和计算训练形式开展教学,教材则多围绕术语提供大量的定义、解释、示例进行组织。即使是同为理科的数学和化学之间也存在很大的区别,化学更加关注真实世界化学物质的性质、合成等,而数学则主要包含抽象世界中的逻辑和计算。

不同学科间的巨大差异对于知识表示与应用提出巨大挑战。数学中需要表达数理与运算的逻辑,历史需要表达事件之间的时序关系、地理需要表达时空逻辑、物理需要表达物理规律。作为语义网络的知识图谱很难应对不同学科的知识表示需求。学科差异也对知识的获取与应用手段提出了挑战。语文、历史、政治等文科类的学科,使用大规模语言模型有可能取得比较好的效果。理科的各类学科单单文本不足以表达相应学科的基本逻辑,需要发展额外的知识表示方式,以显著提升相应学科的知识表示与应用水平。此外,各个学科之间存在紧密关系(所谓文史哲不分家、数理化不分家),跨学科的知识融合对技术提出了巨大挑战。比如牛顿的万有引力(物理)与微积分方法(数学)有着紧密联系。如何关联与融合不同学科的知识仍有待深入研究。

五、教育知识图谱如何推进

教育知识图谱的落地实践应坚持实用主义,要将知识图谱系统视作一类复杂的人机交互系统,将其落地实践视作一类典型的系统工程。坚持系统观,不能将知识图谱系统视作孤立系统,要将其置于整个教育智能化的大环境中,充分考虑与环境以及其他子系统之间千丝万缕的关系。还要坚持工程观,在成本与资源合理约束下最大化落地效果。此外,具体推进过程需要谨慎处理以下几个问题:

01定位问题

教育知识图谱作为新兴信息技术,对于教育智能化发展的具有积极作用。然而,不能简单认为教育智能化全部内容就是知识图谱建设。知识图谱只是各种知识表示的一种形式,其表达能力仍然有待进一步拓展与提升,在教育领域的应用模式仍有待深入探索与验证。基于知识图谱的教育智能化发展,是机器智能循序渐进发展,逐步代替人类教育工作者的部分工作的过程。认知智能在行业的应用水平大致会经历新手、工匠、大师三个阶段。在新手阶段,认知智能通过领域知识的初步掌握能够实现类似文献查找的功能(比如教育中的学习资料检索)。在工匠阶段,认知智能通过专家知识能胜任一些复杂问题的推理与决策(比如教育中答疑解惑)。在大师阶段,认知智能习得了海量教育数据中所蕴含的隐形知识并通过解释与反思等手段以人类可理解的符号形式表达出来。即便实现第一阶段目标,就已经能够实现教育行业极大的提质提效。

02场景问题

推进基于知识图谱的教育智能化最迫切的任务是准确识别知识能解决问题的合适场景。我们的应用往往分为模式内蕴或者背景关联两类。所谓模式内蕴的任务是指其答案可以单纯从数据中获得。所谓背景关联是指解决某个任务需要输入之外的背景知识。比如识别一幅图是猫还是狗,不需要关联到什么背景知识就能完成。但是,没有丰富的背景知识要让机器理解“关公战秦琼”的不合理是很困难的。不难发现教育领域有着太多的背景关联类的任务。这类任务恰是知识图谱的用武之地。此外,数据稀疏的场景也往往需要借助知识图谱。“数据不够,知识来凑”,但凡数据不充分所导致的应用效果低下的场景,往往也是知识图谱能够发挥显著效力之处。寻找适合的场景需要跨学科的知识背景,需要对于教育本身有着深刻的理解,同时对知识图谱等技术的本质有着深入的理解。

03人的作用

面对各阶段教育教学繁多的学科,单一专家来梳理全部学科的知识体系是不现实的。同样地,让机器完全自主、绝对自动化的构建教育知识图谱也是不现实的,教育知识图谱的建设需要机器和人的协作,二者缺一不可。机器智能的发展仍然需要人类为其设定认知框架(比如本体设计)、反馈结果好坏(比如样本标注)、验证事实对错(比如知识验证)。以知识点体系梳理为例,上层的知识体系涉及理解一个学科的思维方法,只有教育专家才能胜任。但是对于细粒度知识点的资源挂载任务而言,海量的教育资源使得人类专家难以胜任,恰恰需要机器自动化完成。人机协作是教育知识图谱的保质保量完成构建的关键。

04视角问题

知识是人类认知世界的结果,人类的认知存在主观性。不同的认知主体,不同的认知视角,均会产生不同认知结果。教育知识图谱建设过程中面临着同样的问题。学习者、教学者、管理者往往对教育的理解是不尽相同的,普通教师、专家教师对于统一教学内容的看法也往往存在差异。因而教育实践中往往需要从不同视角表达同一主题的知识图谱。一类图谱不能也不必表达所有视角,不同视角的图谱往往只需共享一个相同的内核,在此内核基础上不同视角需要进行相应知识内容的扩展或调整,以满足不同的需求。

05应用指引

知识图谱技术需要融入到教育的典型应用中。教育知识图谱的边界、内容、粒度均需要从实际应用出发进行合理界定。教育知识图谱的建设与应用必须形成闭环,从应用寻求反馈与指引才能更好地建设知识图谱,才能保障知识图谱的效用。应用引领、以用促建,是教育知识图谱落地应该坚持的基本原则之一。

06标准化与灵活性

教育知识图谱的建设是否需要遵循标准化规范?标准化是保障知识图谱系统集成、发挥知识图谱产业生态的集成效应的重要保障。但标准化需要结合实际应用,需要建立在具体实践案例的基础之上。不能脱离应用实际空泛谈论标准化,要让标准化建立在多样化的具体的实践案例基础之上。应在推进标准化的同时,充分考虑教育知识图谱实践的实际情况,做到标准化与灵活性兼顾。

六、教育知识图谱如何发展

当前阶段,基于知识图谱的教育智能化实践初显成效。在各学科专家的指导下,知识工程师能够完成覆盖学科主要知识单元与重要知识点的教育知识图谱构建,并能将少量精选的教育资源以规则匹配为主的方式挂载到教育知识图谱的对应知识点上。基于知识点与教育资源知识图谱,实现了教育资源的智慧搜索、智能推荐,针对特定学科实现了一些智慧阅卷的智能化功能,在一定程度上提升了教师教学和学生自学的效率。

然而,现阶段的教育知识图谱及其智能化成果还远远无法惠及“教、学、练、测、评、研、管、服”等全链条中的各教学环节。具体来说:

1)以文字表达为主的学科知识点,难以准确全面刻画复杂场景、多模态数据中的知识点或教学资源;

2)以专家手工构建为主的知识图谱构建方式,无法满足大规模教育资源关联的需求,难以满足新兴学科的快速发展;

3)以规则匹配为主的资源挂载方式,无法实现海量教育教学资源向细粒度知识点的自动挂载;

4)人工判定为主的教育资源质量评判方式,难以满足数据驱动方法所构建出的大规模教学知识图谱的质量评估;

5)教育知识图谱的应用模式与知识图谱在消费互联网领域的应用模式趋同,仍然需要巨大努力挖掘教育知识图谱的独特应用模式。

为了应对教育知识图谱研究与应用的上述问题,仍需在以下方面做出努力:

增强以知识图谱为核心的教育知识表达能力

应针对学科的差异,深入研究以图谱为核心的不同学科的知识表示方式;拓展教育知识图谱的内涵,拓展教育核心实体的类型与语义关系的多样性;探索多模态的教育知识表示方式;探索教育知识图谱与预训练语言模型的融合表示方式;研究基于这些新型知识表示方式的推理方法。

提升教育知识图谱的构建能力

研究多模态教育知识图谱构建、教育资源的知识点自动挂载、教育知识图谱自动更新等关键技术;研究面向教案、教材、考题与教学视频等不同类型教育数据的知识获取技术;研究学科知识体系与概念层级的自动化或半自动化构建技术;研究可迁移、可泛化的教育知识图谱构建技术,大幅降低教育知识图谱的构建成本;开展以术语、图表、公式、定义、引用、作者、机构、专家为核心的高等教育知识图谱建设。

研究教育知识图谱的应用技术

丰富教育知识图谱应用场景,研究基于教育知识图谱的语义搜索、精准推荐、用户画像、学习路径规划、教学评估、考查考评、学科洞察以及可解释的学情诊断,探索教育知识图谱的独特应用场景,深挖教育知识图谱的潜在价值,实现基于教育知识图谱的自适应学习、个性化学习。

建立教育知识图谱完整的质量评估体系

建立教育知识图谱的质量评测体系,研究相应的评测方法,开展教育知识图谱评测数据集构建;探索预训练语言模型与教育知识图谱的联合评价机制;建立教育应用驱动与反馈下的知识图谱评测方法;实现教育知识图谱的客观可信评价,保障教育知识图谱的高质量建设,提升教育知识图谱的应用效果。

总结

教育智能化征程已经开启,基于知识图谱的教育智能化将会进入发展的快车道。教育智能化应用将牵引知识图谱技术向领域认知的纵深方向持续发展。知识图谱技术也将持续助力教育的高质量发展。最后作出以下提醒。教育是人类的最伟大事业之一。基于知识图谱的教育智能化一定程度上实现了教育的提质增效,其本质是在辅助教师完成“授业”或者“解惑”的工作,然而以培养人的内在品质为核心的“传道”仍然难以假手于机器,这或许正是教师工作者无法推脱的根本使命。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询