睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

OPENBASE:知识众包平台解析

时间:2022-05-09来源:关于我的爱情浏览数:280

Openbase汇聚了知识图谱专家、工程师和上百名专业领域志愿者,持续贡献知识和数据,开源开放共享,我们是在用爱发电。

分享嘉宾:于阳 小米 知识图谱平台产品经理编辑整理:梁霖 正己基业出品平台:DataFunTalk导读:本次分享的主题是 OPENBASE 知识众包平台解析,今天的介绍会围绕下面七点展开:

OPENBASE介绍

新冠图谱建设

OPENBASE与数据众包

众包任务标注工具

如何提高标注效率

OPENBASE众包数据质量建设

浅谈众包发展趋势和OPENBASE展望

01OPENBASE介绍Openbase 致力于打造中文开放域高质量免费知识图谱。我们的宗旨就是促进中文知识库数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。Openbase最新网址:openbase.openkg.cn下面是Openbase 整体的模块结构,与区块链有联动。

Openbase 可以实现数据图谱数据的上传下载,增删改查以及审核验收,审核验收即众包模块的部分。目前通过Openkg发布的所有图谱和开源工具,以及通过Openbase 众包采集的三元组,Openkg 都在链上进行存量记录的操作,并且计算和分配贡献人员产生的荣誉值。考虑到性能的约束和必要性,我们对知识图谱的操作进行了上链,但知识库的数据本身并没有进行上链存储。Openbase 主要致力于开放数据和知识众包。目前已经收录了一亿多三元组,1151万的实体,九万多个属性,有四万七千多个标注任务的产出。Openbase 现在支持16个开放图谱的下载,包括KG4AI、农业、百科人物和佛学等等,这些数据都免费提供给大家下载。

02新冠图谱建设Openbase 有很多应用场景,这里以新冠疫情为例。新的一波疫情来临,每天都有大量关于新冠肺炎的信息分布在各种媒体网站、研究刊物和官方文件上。这些大量信息该如何整理?图谱又如何助力战胜疫情?

普通民众,想要了解相关的知识,有基本的百科需求,以及新冠治疗方面的问题;

对于官方来讲,会发布一些关于个人防护和场所防护的指导,同时也会关注疫情中物资配给的一些状态;

医护相关的工作人员,会关注疫苗和传播链等专业和流行病学领域的知识;

媒体则关注在这次事件中的一些典型英雄人物和热点的事件。

从疫情初始,我们就支持Openkg进行新冠图谱众包的建设。在平台上,目前有新冠事件、新冠英雄、新冠临床、新冠科研和百科健康,这六个相关的知识图谱。

Openkg在本次的战役中与同济大学、浙江大学、东南大学等多个高校和小米人工智能实验室等多家单位的知识图谱技术专家,联合构建了新冠病毒相关的知识库,并且采用CC-by SA 协议,完全免费开放,供大家下载使用。在Openbase 上通过离线python script 实现相关图谱知识众包任务的分配和抽样,由志愿者们完成了本次的任务。

另外,我们还推出了openbase小程序版本,可以利用碎片时间在线标注,通过几次点击,就可以贡献自己的知识,为开放图谱和战胜疫情做出贡献。

这里是新冠图谱的一些应用:

试剂盒的使用注意事项

新冠肺炎疫苗项目的进展情况

中医证型推荐处方及组成中药材的突破

确诊病例的判断依据

疾病相关的研究课题

我们通过新冠开放知识图谱的建设,将过载的信息进行整合,提高信息利用价值,为抗击疫情做出努力。

03

OPENBASE与数据众包针对这些海量数据,OPENBASE有一套完整的数据众包流程机制。众包是一种公开面向互联网大众的分布式问题解决机制。它通过整合计算机和互联网上未知的大众来完成计算机单独难以完成的任务。

数据众包的利与弊分析

使用众包模式,Openbase 可以避免产生一些额外的平台研发和运营成本。目前志愿者们都是专业人士。从抓取原始数据,确定标准到任务分发、众包协作,再到生成优质的数据,可以将数据共享、数据众包相结合。在图谱上传到我们平台后,众包志愿者会将杂乱的原始图谱数据进行体系化整理。通过循环审核,逐渐转化为优质的领域,将数据开放给公众。每个人既是贡献者,也是获益者。因为数据本身是开放的,这里还有一个美好的愿望:美好的世界一定是个开源的世界,美好的数据也将成为开放的数据。

下面是OPENBASE端到端众包任务流程图。Openbase作为平台,链接合作组织,数据需求人和志愿者,通过对需求、任务和人员进行匹配,进行项目的整体流程管理,完成图谱众包项目。Openbase的定位是一个窗口和协作者。任务机制的改版,从以领域图谱为中心转为以图谱任务为中心。区别在于,以图谱实体SPO为中心的众包项目,是对单个领域图谱的质量提升,而适配多种内容类型和标注类型的众包项目,发布的任务不局限于图谱实体,还支持文本、网页、图像,甚至设计调查问卷等……可以产出更丰富的数据。

04

众包任务标注工具“有多人工,就有多智能”。这让我想起了特斯拉的自动驾驶,倒在路中间的白色大卡车一直是摄像头识别的一个噩梦。但是通过对巨量数据的训练,将来的无人驾驶车能够识别出蓝天下的白色卡车,就是因为当年把它标出来了。在去年的特斯拉AI DAY上,AI技术负责人介绍了特斯拉如何搭建人工+自动的数据标注流水线,从2D向量空间标注变成立体的标注。

在图谱领域,更好的标注工具,其实也是Openbase 的一个建设目标。

Openbase 升级了新的任务管理后台,不再通过代码去创建任务、分发数据,大幅降低了平台的使用门槛。任务相关的所有内容平台管理员都可以根据任务需要在前端进行配置,并可以对每个任务以及用户的标注结果进行操作,不需要像以前一样做离线处理,这也区别于之前的新的任务创建和分配形式。

新版的审核验收页面优化了众包标注的体验,参考更全面,提示更清晰,由任务后台配置的屏幕提供参考资料,将需要输出的重点属性关系做醒目的标记。并且,输出的结果可以自定义,标注形式由表格的形式变为单页布局,可以放置文本或者内嵌网页等参考资料,可以适配更多任务。

05

如何提高标注效率

我们常常会遇到这样的问题:因为我们的众包标注主要还是人工标注,并且由于样本需求量大,标注人员效率提高不上去,样本也就无法跟上模型迭代。

如何提高众包标注效率,有三点:

人员:将原始标准转化为面向广大志愿者的、更通俗易懂的标注指南,加深数据理解,达成共识,规避边界模糊、易错点。这也是和标准重要性相关的、实践中最耽误效率的数据,也就是标准之外的数据。所以,数据需求方,平台方和标注志愿者,在一开始的时候一定要统一标准。

工具:采用简单一致的题型,审核-验收流水线化工作,数据无缝对接。流水线是经过实际生产工作验证过的高效形式。将复杂任务拆解成几步简单任务,可以让标注形成肌肉记忆,极大提高整体效率。

在运营方面,也就是我们常说的项目管理三角形:在预算、准确和效率上尽量取得平衡。针对标注的浮躁期,因为据经验来讲,人员连续标注大概1.5小时左右,会产生一些浮躁的心态。对于这个时间点,我们会给予一些休息或者是激励。剩余任务一眼看不到头的时候,是最容易产生浮躁和消极心态的。此时我们会给予一些停顿,或者奖励来激励志愿者。

算法工程师都知道有一句话叫做garbage in garbage out。模型效果的好坏根本上还是取决于数据的质量。训练数据对于模型的重要性也就不言而喻。

06

OPENBASE众包数据质量建设

1. 控制众包的数据质量的两条路线

如何控制众包的数据质量,这里Openbase 有两条路线:

运营手段

在运营手段上,标准培训和答疑需要透彻,我们针对每个图谱,都有单独定制的数据标准

权限考试,因为众包面向的用户群很广泛,所以要通过考试题目来过滤,考试题和试标数据的内容是一样的,相当于通过试标确认用户的水平。

抽样质检,我们分为两种,一种是平台质检,一种是需求方或源数据提供方质检。这方面有一套相应流程。

用户激励也很好理解,根据二八法则,最优质最大量的数据也就是头部用户产出的,激励头部用户会同时影响效率和质量,“工欲善其事必先利其器”。

技术手段

在众包项目过程中,有些标注人员经过高强度大量的标注后,尤其是强制任务,会产生一些抵触情绪,不排除有作弊的可能,这需要根据用户的行为模型来分析用户是否作弊。

脚本监测则是为了防止用户使用插件、机器标注来大量作弊,获取收益的行为。

用户认证,主要是为了保证用户的真实性,这也是平台一开始采用邀请制的原因。开放给公众注册后,认证用户和用户积分比较高的用户,会接取到更多项目,产生良性循环。

样本题和标准培训是控制众包数据质量的两个重要的机制。

2. 标准制定的案例

罗翔老师有一段视频值得我们思考:快饿死了,吃大熊猫还违法吗?我国法律规定,非法猎捕、杀害国家重点保护动物可能会被判处五年以上,乃至十年的有期徒刑,还要并处罚金。单纯按照这个条件,我们可以得出结论:只要吃大熊猫,肯定就是伤害了大熊猫。所以这个行为肯定是违法的,而且大熊猫特别珍贵,可能会被判重刑。

但是在数据标注领域,怎么去理解呢?这里引出了几个规则:

第一个是标注提供的基本数据内容:杀害了熊猫、熊猫属于珍稀野生动物、伤害野生也伤害珍稀野生动物、触犯刑法。

第二个是我们要输出的结果,指人的整体行为是否违法。这里要注意,并不单纯是杀害熊猫的行为是否违法,而是说快饿死了吃大熊猫的行为。

第三个是是否有其他的归类和特殊条件。通过题目可以了解到,这个人快饿死了,而法律中有一个条款叫做紧急避险的条款。

第四个是对于边界的探讨,这也是标准是否模糊的一个要点,就是饿多久算快饿死了,杀几只熊猫是必要的,没杀死是否违法。

这里我标红了一些条件要素,结合这些内容进行推理,我们可以得出与我们刚才的原始结论完全相反的一个结论。比如说一个人如果饿了六七天快饿死了,他去杀熊猫来吃,是符合紧急避险的条款的。不管他是蒸着吃还是烤着吃,人权总是要高于熊猫权的。所以这个行为符合紧急避险,不触犯刑法。当然他如果吃了一只,吃饱了,饿不死了,然后为了好玩去杀第二只熊猫,他就触犯了刑法。通过列举这些条件要素,我们可以知道:在标注规则的制定中,需要考虑以上这几个要点。通过这些思考去制定标注规则,并且将规则完善,还要深入到数据的实际应用场景中,才能将我们人的判断推理逻辑转换为代码,才能更好地提升策略。

3. 样本题机制

样本题是由任务发起人标注少量数据作为初始样本和考试题目,用户通过考试获得任务权限,再将样本随机分散至正式标注数据中,通过样本数据的准确率,可以近似得出该用户的准确率。在质检过程中,逐步筛选出优质数据,扩大样本题集合,还可以用于志愿者培训、权限考试。样本题量越大,得出的准确率也就越精确,根据统计剔除作弊用户和劣质数据,可得出整体数据效果。

07

浅谈众包发展趋势和OPENBASE展望数据众包的发展趋势:

算法和技术将会整合,所有的人工智能公司都渴望获得庞大的数据集,这些公司将采用众包的方式来获取大量的数据。行业用户之间的数据交易将越来越频繁。

在当前的环境下,人们的经济压力和工作压力会越来越大,而众包以其低门槛、时间自由的优势,可获得大量的碎片化时间人力。但众包模式的践行,仍存在一些法律和财务问题需要解决。

在三、四线城市,会出现更多专门承接外包和众包项目的“标注工厂”,以其低人力成本和受当地政策扶植(高新技术产业)的优势,部分或全部取代现有的公司自有外包标注团队。

数据训练工具的开源普及化,原本有限制或无法自己开发人工智能工具的小公司将有机会获得大量的数据,来训练和启动复杂的AI算法。

Openbase 的未来会朝着社群化、大众化和开源化发展。用户将被组织起来,形成一个个专业的小团体,而产品将会变得更加易于使用,获得更多用户成为真正意义上的众包,而不是局限于人工智能的圈子,并且平台会结合区块链的优势,继续深化开源。

最后说一句情怀,让知识从群众中来,到群众中去。Openbase汇聚了知识图谱专家、工程师和上百名专业领域志愿者,持续贡献知识和数据,开源开放共享,我们是在用爱发电。

再次感谢合作的各个企业、单位、学校以及个人志愿者,因为有你们的努力,才共同创造了Openbase 这个品牌,也欢迎大家注册成为平台志愿者,参与到我们的项目建设中。

Openbase网址: openbase.openkg.cn

今天的分享就到这里,谢谢大家。


(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询