- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2022-05-09来源:关于我的爱情浏览数:358次
Openbase汇聚了知识图谱专家、工程师和上百名专业领域志愿者,持续贡献知识和数据,开源开放共享,我们是在用爱发电。
OPENBASE介绍
新冠图谱建设
OPENBASE与数据众包
众包任务标注工具
如何提高标注效率
OPENBASE众包数据质量建设
浅谈众包发展趋势和OPENBASE展望
01OPENBASE介绍Openbase 致力于打造中文开放域高质量免费知识图谱。我们的宗旨就是促进中文知识库数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。Openbase最新网址:openbase.openkg.cn下面是Openbase 整体的模块结构,与区块链有联动。
普通民众,想要了解相关的知识,有基本的百科需求,以及新冠治疗方面的问题;
对于官方来讲,会发布一些关于个人防护和场所防护的指导,同时也会关注疫情中物资配给的一些状态;
医护相关的工作人员,会关注疫苗和传播链等专业和流行病学领域的知识;
媒体则关注在这次事件中的一些典型英雄人物和热点的事件。
从疫情初始,我们就支持Openkg进行新冠图谱众包的建设。在平台上,目前有新冠事件、新冠英雄、新冠临床、新冠科研和百科健康,这六个相关的知识图谱。
Openkg在本次的战役中与同济大学、浙江大学、东南大学等多个高校和小米人工智能实验室等多家单位的知识图谱技术专家,联合构建了新冠病毒相关的知识库,并且采用CC-by SA 协议,完全免费开放,供大家下载使用。在Openbase 上通过离线python script 实现相关图谱知识众包任务的分配和抽样,由志愿者们完成了本次的任务。
另外,我们还推出了openbase小程序版本,可以利用碎片时间在线标注,通过几次点击,就可以贡献自己的知识,为开放图谱和战胜疫情做出贡献。
这里是新冠图谱的一些应用:
试剂盒的使用注意事项
新冠肺炎疫苗项目的进展情况
中医证型推荐处方及组成中药材的突破
确诊病例的判断依据
疾病相关的研究课题
我们通过新冠开放知识图谱的建设,将过载的信息进行整合,提高信息利用价值,为抗击疫情做出努力。
03
OPENBASE与数据众包针对这些海量数据,OPENBASE有一套完整的数据众包流程机制。众包是一种公开面向互联网大众的分布式问题解决机制。它通过整合计算机和互联网上未知的大众来完成计算机单独难以完成的任务。
数据众包的利与弊分析
04
众包任务标注工具“有多人工,就有多智能”。这让我想起了特斯拉的自动驾驶,倒在路中间的白色大卡车一直是摄像头识别的一个噩梦。但是通过对巨量数据的训练,将来的无人驾驶车能够识别出蓝天下的白色卡车,就是因为当年把它标出来了。在去年的特斯拉AI DAY上,AI技术负责人介绍了特斯拉如何搭建人工+自动的数据标注流水线,从2D向量空间标注变成立体的标注。
在图谱领域,更好的标注工具,其实也是Openbase 的一个建设目标。
Openbase 升级了新的任务管理后台,不再通过代码去创建任务、分发数据,大幅降低了平台的使用门槛。任务相关的所有内容平台管理员都可以根据任务需要在前端进行配置,并可以对每个任务以及用户的标注结果进行操作,不需要像以前一样做离线处理,这也区别于之前的新的任务创建和分配形式。
新版的审核验收页面优化了众包标注的体验,参考更全面,提示更清晰,由任务后台配置的屏幕提供参考资料,将需要输出的重点属性关系做醒目的标记。并且,输出的结果可以自定义,标注形式由表格的形式变为单页布局,可以放置文本或者内嵌网页等参考资料,可以适配更多任务。
05
如何提高标注效率我们常常会遇到这样的问题:因为我们的众包标注主要还是人工标注,并且由于样本需求量大,标注人员效率提高不上去,样本也就无法跟上模型迭代。
如何提高众包标注效率,有三点:
人员:将原始标准转化为面向广大志愿者的、更通俗易懂的标注指南,加深数据理解,达成共识,规避边界模糊、易错点。这也是和标准重要性相关的、实践中最耽误效率的数据,也就是标准之外的数据。所以,数据需求方,平台方和标注志愿者,在一开始的时候一定要统一标准。
工具:采用简单一致的题型,审核-验收流水线化工作,数据无缝对接。流水线是经过实际生产工作验证过的高效形式。将复杂任务拆解成几步简单任务,可以让标注形成肌肉记忆,极大提高整体效率。
在运营方面,也就是我们常说的项目管理三角形:在预算、准确和效率上尽量取得平衡。针对标注的浮躁期,因为据经验来讲,人员连续标注大概1.5小时左右,会产生一些浮躁的心态。对于这个时间点,我们会给予一些休息或者是激励。剩余任务一眼看不到头的时候,是最容易产生浮躁和消极心态的。此时我们会给予一些停顿,或者奖励来激励志愿者。
算法工程师都知道有一句话叫做garbage in garbage out。模型效果的好坏根本上还是取决于数据的质量。训练数据对于模型的重要性也就不言而喻。
06OPENBASE众包数据质量建设
1. 控制众包的数据质量的两条路线
如何控制众包的数据质量,这里Openbase 有两条路线:
运营手段
在运营手段上,标准培训和答疑需要透彻,我们针对每个图谱,都有单独定制的数据标准。
权限考试,因为众包面向的用户群很广泛,所以要通过考试题目来过滤,考试题和试标数据的内容是一样的,相当于通过试标确认用户的水平。
抽样质检,我们分为两种,一种是平台质检,一种是需求方或源数据提供方质检。这方面有一套相应流程。
用户激励也很好理解,根据二八法则,最优质最大量的数据也就是头部用户产出的,激励头部用户会同时影响效率和质量,“工欲善其事必先利其器”。
技术手段
在众包项目过程中,有些标注人员经过高强度大量的标注后,尤其是强制任务,会产生一些抵触情绪,不排除有作弊的可能,这需要根据用户的行为模型来分析用户是否作弊。
脚本监测则是为了防止用户使用插件、机器标注来大量作弊,获取收益的行为。
用户认证,主要是为了保证用户的真实性,这也是平台一开始采用邀请制的原因。开放给公众注册后,认证用户和用户积分比较高的用户,会接取到更多项目,产生良性循环。
样本题和标准培训是控制众包数据质量的两个重要的机制。
2. 标准制定的案例
罗翔老师有一段视频值得我们思考:快饿死了,吃大熊猫还违法吗?我国法律规定,非法猎捕、杀害国家重点保护动物可能会被判处五年以上,乃至十年的有期徒刑,还要并处罚金。单纯按照这个条件,我们可以得出结论:只要吃大熊猫,肯定就是伤害了大熊猫。所以这个行为肯定是违法的,而且大熊猫特别珍贵,可能会被判重刑。
第一个是标注提供的基本数据内容:杀害了熊猫、熊猫属于珍稀野生动物、伤害野生也伤害珍稀野生动物、触犯刑法。
第二个是我们要输出的结果,指人的整体行为是否违法。这里要注意,并不单纯是杀害熊猫的行为是否违法,而是说快饿死了吃大熊猫的行为。
第三个是是否有其他的归类和特殊条件。通过题目可以了解到,这个人快饿死了,而法律中有一个条款叫做紧急避险的条款。
第四个是对于边界的探讨,这也是标准是否模糊的一个要点,就是饿多久算快饿死了,杀几只熊猫是必要的,没杀死是否违法。
这里我标红了一些条件要素,结合这些内容进行推理,我们可以得出与我们刚才的原始结论完全相反的一个结论。比如说一个人如果饿了六七天快饿死了,他去杀熊猫来吃,是符合紧急避险的条款的。不管他是蒸着吃还是烤着吃,人权总是要高于熊猫权的。所以这个行为符合紧急避险,不触犯刑法。当然他如果吃了一只,吃饱了,饿不死了,然后为了好玩去杀第二只熊猫,他就触犯了刑法。通过列举这些条件要素,我们可以知道:在标注规则的制定中,需要考虑以上这几个要点。通过这些思考去制定标注规则,并且将规则完善,还要深入到数据的实际应用场景中,才能将我们人的判断推理逻辑转换为代码,才能更好地提升策略。3. 样本题机制
样本题是由任务发起人标注少量数据作为初始样本和考试题目,用户通过考试获得任务权限,再将样本随机分散至正式标注数据中,通过样本数据的准确率,可以近似得出该用户的准确率。在质检过程中,逐步筛选出优质数据,扩大样本题集合,还可以用于志愿者培训、权限考试。样本题量越大,得出的准确率也就越精确,根据统计剔除作弊用户和劣质数据,可得出整体数据效果。
07
浅谈众包发展趋势和OPENBASE展望数据众包的发展趋势:算法和技术将会整合,所有的人工智能公司都渴望获得庞大的数据集,这些公司将采用众包的方式来获取大量的数据。行业用户之间的数据交易将越来越频繁。
在当前的环境下,人们的经济压力和工作压力会越来越大,而众包以其低门槛、时间自由的优势,可获得大量的碎片化时间人力。但众包模式的践行,仍存在一些法律和财务问题需要解决。
在三、四线城市,会出现更多专门承接外包和众包项目的“标注工厂”,以其低人力成本和受当地政策扶植(高新技术产业)的优势,部分或全部取代现有的公司自有外包标注团队。
数据训练工具的开源普及化,原本有限制或无法自己开发人工智能工具的小公司将有机会获得大量的数据,来训练和启动复杂的AI算法。
Openbase 的未来会朝着社群化、大众化和开源化发展。用户将被组织起来,形成一个个专业的小团体,而产品将会变得更加易于使用,获得更多用户成为真正意义上的众包,而不是局限于人工智能的圈子,并且平台会结合区块链的优势,继续深化开源。
最后说一句情怀,让知识从群众中来,到群众中去。Openbase汇聚了知识图谱专家、工程师和上百名专业领域志愿者,持续贡献知识和数据,开源开放共享,我们是在用爱发电。
再次感谢合作的各个企业、单位、学校以及个人志愿者,因为有你们的努力,才共同创造了Openbase 这个品牌,也欢迎大家注册成为平台志愿者,参与到我们的项目建设中。
Openbase网址: openbase.openkg.cn
今天的分享就到这里,谢谢大家。
下一篇:数据治理总体解决方案...