睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一，入选IDC企业数据治理实施部署指南。同时，在IDC发布的《中国数据治理市场份额,2022》报告中，蝉联数据治理解决方案市场份额第一。

在线免费试用 DEMO体验视频介绍

睿治智能数据治理平台

IDC蝉联数据治理解决方案市场第一

张海鹏：另类数据挖掘在风控中的应用研究

时间：2022-03-18来源：正在读取中浏览数：94次

分享嘉宾：张海鹏博士上海科技大学

编辑整理：李冠百维金科

出品平台：DataFunTalk

导读：所谓另类数据，有别于普通或者常规的数据，是那些比较小众还没有被大规模挖掘使用的数据。接下来我会给大家介绍另类数据挖掘在当前工程、以及交叉领域的一些前沿进展，最后还会给大家介绍我们课题组在风险建模方面的一些研究成果。

01何为另类数据挖掘（一个200年前的例子）

在19世纪，伦敦爆发了一场非常严重的霍乱疫情，造成了四万多人的死亡。当时学界普遍认为这场瘟疫的源头是瘴气，比如垃圾堆的气体等。有一个年轻的医生叫约翰·斯诺，他对这个观点不是特别的认同，因为他曾经在在伦敦较为脏乱的环境中生活过，也接触到了所谓的瘴气，但是他发现他本人包括他周围的人并没有因此而感染霍乱。

约翰·斯诺当时做了一个非常令人震撼的工作，他每家每户的去走访，去调研在每户地址里面感染霍乱的人员数量，然后在相应的地图位置进行记录。大家可以看到下面这个图上有一些黑色的条，一个条代表一个感染的病例，这个条越高，就代表地址的病例越多，一张霍乱传染病的疫情地图就这样绘制出来了。

这个图在现在司空见惯，但是在当时是非常领先的，他把感染数据和地图数据融合在了一起，试图通过这样一个数据挖掘和可视化的方式，去找到疫情的来源。通过这个疫情地图，他发现感染的中间核心区域有一个水泵。周围的居民都会从水泵去取水，然后他就怀疑是这个水泵受到了污染。约翰·斯诺就向伦敦市政府建议，把这个水泵拆掉，这样民众只能从其他的地方去取水。之后很快这块街区的疫情就得到了遏制。

在19世纪，伦敦的生活用水和生活污水没有做很好的隔离，可能会出现饮用水被污染的情况，所以约翰·斯诺也因此向伦敦市政府建议去修建地下的下水道系统。从某种程度上来说，这样一个另类数据挖掘的工作，也推动了社会的进步。

02当前另类数据挖掘（Nature:与人类辩论的AI）

另类数据挖掘发展到今天，已经可以去做一些人类能做的事情，甚至在某种程度上，它可以去超越人类，大家可能比较熟悉的例子是之前谷歌的AlphaGo。今天给大家分享一个例子，是刊登在2021年3月18号自然杂志上的封面文章，叫做Debater，一个人工智能的辩论系统，能够和人类的辩手展开真实的辩论赛。

这个项目历时十年，中国、美国、以色列三个国家，大概有四五十的科学家投入研发出这样一个系统，我当时也非常有幸参与到了这个项目中。以下是当时媒体对Debater的一个报道图片，就是中间这个黑色东西，在它的右侧是一个人类辩论冠军，他们展开了一场辩论。

Debater用到了深度学习技术，自然语言处理技术，和自然语音生成技术，当然还有数据挖掘的技术。这个系统主要用到了两方面数据：

新闻文本加上维基百科。他们希望能够在这样的数据里面，挖掘出相应的论点和论据，然后组成可以用于辩论的材料。下图左边这个模块里面有一个工作叫做Wikification，用于把新闻文本变成类似于维基百科那样的一个链接式的知识库。通过命名实体识别（NER），找到这些关键的信息，和现成的知识库（例如维基百科）进行关联。我当时参与了其中去歧义的部分工作，比如找到了一个关键词：苹果，那它指的是苹果手机还是吃的苹果，需要进行分析辨别。

历史人类辩论赛的数据记录。他们希望通过挖掘这样的历史辩论记录，能够提从中提取出辩论的套路，让机器了解到如何去开展一个辩论。把这个辩论的论点和论据结合的套路，形成了自己的辩论内容，这个也是系统相对比较重要的部分。

03另类数据与交叉研究（Science:卫星数据与贫困）

在经济金融研究方面，另类数据挖掘也是有着令人激动的一些进展。下面给大家介绍一篇文章，来自于斯坦福大学的团队16年发表在Science杂志上，他们用卫星图片数据去预测一些经济指标。他们的研究背景是想去消除贫困的人口，或者是对全世界上这些贫困的人口，进行相应的帮助和扶贫。

但是因为贫困的国家的数据工作不是很健全，导致可靠的贫困相关数据的缺失，无法去精准地制定扶贫政策，给人类的扶贫造成了一些困难。科学家就通过一些另类数据挖掘，试图去拟合出真实的贫困的情况。

他们主要的想法就是用卫星图片的公开数据建立模型，去预测贫困的指标。通过卫星拍摄地表的情况，通过计算机视觉的各种手段（CNN）得到它相对低维的一个特征表示，比如楼房的密度、荒芜的程度等，把这样的一些信息特征X聚合起来，再和这些代表贫困的一些经济指标Y进行关联，训练模型。

但这些Y标签其实是不具备的。因为对于不同的国家，它的GDP的数据不一定可以直接比较，而且GDP的分辨率也不高，只能精细到国家的级别，但是他们甚至想知道某一个城市甚至城市里某一个区域的级别，这个时候GDP的数据可能就帮不上忙，而且GDP的数据可能要一年才能更新一次。

后来他们找到了一个代替品，“夜晚的光照强度”，这个数据实际上也是来自于卫星照片，因为一些研究已经发现，夜晚的光照强度和当地的经济发展水平有比较强的正相关性。它有很好的连续性，相对客观而且是可比较的。这样的卫星数据，甚至可以做到一天就能更新一次，是一个非常精细和客观的代替指标。

但夜晚的光照强度，没有办法直接用来估计贫困指标。如下图所示，横轴是不同地方每天的平均资源消耗，纵轴就是夜晚光照强度。可以看到在中间它拟合的情况还可以，误差相对较小；但是头尾两侧的误差其实是很大的；其实也可以理解，因为贫困的和特别贫困的地区，夜晚一般都是黑的；富裕的和特别富裕的地区，都是最亮的；所以在两种极端的情况下，它没有特别好的区分度，但是在中间它有比较好的拟合效果。

然后他们就用中间这段数据，关联上之前的X特征（楼房的密度、区域开发程度等），训练了一个模型，拿这个模型去预测了非洲五个国家的贫困指标，效果确实很好，如下图所示。他们通过这个方式，弥补了贫困国家在调研数据方面的不足，可以帮助更好地去做扶贫工作。

04另类数据与风险（二级市场风险捕捉与建模）

下面来看一下我们课题组在对另类数据的利用，以及对风险监管方面的一些工作。这里的风险主要是针对的二级市场，比如股票市场的风控和建模。主要会介绍两个工作。

1．突发风险事件的监测和市场监管

近些年国际上经常会发生一些突然的风险事件，比如说大家印象深刻的911事件，还有2011年的福岛核泄露等，这些事件发生之后，对于当地以及全球的金融市场都造成了非常大的冲击。据我们的统计，从2000年以来，全球每年都会有超过6500起的恐怖袭击，178次以上的大型地震，还有一些其他的自然灾害，所以它并不是一个偶发的事件。

所以我们能不能及时地去发现这样的风险事件，从信息源里面去提取事件的主要信息，然后通过我们掌握的信息，去实时地预测这个事件对市场产生的影响，主要分为以下两个步骤：

市场模型的建立。这个模型的输入就是发生的风险事件及其主要信息特征，输出就是市场根据这样的事件会产生什么样的反应，是下跌以及下跌多少这样一个具体的反应。这一部分我们主要依赖于历史事件数据库，因为对于自然灾害，包括像刚刚提到的恐怖袭击，有非常详实的历史数据。我们可以利用历史数据以及更详实的市场行情数据去建立我们的预测模型。在模型的选择上，常见的机器学习模型都可以放在里面去使用。

事件的实时发现。因为刚才提到的历史的事件库，其实不是实时的，它可能是有非常长的一个时间差的，比如说我今年才能拿到去年的历史数据，那么对于市场的预测来说，这样的时间太长了。这部分我们主要是通过对实时新闻的分类及信息提取，先抽取了三个大类别恐袭，自然灾害，传染病，及其相对应的12个小类别，它们具体的信息，包括时间，地点，伤亡人数等信息。接下来我们把这个实时事件的主要信息输入到市场模型里面，它会告诉我们下一步市场会怎么样，具体走势会是怎么样。

然后我们希望能够从多个角度去描摹捕获到的这些事件，所以里面还使用到了之前提到的夜晚光照数据。因为从直觉上来想，如果说两个造成了同样伤亡的类似风险事件，但是一个发生在相对发达的地区，另外一个发生在不那么发达的地区，那么这两个事件对于金融市场的影响可能是不一样的，所以我们就希望通过夜光的数据去对不同经济发展水平的地点做描摹。

我们选定了一个特定的事件：恐袭。然后选定了三个观测的国家：以色列，西班牙，还有哥伦比亚，因为他们有比较健全的金融系统，并且这些国家每年还是会遭受恐袭的侵扰。我们使用马里兰大学建立的GTD开源数据库，它收录了1970年至今全球恐怖袭击的信息，具体包括了135个事件相关的特征。接下来我们采用了路透社的新闻数据，大概在900多万的量级。我们通过这个数据去模拟实时获取的新闻，然后进行事件的发现和抽取。

在做模型之前，我们通过一些数据的分析，发现当市场下跌越多的日子中，发现它发生恐怖袭击的比例就越高。如下图所示，B这个点，它所表示的就是所有市场跌幅超过3.4%的日子里面，有10.3%的比例发生了恐怖袭击；当市场的跌幅更大，我们看到A这个点，当市场的跌幅都超过4.1%的话，对于这些日子而言，发生了恐怖袭击的概率有12.9%，所以我们就发现恐怖袭击对市场确实存在影响。

通过分析，还发现经济越发达的地方发生恐袭，它就越可能发生市场的下跌呢。从下面这个图上，我们也可以看到A这个点，它表明的就是夜光100以上的地点，发生恐袭的话，会有49.3%的概率市场会发生下跌；当我们看到经济更发达的地方就是B这个点，对于夜光强度230以上的地区来说，如果说它们发生恐袭，将有53%的概率市场会发生下跌。所以说也说明了夜光数据在这个问题上的影响。

接下来就是具体的实验了，我们用了各种分类模型，模型准确率最高做到了接近70%。最后采用的是决策树模型，因为从解释性的角度，决策树模型它会有更好的表现。它可以告诉我们机器做出这样的判断，具体的原因是什么。黑箱模型往往只要做对就好，不负责解释原因。一旦出现问题，我们很难在很短的时间内进行故障排查。

2．国际政要的推文与市场预测

课题背景：越来越多的国际政要，他们会使用社交媒体进行发言。他们的发言对于国际局势的研判，包括金融市场的方向，有着非常重要的意义。

美国的前总统特朗普，他发表了大量的推文，当时有着超过6000万的关注者。他有时候会表达对某一些公司及其产品的看法，比如他对一个美国的军火商发牢骚，觉得他们的战机成本太高了，该军火商的市值就应声下跌；在他执政的中后期，非常关注和中国的关系，推文中有很多关于中国的内容，就在19年的时候，他发表了很多关于中国，尤其是涉及中美关税的内容，当时确实对全球市场造成了一些扰动。

但一个人是非常难以快速全面的去了解并处理这些推文，那么是不是能够用机器去做这个事情，机器了解了推文内容之后，再自动的去判定推文对市场会产生什么样的影响？我们就据此列了几个研究的问题，推文的背景信息是什么？是什么原因让他去发了这条推文？以及推文后续会产生的影响等等。

我们拟定的一个研究框架，实际上它的大体思路和我们之前提到的辩论系统，有一些相似之处。一条推文过来，我们会先对它进行一个命名实体识别，知道它里面有哪些关键的实体词语，这些实体词又和维基百科相应的概念是如何去产生对应的，做一个实体的链接，进行知识的补充。然后我们也会对推文做一些情感分析，识别它是正面、负面还是中性的推文。接着我们会用外部的新闻和推文做一个关联，尤其是他情绪的一些新闻。我们通过这样的关联可以去找到他发表这条推文可能的原因，中间也涉及到一些因果推理的工作。基于这个基础上，我们希望能够把推文的解读和市场行情的变化产生关联，从而能够对市场的风险产生一些预警，当然这还是在进展中的一个工作。

05简单的回顾

今天聊到了什么是另类数据，什么是另类的数据挖掘，也讲了一个200年之前的例子，随后我们介绍了最新的研究及工程上的一些进展，在后面还介绍了我们课题组在数据挖掘和市场风险建模之中的一些工作。希望这些内容能够起到抛砖引玉的作用。非常期待和大家做更深入的交流，也希望大家能够通过对另类数据的挖掘，找到至关重要的“水泵”，从而推动手上的工作，甚至是人类社会的进步。

今天的分享就到这里，谢谢大家。

在文末分享、点赞、在看，给个3连击呗~

分享嘉宾：

免费福利：

互联网核心应用算法宝藏书PPT电子版下载！

大数据典藏版合集PPT电子书下载！

活动推荐：

关于我们：

DataFun：专注于大数据、人工智能技术应用的分享与交流。发起于2017年，在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会，已邀请近1000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章500+，百万+阅读，13万+精准粉丝。

分享、点赞、在看，给个3连击呗！

（部分内容来源网络，如有侵权请联系删除）

立即申请数据分析/数据治理产品免费试用我要试用