睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

时空伴随者:拒绝“被弹窗”,如何通过提升数据质量来确定我们一起吹过风

时间:2022-05-25来源:水紫六浏览数:237

当数据的质量合格后利用经纬度字段将数据同空间单元进行关联,建立对应关系。手机信令数据反推密接规律的核心在于获取出行链。所谓的出行链,是指研究范围的一次单独出行,比如上班出行,捕获某手机用户在上午某时刻离开之前未发生变动的活动范围(如居民住所)内,按照一定的速度位置发生不断变化,采集到系列的对应的位置出行信息,直到到达某个地点(办公场所)后,其活动范围在指定时间内和指定阈值规定的小半径范围内,即可认定从起始点到到达点之间的这次系列位置信息对应的出行轨迹为一次完整的出行链。

“我吹过你吹过的风,我们算不算相拥?算,属于密接。我走过你走过的路,我们算不算相逢?算,属于次密接……”这是最近火爆五一的一个幽默段子,在疫情严峻的当下,听听小段子,我们轻轻一笑,淡然面对后,有多少人会不禁好奇一下,大数据是如何判定我们曾相拥或相逢的?

相拥或相逢,这极致的浪漫赋予共有者一个名称----时空伴随者。

什么是时空伴随者?

时空交集与时空伴随是相同概念,是公安和电信部门的专业术语。是指本人的电话号码与确诊号码在同一时空网格(范围是800米*800米)共同停留超过10分钟,且最近14天任一方号码累计停留时长超过30小时以上,查出的号码为时空伴随号码。本人的绿色健康码就会变成带有警告性质的黄色码,并被系统标记为“时空伴随者”。

通俗地说,比如感染者14天内到过北京,而市民在14天的轨迹与其有交集,这其中,不论是身体上的擦肩而过,还是通讯信号上的漂移,都可能被认定为时空伴随。而经系统检出后,就属于风险人群中的时空伴随者,健康码就会变色。

因此,筛查“时空伴随者”可以最大程度发现潜在风险人群,将有可能感染的人群纳入到重点排查中,真正做到早期发现和防控关口前移。那么,通过手机号码提供了什么数据让我们找到这些“时空重合”的伴随着呢?----手机信令。

手机信令中有哪些数据?

手机信令数据(Mobile Signal Data),是通过手机用户在基站之间的信息交换来确定用户的空间位置,类似下面那张网格图。手机信令数据的数据空间分辨率多为基站,时间分辨率则可精确到秒,数据字段中包含时间和空间位置属性,还有通话和信息记录等信息,通过上述信息的关联可以反推用户的出行轨迹,能相对准确的记录人流的时空轨迹。

手机信令数据通常包括四个标签:用户IMSI表示手机用户的唯一标识码,时间戳TIME表示使用手机并被基站记录的时间,事件类型Event包括接打电话、收发信息或位置更新等记录,基站小区编号CellID表示信令事件发生时所在的基站小区。

机信令数据格式(图片来源于百度)

那么问题来了,如果让手机处于飞行模式、拔卡或者关机,手机信令还依旧有效吗?

这个问题的本质其实就是:手机和基站到底有没有进行“手机信令数据”的传输,说直白点,只要手机可以和基站交换数据。

无论是关闭流量,把卡还是处于飞行模式,我们不难发现,手机都可以进行临时的紧急呼叫,甚至是刚买回来的手机,即便是你不插卡,也不代表手机就不和基站有信息传递。

不仅如此,为了信号稳定,手机内置了大量的天线,都是为了尽可能主动去找到基站,并保持联系,而不是说等你要打电话的时候,它才开始找到基站。

换句话说,但凡你打开了手机,无论是飞行模式,还是拔卡,手机都是和基站交换了数据。

手机信令数据覆盖度广,与其他类型的数据相比,其具有实时性、完整性、出行时空全覆盖性等其他数据源所不拥有的优势,在各类规划中尤其是交通大数据分析中具有独特的应用优势。虽然精度到不了GPS定位那么高,但好在设备和人能够进行对应,我国的手机号码也实行的是实名制登记,对疫情管理的需求来说相对比较匹配。

手机信令中的数据百分百准确吗?

虽然手机信令数据覆盖面广,只要用户开启手机,即可捕获出行信息。但是手机信令数据并不是100%准确的。

手机信令数据不准确主要有两个原因。

原因一:人生活在城市交界位置,接收信号处于经常漫游状态,在城市的某些区域,基站数量较多,区域基站密度较大,相同的位置可能被多个基站信号所覆盖,处于该区域的手机号会因为重叠覆盖的各个基站信号强度、负荷问题发生切换,导致表现在信令数据上,该用户真实位置没有发生变化的情况下,产生多条位置切换的信令数据,即在通信领域最常遇到的“乒乓效应”。

诸如5月6日,有些人在北京住的好好的,突然“被异地”, 北京健康宝打开后收到弹窗4。

在百度中输入关键词“健康宝弹窗 误伤”,相关信息有490多万条。

原因二:手机信令数据存在海量化的特点,运算量较大,运行时间较长,尤其是在大范围、长时间的海量数据库中进行运算时,容易造成数据冗余较多、精度降低等问题,对服务器和软件的配置,以及对算法设计的精度保证等都有较高的要求,因此会带来工作人力、时间等各项成本的提高。同时,在手机进行实名制登记后手机信令数据包含大量涉及用户的个人隐私数据,如姓名、身份证号码、性别、常居住地等信息,这些敏感信息极易造成个人隐私数据的泄露,需要要求加强算法的脱敏性设计。数据脱敏不仅仅是对于客户隐私数据中的某些字段进行加密,还应避免数据之间的关联关系造成其他信息的泄露,如客人的活动轨迹特征信息等。

如何提升信令数据的准确性?

手机信令大数据用于“疫情密接”人群分析最基础的算法基础就是提取完整的出行链。为保证出行链的准确性,在明确了需求确定的数据的时间和地点范围后,明确数据库中各分表的关系和要读取的字段信息,首先要做的就是提升手机信令数据的准确性。

1、数据的筛选与清洗

根据研究的需求,提出相应的数据需求清单,梳理数据需求清单,明确需要哪些数据、需要哪些字段。比如说,某地流入的数据、某地流出的数据、驻留期间的OD出行矩阵数据等等。

同时在数据实际生产过程中,会产生大量的无效或异常数据,包括字段缺失、信息重复、信息错误的数据,以及位置冗余数据、漂移数据和乒乓数据等。因此,需要针对这些数据开展清洗工作,预处理后投入使用。

2、对空间数据进行单元划分

基站碰撞,某种意义上是基于地理位置检索的碰撞。

目前地理位置检索技术主要为基于GeoHash与Morton码两种方式,两种方式各有优缺点,但究其本质,他们的索引在命中数据后(如某一基站的数据),在磁盘上的分布方式如下图所示,为完全的随机分布。

因上述数据在磁盘上是完全的随机分布,若检索基站对应的数据点非常多,随机IO很高,则会造成整体性能尤为低下。

故我们建议修改数据的存储分布,如某一基站的数据,在磁盘上的存储方式按空间单元中的行政边界方法划定。其中,行政边界可以细化到区县、街镇、社区/行政村,并对单元数据进行全盘扫描,而后进行标准化格式转换、将字段结构、字段完整性进行查重修正并标准化。

通过这种方式,构造硬盘上的连续读取,可以大幅度的减少随机读取的次数。因常规磁盘连续读取的性能远远高于随机读写的性能,从而大幅度提升查询响应的速度。

但这种方法,只能解决数据的检索性能问题,而密切接触者查询,在检索数据完毕后,还需要根据用户ID与时间进行碰撞,进一步筛选出密切接触者。故仅仅经纬度的数据分布干预也无法完全解决同行人员查询性能问题,还需对更多数据进行关联分析。

3、数据关联分析

当数据的质量合格后利用经纬度字段将数据同空间单元进行关联,建立对应关系。手机信令数据反推密接规律的核心在于获取出行链。所谓的出行链,是指研究范围的一次单独出行,比如上班出行,捕获某手机用户在上午某时刻离开之前未发生变动的活动范围(如居民住所)内,按照一定的速度位置发生不断变化,采集到系列的对应的位置出行信息,直到到达某个地点(办公场所)后,其活动范围在指定时间内和指定阈值规定的小半径范围内,即可认定从起始点到到达点之间的这次系列位置信息对应的出行轨迹为一次完整的出行链。不同的出行链活动半径差异较大,如在城区内部的出行链,其出行距离一般为3-10公里,而城际出行,尤其是乘坐飞机、高铁出行,其单次出行距离可能超过1000公里。因此对于不同研究范围的出行链计算,最重要的是科学设定不同的阈值判定标准,从而准确提取出对应的出行信息。

相似出行链:出行轨迹吻合度达80%以上,多出现在相同交通工具搭乘者,包括高铁和飞机、出租车、自驾小汽车、公路客运班车等,但是他们在出行起点之前和终点之后的出行轨迹产生显著的变化。相似出行链则是判定相同交通工具搭乘者的重要依据。

相同出行链:出行轨迹吻合度则高达95%以上,表现在除了提取的出行链内的轨迹高度吻合外,且在出行链起始点之外的轨迹也存在较多的吻合性。较多原因是同名用户拥有2台以上手机的情况,同时也有可能是家庭内部用户的或者相同单位内部的同事出行的情况。相同出行链是数据预处理工作中视具体情况可进行筛除或者去重。

遏制疫情,万众一心,我们坚信能打赢这场战“疫”!

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询