项目开始
项目介绍

需求背景

技术背景

2019年,联邦学习作为数据合作的新兴技术,开始在国内传播。我对其进行了学习研究,并应用到了京东数据联盟、钼媒数据平台中。

传统数据打通:把特征或标签数据整合到一方,同时利用双方数据进行训练得到模型,存在隐私数据出库、数据资产外流的弊端。

联邦学习:数据拥有方在不用给出己方原始数据的情况下,也可进行联合训练(交换加密训练参数)并得到足够准确的模型(与传统数据打通建立模型的差距很小),且训练目标为非个体信息或经过用户授权,各方无法反推他方原始数据。

纵向联邦学习

各方数据情况:ID重叠大,特征重叠小。

合规约束:特征X属于隐私数据、商业机密,不可出库;预测Y'的过程,经过用户授权或Y'不属于隐私。

使用场景:A有特征,B有部分训练样本Y及特征维度。需要在A数据不出库的条件下,优化B的预测模型。

解决问题:通过纵向联邦学习增多特征维度,帮助数据方B预测Y'。

横向联邦学习

各方数据情况:ID重叠小,特征重叠大。

合规约束:无法将ID匿名化+特征X 出库,因为特征X本身也属于可识别到个体的信息,或泄露商业机密,例如 个体轨迹、资金记录、通话记录、门店流水、租金等。

使用场景:各方原先都有预测模型,但因为样本都不够多,模型缺乏训练,模型参数不是最优。

解决问题:通过横向联邦学习增多训练样本,优化各方的模型参数。

业务痛点

问题挑战:由于法规禁止用户隐私信息交换,如何在保护个体信息不被泄露的前提下,通过交换人群ID包,跨越两个及以上数据合作方,进行人群数量统计、群体画像输出?

1、网点TA人群估算支持度差

问题描述:目前TA人群估算仅在各个数据源单侧可用,但每个数据源都存在缺陷:如标签维度不足、特定场景/城市样本渗透率不足、数据滞后等。业务侧希望在全国范围内,满足主要重点行业的目标人群分布估算。结论:行业标签的维度数量、整体样本量级的要求,无法通过单个数据源满足。且根据法务合规限制,我们不可以在个体ID级别对标签进行直接融合。

问题等级:重要紧急

问题解法:采用联邦学习方法对接多方数据源,在POI层面丰富可用的标签维度和样本量级。

2、网点POI客流估算不准

问题描述:目前用于估算网点客流的数据源,自有报点数据存在稀疏问题及场景限制问题,尤其是在出行、消费类场景不可用。运营商数据存在定位精度低(200m以上),数据提供滞后30~50天,一些城市渗透率低等问题。目前我们已对接运营商客流人数,并也使用自有报点推算出总人数,可初步满足需求。

问题等级:重要不紧急

问题解法:通过对接多方数据源,进行更准确的网点客流估算。

3、门店POI客流人数、TA人数不可用

问题描述:目前无论是自有数据、各大图商、SDK,都无法提供相对准确的到店数据。XXX可提供稀疏的真实到店数据;图商提供POI场景数据;SDK合作伙伴可提供到商城数据;自有媒体硬件 可提供准确但是数量有限的到店客流数据。

问题等级:重要不紧急

问题解法:可以结合多方数据源建立门店客流估算模型。

4、采用传统联合建模存在缺陷

需正样本(Y)出库,存在合规风险或数据资产流失

各方都可建立完整模型,进行对外售卖,造成模型资产流失

上层采用集成学习方式,总体模型效果非最优

需求场景

[P1]联合TA浓度

  • 广告投放选点:找出各重点行业广告目标客户群体的工作地、居住地、到访地,给出人群浓度值对比,从而让线下广告命中高浓度目标人群。
  • 门店选址:联合使用多方数据标签、人群行为记录,测算目标人群聚集最高的区域。

[P0]广告营销-跨场景效果测算

  • 认知→吸引环节:线下广告曝光人群,引流到线上商城的人数比例;线下/线上广告、曝光人群,引流到商场、门店的人数比例;线下广告曝光人群,发生扫码行为的人数比例;
  • 吸引→行动环节:引流到商场、门店的人群,发生交易支付的人数测算。
  • 行动→拥护环节:引流到商场、门店的人群,发生多次交易,或在线上参与品牌话题的人数。

工作内容

  • 合规方案设计:设计制定联邦学习合作方案;与法务合规部、政府合作部申报创新项目并探索合规可能性。
  • 数据联盟牵头组织:外部洽谈对接 运营商、图商、SDK 类企业,内部协调各业务部门、技术中台、风控中心、数据资产、法务合规、政府合作等部门,推进数据合作、产品研发及模型落地。
  • 联邦平台开发协调:内部组织各技术中台部门,组合产品层、算法层、数据层能力,推进企业自有知识产权的联邦学习平台开发。
  • 模型落地:广告营销联邦数据模型方案设计及落地推进。

项目成果