基于联邦学习的多方数据联盟联合建模,联邦学习

项目开始

周二, 10/15/2019 - 12:00

标签

联合建模

联邦学习

项目介绍

需求背景

技术背景

2019年，联邦学习作为数据合作的新兴技术，开始在国内传播。我对其进行了学习研究，并应用到了京东数据联盟、钼媒数据平台中。

传统数据打通：把特征或标签数据整合到一方，同时利用双方数据进行训练得到模型，存在隐私数据出库、数据资产外流的弊端。

联邦学习：数据拥有方在不用给出己方原始数据的情况下，也可进行联合训练（交换加密训练参数）并得到足够准确的模型（与传统数据打通建立模型的差距很小），且训练目标为非个体信息或经过用户授权，各方无法反推他方原始数据。

纵向联邦学习

各方数据情况：ID重叠大，特征重叠小。

合规约束：特征X属于隐私数据、商业机密，不可出库；预测Y'的过程，经过用户授权或Y'不属于隐私。

使用场景：A有特征，B有部分训练样本Y及特征维度。需要在A数据不出库的条件下，优化B的预测模型。

解决问题：通过纵向联邦学习增多特征维度，帮助数据方B预测Y'。

横向联邦学习

各方数据情况：ID重叠小，特征重叠大。

合规约束：无法将ID匿名化+特征X 出库，因为特征X本身也属于可识别到个体的信息，或泄露商业机密，例如个体轨迹、资金记录、通话记录、门店流水、租金等。

使用场景：各方原先都有预测模型，但因为样本都不够多，模型缺乏训练，模型参数不是最优。

解决问题：通过横向联邦学习增多训练样本，优化各方的模型参数。

业务痛点

问题挑战：由于法规禁止用户隐私信息交换，如何在保护个体信息不被泄露的前提下，通过交换人群ID包，跨越两个及以上数据合作方，进行人群数量统计、群体画像输出？

1、网点TA人群估算支持度差

问题描述:目前TA人群估算仅在各个数据源单侧可用，但每个数据源都存在缺陷：如标签维度不足、特定场景/城市样本渗透率不足、数据滞后等。业务侧希望在全国范围内，满足主要重点行业的目标人群分布估算。结论：行业标签的维度数量、整体样本量级的要求，无法通过单个数据源满足。且根据法务合规限制，我们不可以在个体ID级别对标签进行直接融合。

问题等级：重要紧急

问题解法：采用联邦学习方法对接多方数据源，在POI层面丰富可用的标签维度和样本量级。

2、网点POI客流估算不准

问题描述:目前用于估算网点客流的数据源，自有报点数据存在稀疏问题及场景限制问题，尤其是在出行、消费类场景不可用。运营商数据存在定位精度低（200m以上），数据提供滞后30~50天，一些城市渗透率低等问题。目前我们已对接运营商客流人数，并也使用自有报点推算出总人数，可初步满足需求。

问题等级：重要不紧急

问题解法：通过对接多方数据源，进行更准确的网点客流估算。

3、门店POI客流人数、TA人数不可用

问题描述：目前无论是自有数据、各大图商、SDK，都无法提供相对准确的到店数据。XXX可提供稀疏的真实到店数据；图商提供POI场景数据；SDK合作伙伴可提供到商城数据；自有媒体硬件可提供准确但是数量有限的到店客流数据。

问题等级：重要不紧急

问题解法：可以结合多方数据源建立门店客流估算模型。

4、采用传统联合建模存在缺陷

需正样本（Y）出库，存在合规风险或数据资产流失

各方都可建立完整模型，进行对外售卖，造成模型资产流失

上层采用集成学习方式，总体模型效果非最优

需求场景

[P1]联合TA浓度

广告投放选点：找出各重点行业广告目标客户群体的工作地、居住地、到访地，给出人群浓度值对比，从而让线下广告命中高浓度目标人群。
门店选址：联合使用多方数据标签、人群行为记录，测算目标人群聚集最高的区域。

[P0]广告营销-跨场景效果测算

认知→吸引环节：线下广告曝光人群，引流到线上商城的人数比例；线下/线上广告、曝光人群，引流到商场、门店的人数比例；线下广告曝光人群，发生扫码行为的人数比例；
吸引→行动环节：引流到商场、门店的人群，发生交易支付的人数测算。
行动→拥护环节：引流到商场、门店的人群，发生多次交易，或在线上参与品牌话题的人数。

工作内容

合规方案设计：设计制定联邦学习合作方案；与法务合规部、政府合作部申报创新项目并探索合规可能性。
数据联盟牵头组织：外部洽谈对接运营商、图商、SDK 类企业，内部协调各业务部门、技术中台、风控中心、数据资产、法务合规、政府合作等部门，推进数据合作、产品研发及模型落地。
联邦平台开发协调：内部组织各技术中台部门，组合产品层、算法层、数据层能力，推进企业自有知识产权的联邦学习平台开发。
模型落地：广告营销联邦数据模型方案设计及落地推进。

项目成果

完成数据联盟第一个联邦项目落地，实现POI客流预测三方联合训练及推理；
日度POI客流预测P30指标达90%，服务6个内外部系统；
节省数据采买经费上亿元；
获得中国信息通信院&中国通信标准协会 2020数据资产管理大会-隐私计算优秀案例奖