项目开始
项目介绍

工作内容:主导公司大数据平台产品建设,涵盖 数据采集、主数据管理、数仓、数据服务、标签 几大产品。

数据采集:

  • Spider:完成 医疗POI、医院、医生、药械、医学文献、医学会议、临床研究、国自然项目、线上问诊、患者评价等内容的外部数据采集、清洗;建立了会议海报非结构化数据智能提取系统。 
  • Track:采用开源SDK进行全埋点,并和业务方协同定义了会议、活动的埋点事件及属性。

主数据管理 MDM:建立医百主数据管理系统,主要支持对 医院、医生、药品、会议海报、数据字典 进行人工编辑、审核,并创新性的将MDM的人工审核编辑机制与DW的DIM层进行有机整合。


数仓 DW

  • 采用维度建模范式;完成数仓主题域规划,和技术协同制定了数仓分层标准。
  • 提供 人、机构 的OneID产品逻辑,采用图计算进行人的ID-Mapping,采用业务规则+NLP模型进行医疗机构唯一识别与关联。 
  • DIM及DMD层:HCP(医生、护士、药师、技师、销售代表、患者、社交关系)、HCO(组织机构、医疗机构、药企、学会)、医学知识(药品、疾病、不良反应、药理分类、剂型)、学术(文献、会议、临床研究、病例)、流量(问诊、患者评价、问卷)、地点(行政区、POI)、杂项(杂项维度、日期)。
  • DWS层:企业汇总、学者汇总、KOL汇总、观众行为汇总、文献汇总、会议汇总、活动汇总、问诊汇总。


指标体系 OneIndex:采用OSM-UJM方法论结合AARRR模型,和业务方一起整理业务过程的目标、痛点、度量体系及分析逻辑,建立指标体系(含58个原子指标、70+项维度),并在数仓DWS层建立了部分指标汇总表。


数据服务 One Service:提供人、机构的ID-Mapping查询服务;支持对数仓模型按主题进行组合查询,从而避免陷入为业务进行接口定制。


标签 Tag:加工60多个HCP类型标签,完成标签系统规划及产品上线,支持衍生标签、组合标签,支持人群操作。分别评价医生对卫生机构、学术、患者、药企的影响力。基于医学知识图谱,预测医生所属科室,挖掘医生关注疾病、症状、药品、靶点、治疗方案、操作等标签。

整体规划
整体规划
MDM_医院
MDM_医生
MDM_药品
MDM_海报会议信息审核提取
数仓主题规划
 OneID
HCO_DIM
HCP_DIM
学术_DWS
杂项_Data
OneIndex