社交网络算法相关 - Jeffrey511/Jeffrey-Yu GitHub Wiki
社交网络算法 (1)应用场景: 在社交网络中社区圈子的识别; 基于好友关系为用户推荐商品或内容; 社交网络中人物影响力计算; 信息在社交网络上的传播模型; 虚假信息和机器人账号的识别; 互联网金融行业中的反欺诈。
(2) 身份伪冒、伪造数据、篡改手机信息等欺诈方式 欺诈模式:可以分为一方欺诈和三方欺诈 一方欺诈通常指骗子来申请贷款后没有还款意愿造成违约。 三方欺诈指欺诈分子借用冒用他人身份或协助他人伪造申请信息进行骗贷。
(3) 基本假设:骗子紧密关联人是骗子概率大,正常还款用户的朋友正常还款的概率大。 中介(或者本身就是团伙)进行集中贷款申请的风险非常高。
反欺诈重要思路就是不断的提高欺诈分子作弊的成本,并且保障反欺诈策略准确性情况下使反欺诈策略能召回更多的欺诈行为。
(4)用户关系网络图构建:目的是提升欺诈识别的效果和效率; 1.强关系类: 用户之间共用某些核心信息(存在紧密联系); 核心信息可以是手机设备、电话号码、身份证、银行卡号、邮箱等,这些信息作为点,信息之间关系构造为边, 形成用户之间图网络模型;
2.弱关系类: 用户之间打过电话;用户属于同一单位;用户家庭住址在同一区域;用户之间是qq好友关系等;
3.构建图中每个点时,对点赋予不同的属性,可以用于特征工程提取 比如对图中用户身份证类型顶点,可以设置多个属性, 比如是否黑名单、用户资产、是否有房; 根据用户顶点属性衍生具体特征(如一度关联身份证是黑名单的顶点个数)
(5) 社交网络挖掘出用户更多的特征用于反欺诈模型和策略的训练 1.用户图特征提取 单个用户可以通过手机、身份证等关键点信息,获取单个用户网络的连通图(查询效率非常低); 对每个点计算其在图中常用的属性特征:比如度、接近中心度、page rank中心度、betweenness
用户其他点相关特征: 用户n度关联点的关联手机号数、 用户关联到的设备号占所有关联点的比例、 用户关联的黑名单身份证号数
特征计算实现标准化:通过开发单独特征工程模型实现特征的自动计算。
2.点属性标签补全 为获得点的标签属性,可以通过图相关的社群发现算法进行标签补全,比如标签传播算法LPA,或SLPA、HANP、DCLP等 点标签属性:比如对某一身份证,是否黑名单、是否有房、是否信用卡额度超过3万
问题:1.噪音数据干扰,用户拨打10086/或者被400拨打,无关系却被联系到一起; 2.用户贷款较独立,单个用户图规模较小,无足够已标记数据进行标签传播,标签传播的覆盖率较低。
模型常见问题: 1.冷启动 2.样本不平衡问题:过采样oversampling、欠采样undersampling 处理样本 即对违约样本进行
满足一个条件即会被筛选,是并集 df[(df['B']>1) | (df['C']<1)]
多个条件同时满足,连接使用,是交集 df[(df['B']>1) & (df['C']<1)]
选取多列, 内测方括号 df[['B','D']][df['D']>0]
字符串模糊筛选,pandas 用.str.contains() df.loc[df['区域'].str.contains('四川')]
也可以多个条件同时筛选,用'|' df.loc[df['区域'].str.contains('四川|A')]