框架及模型设计(暂定) - lispc/stressanalysis GitHub Wiki

##总体框架:(基本模型->卷积模型->网络模型) ###对一条微博:

####基本模型:(微博特征->微博压力值及其来源)

  • 以一条微博的文本特征, 图片特征, 以及时间特征 为输入
  • 输出这条微博的压力值及其压力来源(分布)

###对多条微博:

####卷积模型:(多条微博的压力值->用户的压力值)

  • 对同一个用户的多条连续的微博, 分别使用基本模型计算得到压力值及压力来源(分布)
  • 通过卷积神经网络
  • 输出这些微博总体作用后的该用户的压力值

####网络模型:(多个用户的初始压力值->多个用户的最终压力值)

  • 以用户之间的交互关系和共识关系建立网络
  • 以某种用户间的压力传递函数定义一种压力传播模型
  • 通过训练校正这个压力传递函数
  • 输出在上述传递模型下的每个用户的最终收敛压力(或者中心度向量)

##具体模型设计:

###基本模型:(微博特征->微博压力值)

####文本特征:

  • 去掉相似的微博, 去掉公众账号的微博, 去掉通过应用发布的微博

#####微博内容:

  • 自构造词典(不仅仅是有压力的, 无压力的标签也要考虑)
  • 连续的表情符认为是表情,在分词结果中算单字。。,。。。也算
  • 用户名直接去掉, 去掉类似我在...http://...的地理位置报告
  • MDA(Modified by Degree Adverb)词:很,非常 etc. 喜欢,牛逼,讨厌 etc.
  • 以所有词的总得分和得分的最大值为特征

#####评论及转发内容:

  • 评论或转发层数过多, 认为已经与原微博内容无关, 直接去掉
  1. Karma值:评论及转发内容中, 正向与负向内容的数量差(来自reddit)
  2. 直接评论及转发数:去掉评论或转发层数过多以后的评论及转发数

####图片特征:

  1. 颜色: 5元色, 冷色调率, 饱和度亮度及其contrast
  2. 纹理: LBP, Gist,FGC, FGA, BTC, FTC.
  3. 内容: BOW
  4. 分类器: SVM, PFG, LDA+SVM, EL+SVM

####时间特征:

#####发布间隔:

  • 平均发布间隔:用户前N条微博的平均发布间隔
  • 发布间隔增益:单次发布间隔/平均发布间隔
  • 最近13次发布间隔:用户最近13次发布的时间间隔
  • 最近13次发布间隔增益:用户最近13次发布间隔增益

#####发布时间:

  • 发布时间分布:用户前N条微博的发布时间分布, 以小时为单位
  • 正常发布时间:发布时间分布曲线的前3个极大值点对应的时间, 不足以前3大值对应的时间补全
  • 本次发布时间:这条微博的发布时间
  • 与正常发布时间的距离:一条微博的发布时间与正常发布时间差值的最小值
  • 发布时间方差:用户前N条微博的中, 每一条与正常发布时间的距离的平方的平均值
  • 发布时间方差增益:加入一条新的微博后, 新发布时间方差与原发布时间方差的差(可能为负)

###卷积模型:(多条微博的压力值->用户的压力值)

  • 输入节点以天为单位, 同一天的连到同一个节点上进行卷积
  • 输出用户一段时间内的压力值
  • 优点是可以用时间为量度, 而不是微博条数为量度

###网络模型:(多个用户的初始压力值->多个用户的最终压力值)

####社交网络的建立:

  • 节点:每一个用户

  • 影响度:对一个用户,定义其受另一个用户的初始影响度是他们之间的共同好友数.

    和另一个用户如果有相同的所在地, 性别, 标签, 则受该用户的影响度上升;

    和另一个用户如果在微博中有相互回复的评论, 则受该用户的影响度上升.

  • 边及边权:对一个用户, 选取其受其他用户影响度最大的前N个用户, 在其间建立一条边权为其影响度的单项边

  • 点权:每一个用户的初始压力值

####传播模型:

#####相关参数

  • 初始压力向量S(tress)_{0}
  • 边权矩阵A(djacency matrix)
  • 受影响参数矩阵If(lunce matrix): 对角阵或者矩阵
  • 用户自己产生新的压力的概率p

#####迭代函数

  • S=S_{0}
  • S=(I+If)S+p*S_{0}

####可以得到的网络参数:

  • 回复率: 回复一条评论的概率
  • 互动比: 一个用户相对另一个用户, 互相发送信息的比例
  • clustering coefficient: 一个用户的朋友之间仍是朋友的概率
  • 2级朋友数: 一个用户的朋友数+他的朋友的朋友数
  • embeddedness: 一个用户对其每一个朋友, 求他们的共同好友占其全部好友的比例, 最后求平均值

##相关时间安排:

  • 第一周: 文献调研, 设计整体模型框架, 设计具体模型
  • 第二周: 完成基本模型及网络模型, 分别验证其合理性
  • 第三周: 完成卷积模型, 整合整体模型, 分别验证其合理性
  • 第四周: 改进模型
  • 第五周: 改进模型