框架及模型设计(暂定) - lispc/stressanalysis GitHub Wiki
##总体框架:(基本模型->卷积模型->网络模型) ###对一条微博:
####基本模型:(微博特征->微博压力值及其来源)
- 以一条微博的文本特征, 图片特征, 以及时间特征 为输入
- 输出这条微博的压力值及其压力来源(分布)
###对多条微博:
####卷积模型:(多条微博的压力值->用户的压力值)
- 对同一个用户的多条连续的微博, 分别使用基本模型计算得到压力值及压力来源(分布)
- 通过卷积神经网络
- 输出这些微博总体作用后的该用户的压力值
####网络模型:(多个用户的初始压力值->多个用户的最终压力值)
- 以用户之间的交互关系和共识关系建立网络
- 以某种用户间的压力传递函数定义一种压力传播模型
- 通过训练校正这个压力传递函数
- 输出在上述传递模型下的每个用户的最终收敛压力(或者中心度向量)
##具体模型设计:
###基本模型:(微博特征->微博压力值)
####文本特征:
- 去掉相似的微博, 去掉公众账号的微博, 去掉通过应用发布的微博
#####微博内容:
- 自构造词典(不仅仅是有压力的, 无压力的标签也要考虑)
- 连续的表情符认为是表情,在分词结果中算单字
。。
,。。。
也算 - 用户名直接去掉, 去掉类似
我在...http://...
的地理位置报告 - MDA(Modified by Degree Adverb)词:很,非常 etc. 喜欢,牛逼,讨厌 etc.
- 以所有词的总得分和得分的最大值为特征
#####评论及转发内容:
- 评论或转发层数过多, 认为已经与原微博内容无关, 直接去掉
- Karma值:评论及转发内容中, 正向与负向内容的数量差(来自reddit)
- 直接评论及转发数:去掉评论或转发层数过多以后的评论及转发数
####图片特征:
- 颜色: 5元色, 冷色调率, 饱和度亮度及其contrast
- 纹理: LBP, Gist,FGC, FGA, BTC, FTC.
- 内容: BOW
- 分类器: SVM, PFG, LDA+SVM, EL+SVM
####时间特征:
#####发布间隔:
- 平均发布间隔:用户前N条微博的平均发布间隔
- 发布间隔增益:单次发布间隔/平均发布间隔
- 最近1
3次发布间隔:用户最近13次发布的时间间隔 - 最近1
3次发布间隔增益:用户最近13次发布间隔增益
#####发布时间:
- 发布时间分布:用户前N条微博的发布时间分布, 以小时为单位
- 正常发布时间:发布时间分布曲线的前3个极大值点对应的时间, 不足以前3大值对应的时间补全
- 本次发布时间:这条微博的发布时间
- 与正常发布时间的距离:一条微博的发布时间与正常发布时间差值的最小值
- 发布时间方差:用户前N条微博的中, 每一条与正常发布时间的距离的平方的平均值
- 发布时间方差增益:加入一条新的微博后, 新发布时间方差与原发布时间方差的差(可能为负)
###卷积模型:(多条微博的压力值->用户的压力值)
- 输入节点以天为单位, 同一天的连到同一个节点上进行卷积
- 输出用户一段时间内的压力值
- 优点是可以用时间为量度, 而不是微博条数为量度
###网络模型:(多个用户的初始压力值->多个用户的最终压力值)
####社交网络的建立:
-
节点:每一个用户
-
影响度:对一个用户,定义其受另一个用户的初始影响度是他们之间的共同好友数.
和另一个用户如果有相同的所在地, 性别, 标签, 则受该用户的影响度上升;
和另一个用户如果在微博中有相互回复的评论, 则受该用户的影响度上升.
-
边及边权:对一个用户, 选取其受其他用户影响度最大的前N个用户, 在其间建立一条边权为其影响度的单项边
-
点权:每一个用户的初始压力值
####传播模型:
#####相关参数
- 初始压力向量S(tress)_{0}
- 边权矩阵A(djacency matrix)
- 受影响参数矩阵If(lunce matrix): 对角阵或者矩阵
- 用户自己产生新的压力的概率p
#####迭代函数
- S=S_{0}
- S=(I+If)S+p*S_{0}
####可以得到的网络参数:
- 回复率: 回复一条评论的概率
- 互动比: 一个用户相对另一个用户, 互相发送信息的比例
- clustering coefficient: 一个用户的朋友之间仍是朋友的概率
- 2级朋友数: 一个用户的朋友数+他的朋友的朋友数
- embeddedness: 一个用户对其每一个朋友, 求他们的共同好友占其全部好友的比例, 最后求平均值
##相关时间安排:
- 第一周: 文献调研, 设计整体模型框架, 设计具体模型
- 第二周: 完成基本模型及网络模型, 分别验证其合理性
- 第三周: 完成卷积模型, 整合整体模型, 分别验证其合理性
- 第四周: 改进模型
- 第五周: 改进模型