框架及模型设计(暂定) - lispc/stressanalysis GitHub Wiki

##总体框架:(基本模型->卷积模型->网络模型) ###对一条微博:

####基本模型:(微博特征->微博压力值及其来源)

以一条微博的文本特征, 图片特征, 以及时间特征为输入
输出这条微博的压力值及其压力来源(分布)

###对多条微博:

####卷积模型:(多条微博的压力值->用户的压力值)

对同一个用户的多条连续的微博, 分别使用基本模型计算得到压力值及压力来源(分布)
通过卷积神经网络
输出这些微博总体作用后的该用户的压力值

####网络模型:(多个用户的初始压力值->多个用户的最终压力值)

以用户之间的交互关系和共识关系建立网络
以某种用户间的压力传递函数定义一种压力传播模型
通过训练校正这个压力传递函数
输出在上述传递模型下的每个用户的最终收敛压力(或者中心度向量)

##具体模型设计:

###基本模型:(微博特征->微博压力值)

####文本特征:

去掉相似的微博, 去掉公众账号的微博, 去掉通过应用发布的微博

#####微博内容:

自构造词典(不仅仅是有压力的, 无压力的标签也要考虑)
连续的表情符认为是表情,在分词结果中算单字。。,。。。也算
用户名直接去掉, 去掉类似我在...http://...的地理位置报告
MDA(Modified by Degree Adverb)词:很,非常 etc. 喜欢,牛逼,讨厌 etc.
以所有词的总得分和得分的最大值为特征

#####评论及转发内容:

评论或转发层数过多, 认为已经与原微博内容无关, 直接去掉

Karma值:评论及转发内容中, 正向与负向内容的数量差(来自reddit)
直接评论及转发数:去掉评论或转发层数过多以后的评论及转发数

####图片特征:

颜色: 5元色, 冷色调率, 饱和度亮度及其contrast
纹理: LBP, Gist,FGC, FGA, BTC, FTC.
内容: BOW
分类器: SVM, PFG, LDA+SVM, EL+SVM

####时间特征:

#####发布间隔:

平均发布间隔:用户前N条微博的平均发布间隔
发布间隔增益:单次发布间隔/平均发布间隔
最近1~~3次发布间隔:用户最近1~~3次发布的时间间隔
最近1~~3次发布间隔增益:用户最近1~~3次发布间隔增益

#####发布时间:

发布时间分布:用户前N条微博的发布时间分布, 以小时为单位
正常发布时间:发布时间分布曲线的前3个极大值点对应的时间, 不足以前3大值对应的时间补全
本次发布时间:这条微博的发布时间
与正常发布时间的距离:一条微博的发布时间与正常发布时间差值的最小值
发布时间方差:用户前N条微博的中, 每一条与正常发布时间的距离的平方的平均值
发布时间方差增益:加入一条新的微博后, 新发布时间方差与原发布时间方差的差(可能为负)

###卷积模型:(多条微博的压力值->用户的压力值)

输入节点以天为单位, 同一天的连到同一个节点上进行卷积
输出用户一段时间内的压力值
优点是可以用时间为量度, 而不是微博条数为量度

###网络模型:(多个用户的初始压力值->多个用户的最终压力值)

####社交网络的建立:

节点:每一个用户
影响度:对一个用户,定义其受另一个用户的初始影响度是他们之间的共同好友数.

和另一个用户如果有相同的所在地, 性别, 标签, 则受该用户的影响度上升;

和另一个用户如果在微博中有相互回复的评论, 则受该用户的影响度上升.
边及边权:对一个用户, 选取其受其他用户影响度最大的前N个用户, 在其间建立一条边权为其影响度的单项边
点权:每一个用户的初始压力值

####传播模型:

#####相关参数

初始压力向量S(tress)_{0}
边权矩阵A(djacency matrix)
受影响参数矩阵If(lunce matrix): 对角阵或者矩阵
用户自己产生新的压力的概率p

#####迭代函数

S=S_{0}
S=(I+If)S+p*S_{0}

####可以得到的网络参数:

回复率: 回复一条评论的概率
互动比: 一个用户相对另一个用户, 互相发送信息的比例
clustering coefficient: 一个用户的朋友之间仍是朋友的概率
2级朋友数: 一个用户的朋友数+他的朋友的朋友数
embeddedness: 一个用户对其每一个朋友, 求他们的共同好友占其全部好友的比例, 最后求平均值

##相关时间安排:

第一周: 文献调研, 设计整体模型框架, 设计具体模型
第二周: 完成基本模型及网络模型, 分别验证其合理性
第三周: 完成卷积模型, 整合整体模型, 分别验证其合理性
第四周: 改进模型
第五周: 改进模型