在社交媒体上追踪政治选举:应用与实践(一)
论文来自:[Tracking Political Elections on Social Media: Applications and Experience](http://xueshu.baidu.com/usercenter/paper/show?paperid=648f55b88bfb691787d23f947a77137b&site=xueshu_se)
摘要
近年来,社交媒体已经成为政治选举的一种媒介。
分析社交媒体数据的困难在于信息噪声,稀疏,并且每个国家使用不同的语言。此外,信息可能不完全可信,特别是宣传,促销和谣言的存在。
在本文中,我们使用社交媒体数据分析选举活动描述我们的工作。使用2012年美国总统选举和2013年菲律宾大选的数据,我们提供详细的实验方法,使用格兰杰因果关系来确定主题,最具有“因果”性的舆论,进而给出哪个选举主题是最重要的。
Contribution
· 在一个进行中的选举部署本系统,展示社交媒体数据如何被用来检测潜在的新闻故事。
• 我们使用语言独立方法来确定主题,使用在选举中最有影响力的两个选举作为实验数据集。
• 最后,社交媒体中存在大量社交媒体数据用来预测,通过因果来确定选举主题和候选人的支持率。虽然我们不肯定我们的系统可以作为离线民意调查和选举调查的一个替代,我们的系统可能被用来作为竞选活动中来衡量人群的情绪一个选择
系统结构
系统通过多节点Hadoop集群进行构建。Hadoop支持在分布式集群上进行大量数据处理的机器。Hadoop的支持以分布式方式处理群集上的大量数据。数据提取部分由Java的模块组成,运行在主服务器上,连接到Twitter API,并且将取出的数据直接存储到HDFS。数据存储在大小约等于HDFS块大小的文件中。
使用在系统T执行创建的规则对数据进行分析。系统T中使用AQL规则进行文本分析。AQL是能够在Hadoop的环境中执行,基于语言的文本分析规则。该规则语言是方便从文本中识别模式,以及通过字典、组合规则,过滤等运行文本。
检测的情绪,我们利用使用系统T建立了一个基于规则的情感分析仪。AQL包含正面和负面的极性词的词典并且根据语音标签部分捕获的相邻语境。BUZZ用来标记最相近的二元组,这样得到一个特定术语(或二元语法)的情绪极性,而不是一般的句子的情绪。
系统实施方案
推文中的话题
•长期栏目检测
系统定义长期主题是活跃在较长的持续时间(一周或更长时间)社会讨论主题。为了鉴定这些主题,系统使用被提到最频繁的双字母组,随着候选名字生成使用候选人的支持率回归模型。利用回归模型,我们再确定最因果主题的回归所作的预测。
线性回归
因变量y是候选人的支持率,而自变量是频繁的双字母组个数。β是需要被估计的参数,εp代表P个数据点的误差。
ep表示预测值和真实值间的误差。通过最小二乘法调节参数β,使误差总和变得最小。
主题(二元词组)和排名之间的因果关系
使用时间序列观测值来推断因果效应的常用方法是格兰杰因果效应。如果通过两个时间变量x和y预测的模型比仅通过一个时间变量y预测的模型精确,那么就称为x是y的格兰杰原因。
通过t检验和f-检验,我们发现使用两个变量比使用一个变量拥有更好的预测结果。由于我们模型使用多个特征,进行双向的格兰杰测试每个特性计算昂贵,因此我们使用套索格兰杰因果关系确定的方法。
Lasso Granger
Lasso Granger使用惩罚项执行变量选择,来获得稀疏估计β系数向量。
式中,λ是惩罚参数,用于确定β的稀疏。当且仅当β是一个非零向量时,则x序列会导致y序列
- 点赞
- 收藏
- 关注作者
评论(0)