在社交媒体上追踪政治选举:应用与实践(二)
实验及结果
•Twitter 数据
通过Twitter API ,获得在2012年9月7日和11月7日收集了3700多篇推 文,除了微博原文还要获取以下内容:
①推文名称和Twitter作者ID
②为避免推文是一个转发,记录推文名称和Twitter原作者Tweeter
ID
③为避免推文是一个响应,记录推文名称和Twitter父推文作者ID
④推文的Twitter ID
⑤推文发布的日期和时间。
格兰杰因果分析
•通过使用预测变量和二元词语组运行套索格兰杰回归模型,我们确定了影响预测的二元词组(长期主题)。我们发现227个二元词组影响奥巴马的选举和183个二元词组影响罗姆尼的选举。 • 从表1看出,二元词组“税”,“就业增长”,“本·拉登”,“汽车救援”等被认为是有助于奥巴马支持率。米特·罗姆尼因果双字母组的包括一些带有负面情绪,例如,“奥巴马撒谎”,“失败的政策”等。
在美国大选选举日预测支持率
•我们使用现有最近七天的数据训练模型,用来预测在选举日的结果。我们的模型预测的奥巴马获得47.8%的支持率,米特·罗姆尼获得47.2%的支持率。 • • •我们还在推特中使用候选人提及作为人气估计(通常用于以前的工作),并能够发现会获得明确的奥巴马,但预测的候选人的投票却比从实际投票少了很多。 所以我们发现提及候选人的推文数量和每日支持率之间没有相关性。 最后,奥巴马获得了2012年美国总统大选,总票数的50.8%。
在菲律宾选举中的应用
•我们使用收集利用候选人,政党,竞选活动等数据为关键字寻找相关的推文。共分析从2013年3月20日到2013年5月13日共750万推文 • •通过系统,能够根据社交媒体得到突发新闻。例如,在选举日当天,我们的工具发现有缺陷的投票机(defective voting machines)作为新兴的主题。在媒体内部的记者根据这个主题进行新闻报道,远远提前于其他媒体。
结论与思考
•在本文中,我们描述了我们在选举期间追踪社交媒体的工作,并在现场选举中展示如何在衡量公众情绪。我们展示了我们在两个截然不同的地理区域和选举制度。 我们发现,对于一些大规模的活动,社交平台可能提供信息超前于传统的新闻来源。 虽然许多关于社交媒体的讨论更具反应性,但在我们的部署过程中,我们发现新事件首先在Twitter上传播的情况(传统媒体滞后几个小时)。 • •思考:
①文中处理数据的方式是离线的,需要大规模的工程,是否可以将文中的方法应用于在线处理
②不仅在政治选举中应用社交媒体,是否可以在体育赛事,电影宣传过程中也应用
- 点赞
- 收藏
- 关注作者
评论(0)