在社交媒体上追踪政治选举:应用与实践(一)

举报
开源小0分舵-shan 发表于 2019/09/19 17:16:28 2019/09/19
【摘要】 论文来自:[Tracking Political Elections on Social Media: Applications and Experience](http://xueshu.baidu.com/usercenter/paper/show?paperid=648f55b88bfb691787d23f947a77137b&site=xueshu_se)摘要近年来,社交媒体已经成为...

论文来自:[Tracking Political Elections on Social Media: Applications and Experience](http://xueshu.baidu.com/usercenter/paper/show?paperid=648f55b88bfb691787d23f947a77137b&site=xueshu_se)

摘要

近年来,社交媒体已经成为政治选举的一种媒介

分析社交媒体数据困难在于信息噪声,稀疏并且每个国家使用不同的语言此外,信息可能不完全可信,特别是宣传,促销和谣言的存在

本文中,我们使用社交媒体数据分析选举活动描述我们的工作。使用2012年美国总统选举和2013年菲律宾大选的数据,我们提供详细的实验方法,使用格兰杰因果关系来确定主题,最具有因果性的舆论,进而给出哪个选举主题是最重要的

Contribution

· 一个进行中的选举部署本系统展示社交媒体数据如何被用来检测潜在的新闻故事


•  我们使用语言独立方法来确定主题,使用在选举中最有影响力的两个选举作为实验数据集


•  最后,社交媒体中存在大量社交媒体数据用来预测,通过因果来确定选举主题和候选人的支持率。虽然我们肯定我们的系统可以作为离线民意调查和选举调查的一个替代,我们的系统可能被用来作为竞选活动中来衡量人群的情绪一个选择

系统结构

系统通过节点Hadoop集群进行构建Hadoop支持在分布式集群上进行大量数据处理的机器。Hadoop的支持以分布式方式处理群集上的大量数据。数据提取部分由Java的模块组成运行在主服务器连接到Twitter API,并且将取出的数据直接存储到HDFS数据存储在大小约等于HDFS块大小的文件


   使用系统T执行创建的规则对数据进行分析。系统T使用AQL规则进行文本分析。AQL能够Hadoop的环境中执行,基于语言的文本分析规则该规则语言是方便文本识别模式,以及通过字典、组合规则,过滤运行文本


   检测的情绪,我们利用使用系统T建立了一个基于规则的情感分析仪。AQL包含正面和负面的极性的词典并且根据语音标签部分捕获的相邻BUZZ用来标记最相近的二元组,得到一个特定术语(或二元语法)的情绪极性,而不是一般的句子的情绪

系统实施方案
image.png

推文中的话题

•长期栏目检测

    系统定义长期主题是活跃在较长的持续时间(一周或更长时间)社会讨论主题。为了鉴定这些主题,系统使用被提到最频繁的双字母组,随着候选名字生成使用候选人的支持率回归模型。利用回归模型,我们再确定最因果主题的回归所作的预测。

image.png

线性回归

image.png

因变量y是候选人的支持率,而自变量是频繁的双字母个数β是需要被估计的参数,εp代表P个数据点的误差。

image.png

ep表示预测值和真实值间的误差。通过最小二乘法调节参数β,使误差总和变得最小。

主题二元词组和排名之间的因果关系

image.png

使用时间序列观测值来推断因果效应的常用方法是格兰杰因果效应如果通过两个时间变量xy预测的模型比仅通过一个时间变量y预测的模型精确,那么就称为xy的格兰杰原因。

   通过t检验f-检验,我们发现使用两个变量比使用一个变量拥有更好的预测结果。由于我们模型使用多个特征,进行双向的格兰杰测试每个特性计算昂贵,因此我们使用套索格兰杰因果关系确定的方法。

Lasso Granger

Lasso Granger使用惩罚执行变量选择,来获得稀疏估计β系数向量

image.png

      式中,λ是惩罚参数,用于确定β的稀疏。当且仅当β是一个非零向量时,x序列会导致y序列


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。