云社区 博客 博客详情
云社区 博客 博客详情

搜狗微信下线了怎么获取公众号文章?手把手教你最新获取方式

lateautumn4lin 发表于 2019-11-04 23:18:17 11-04 23:18
lateautumn4lin 发表于 2019-11-04 23:18:17 2019/11/04
0
0

【摘要】 最近发现搜狗微信在2019.10.29号的时候悄然下线了一个功能,也就是不能在搜狗搜索中指定公众号的名称。对于某些需要时常获取最新公众号文章的人来说是个巨大的打击,那么如何用其他方式拿到微信公众号文章呢?现在,教你一种最新的方式!

   

关于微信公众号《云爬虫技术研究笔记》可以看到更多哦!

背景

  最近发现搜狗微信在2019.10.29号的时候悄然下线了一个功能,也就是不能在搜狗搜索中指定公众号的名称,如下图

1240


  很多媒体以及社区也在讨论相关的话题

1240


1240

  这样的话,我们就没有办法准确的搜索到某个公众号的最新的文章了,所以我们要是想要去实时追踪到某个公众号的最新文章的话,就不能通过搜狗这个渠道来爬取了。
  于是,我整理了一下截止目前的微信公众号的爬取方式

  1. 搜狗微信渠道(已放弃)

  2. AnyProxy+Appium

  3. X-Wechat-Key(万能key)

  4. Hook微信,获取微信公众号推送
      比较一下这几种方式

  • 第二种的话使用模拟人工操作的自动化工具,AnyProxy的话可以替换成MitmProxy,也就是做一个中间人拦截的作用,具体的话可以看看陈文管的博客来看看具体操作,不过中间人拦截在App层面总会有些隐患。

  • 第三种的话在业界统称为微信万能key,也就是像公众号文章点赞、阅读什么的都需要通过这个Key来进行操作,所以一些黑产(刷赞、刷阅读量)什么的都喜欢拿这个东西搞,获取Key的话无非就是逆向重写源码逻辑或者HookKey,这个目前市面上暂时没有相关的文章。

  • 最后一种就是我们今天要采取的方式了,就是Hook微信的公众号推送,因为逻辑上公众号推送也是微信官方向我们发送消息的过程,我们可以Hook这个过程,每当收到推送我们就采取我们自己的一些处理逻辑,这样在设计上来说是四种中最“实时”的。

实战

  实战方面参考了四哥的文章做了些改进,下面我们开始边分析边实战

  讲一个常识,像微信这种社交类的App,我们和对方在发消息的过程中的聊天记录都是会保存在我们本地,所以我们通常都能看到我们的聊天记录,也可以清理他们,所以如果我们想要拦截微信的消息的话,就得Hook微信的Insert方法,也就是他们插入数据库的方法。
  那我们该从哪里入手呢?相信大家百度搜索Hook微信的时候都会搜到一类内容,就是如何解密微信本地的数据库,而微信在我们手机上的存储位置又有一个关键词--EnMicroMsg.db,这个就是我们的入口,我们需要在微信源码中全文搜索这个词,我们使用的微信是6.5.3,工具是Jadx,实际操作如下

1240



1240


  我们搜索出EnMicroMsg.db之后就要每个结果去分析看哪个是比较有“眼缘”的结果。我们可以看到,第三条名字是onSQLExecuted,嗯?有点像,跟进去看看。

1240


  主要看最后一条,引用了另一个方法进行存储,再跟进去

1240


  看到了涉及数据库的Help类,我们猜测这个类应该是一个辅助类,那么Insert方法应该在这个类下面,我们在这个类中搜索

1240


1240


  好的,我们跟到这里能够看到很直观的Sql语句拼接的过程,那么这个方法的参数应该是我们收到的消息的值,只要Hook这个方法,我们就可以去拿到插入数据库时的值了。

1240


  代码片段就是这个样子,下面我们把这个代码打包成Apk,勾选,重启Xposed,下面可以发送消息测试看看效果了。
  我们首先先用另一个微信号给我们自己发送普通的消息

1240


  看到这里,Content的字段,值就是我们发送的1
  接着我们再用另一个微信号给我们发送公众号文章

1240


1240


  可以看到一大段代码,我们看到Reversed字段是由很多乱码和字段以及值组成的,那么我猜测微信内部实现了一个解码工具,如果我们能够Hook到这个解码工具,是不是就可以获取到解码之后的正确数据了呢?说到解码,根据微信以往的数据传输来看,这些数据很有可能是以XML的格式进行传输的,既然涉及到xml,那就一定是键值对的形式,我们去到的数据中除了有乱七八糟的小方块,还有诸如“.msg.appmsg.category.item”这类看起来有用的内容。
  我们在全文搜索一下

1240


  奇怪?我们并没有发现什么值得的东西?怎么回事,回想一下是不是我们发送的消息有问题?对!我们应该拿的是微信公众号的推送,而不是别人向我们推的公众号文章,那我就用我的公众号给我自己推一个预览消息,结果如下

1240


  我们再根据刚才的逻辑,全文搜索msg.appmsg.mmreader.category.item,之后我们一个个分析,看到下面这个部分,跟进去

1240


  我们查看这一段代码,看到下面这个部分有我们之前拦截到的消息的参数

1240


1240


1240


  我们发现我们需要的字段的值都来自于Yd,而Yd来自于az.Yd,那很可能这个就是我们想要Hook的解密器,我们跟进去看看

1240


  这段代码看起来很像是解码的,话不多说,Hook试试!

1240


1240


  不出我们的猜想,这个方法果然是,我们再进行解析,得到如图的效果。


总结

这次Hook算是比较简单的案例,主要是寻找Hook方法的思路,把微信公众号的推送当成一个消息,我们去Hook这个消息存入数据库的过程从而得到原生数据,再找到原生数据解密的地方,从而通过Hook原生数据解密的方法得到正确的解码数据,最后完成我们的实时获取微信公众号推送的目的。

坑点

  1. 代码只是完成了功能,在额外的微信风控部分、Xposed检测部分估计还需要做额外工作。

  2. 项目基于手机微信来开发,需要保持手机常开,稳定性需要额外考虑。

注意:  项目已经完成,想要获得源码可以关注下面的微信号,回复“hook微信公众号”即可获得项目地址以及现成的Apk

号主介绍

strip

  • 前两年在二线大厂工作,目前在创业公司搬砖

  • 接触方向是爬虫云原生架构方面

  • 丰富的反爬攻克经验以及云原生二次开发经验

  • 其他诸如数据分析黑客增长也有所涉猎

  • 做过百余人的商业分享以及多次开办培训课程

  • 目前也是CSDN博客专家华为云享专家

strip

1240

震惊 | 只需3分钟!极速部署个人Docker云平台

深入理解Python的TLS机制和Threading.local()

我为什么不建议你使用Python3.7.3?

下一代容器架构已出,Docker何去何处?看看这里的6问6答!!

1240

公众号内回复“私藏资料”即可领取爬虫高级逆向教学视频以及多平台的中文数据集

strip

1240


免责声明: 本文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请读者自负。


登录后可下载附件,请登录或者注册

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:huaweicloud.bbs@huawei.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
评论文章 //点赞 收藏 0
点赞
分享文章到微博
分享文章到朋友圈

评论 (0)


0/1000
评论

登录后可评论,请 登录注册

评论

您还没有写博客的权限!

温馨提示

您确认删除评论吗?

确定
取消
温馨提示

您确认删除评论吗?

删除操作无法恢复,请谨慎操作。

确定
取消
温馨提示

您确认删除博客吗?

确定
取消

确认删除

您确认删除博客吗?

确认删除

您确认删除评论吗?

温馨提示

登录超时或用户已下线,请重新登录!!!

确定
取消