- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

终于搞定了回家车票

技术火炬手发表于 2019/01/09 14:58:24 2019/01/09

【摘要】快要春节了，老板发话：'提前完成工作可以提前回家'；于是老猫每天加班加点赶进度，估计提前1周回家；正当老猫沉浸在幸福之时，老板过来关心问我：'老猫，车票买了吗，买不到晚几天走吧，那会好买'；忽然有种被算计的感觉！

快要春节了，老板发话：'提前完成工作可以提前回家'；于是老猫每天加班加点赶进度，估计提前1周回家；正当老猫沉浸在幸福之时，老板过来关心问我：'老猫，车票买了吗，买不到晚几天走吧，那会好买'；忽然有种被算计的感觉！！

人无远虑必有近忧，车票是个大问题，老猫要买的车票这两天放票；于是每天发动同事帮我抢票，可是连续两次都没抢到；老猫有点慌了，买不到车票怎么办？

那么多车票，为什么好几个人抢连续两天都抢不到；

老猫分析其中可能存在原因，分析过程如下：

购票流程分析：

1>老猫买的是比较紧张的车次，抢票人数远远大于出票数量；
2>每次抢票和网速，手速有一定关系；
3>虽然感觉每次手动购票速度很快，但是购票人数多，手速快的也很多，对比而言也就不快了。

购票中存在影响因素：

老猫又仔细分析了网页购票过程：

1>登录，验证码与密码登录；
2>刷票，选择始发站，终点站，日期，车次；
3>出票后点击预购；
4>等待排队，选择乘车人；

理论上大家刷票过程都是一样的，但是几个因素会影响我们购票结果：

1>第一步登录，这个没有问题，老猫和大家都会提前登录；
2>第二步：先看个示意图：

老猫提前选择好车次等信息，到出票时刻点击刷票；但是网速与浏览器渲染页面速度，可能会影响下一步操作；
3>刷票之后，如果出现购买车次，马上点击预购，这里会和自己手速有关，几百毫秒过去了，老猫可能已经排在几百人之后了；
4>点击预购,出现下面页面：

这里考验手速：点击购票人与订单提交，然后凭天由命吧。

结合上面分析：抢热点车次，真有点撞大运的感觉。如何解决问题呢？

1>使用第三方软件代购或者购买加油包；
2>拼车回家；

出去安全考虑，还是应该选择第一个方式。但是老猫有点好奇，为什么第三方软件或者加油包能够购买成功？老猫猜测可能原因：

老猫认为每个账号就是一个购票者，这些账号由脚本控制，到时间点开始抢票，脚本速度肯定要比人的速度快，所有购买成功几率要大于认为操作。以上部分构成纯属瞎猜，如有雷同，纯属巧合。
这样来看，老猫除了和几万个人竞争，还要和第三方软件竞争，所以热点车次的车票更难买到了。这样大家也就理解为什么第三方软件购买成功几率更大。
为了验证这个猜测，老猫打算使用Pyhon脚本自动登录12306，说干就干。

1：登录过程分析：

12306的验证码是比较恶心的，每次弄得不清楚，还整一些不认识的东西；老猫曾经连续10次选择错误，最后系统警告我刷码频繁，最后只能让人代买。
12306网页版登录过程分下面几个部分：

1>输入用户名与密码，如果不输入，登录提示错误；
2>图片验证;
2>账号与密码验证；

这里我们来看后两个步骤：

1.1 验证码分析

我们先借助浏览器分析登录行为;
a）输入用户名与密码，界面如下：

b）点击刷新，更新验证码：
为了防止失效，看到效果，我们刷新验证码；
请求地址：https://kyfw.12306.cn/passport/captcha/captcha-image64?
请求参数：

{    'login_site': 'E',    'module': 'login',    'rand': 'sjrand',    '1546822674059':'',#当前时间戳，
    'callback': 'jQuery19109060005139400158_1546821765087',#使用固定值
    '_': '1546821765097'#1546821765097，通过浏览器观察：每次请求值加1}

c）选择验证码并登陆（尝试错误选择，观察结果）：
过程如下：

查看请求信息：

验证失败，应答信息为：

jQuery19109060005139400158_1546821765087({"result_message":"验证码校验失败","result_code":"5"});

d）图片验证分析：
图片验证请求地址：https://kyfw.12306.cn/passport/captcha/captcha-check? ；
请求参数：

{    'callback': 'jQuery19109060005139400158_1546821765087',#与上一步请求验证图片相同
    'answer': '111,52,109,96',#根据图片选择点击位置
    'rand': 'sjrand',    'login_site': 'E',    '_': '1546821765102'#每次请求值加1,}

e）如何选择点击位置？
有下面几种方式：

1>机器学习图片识别（设计内容较多，准确率不敢保证）；
2>云打码（老猫自己没有折腾）；
3>将图片下载下来，自己选择位置，手动填入位置；

老猫实现方式：

1>观察请求信息，坐标应该是正确图片大概位置，
2>图片信息：小图长宽为70，
第一排坐标：（35,35）,（105,35）,（175,35）,（245,35）；
第二排坐标：（35,105）,（105,105）,（175,105）,（245,105）；
3>根据图片提示，选择对应位置图片，然后返回坐标；例如选择0,1，返回值：
35,35,105,35

如果选择成功，应答消息中会有"验证码校验成功"信息；
我们根据上面分析来使用代码完成这一过程。

2：验证码处理：

老猫将其过程分析下面几步：

1>下载图片，然后打开图片查看；
2>输入正确图片位置，获取坐标；
3>提交验证；

实现需要知识点：

1>requests模块，cookie管理；
2>Python基本知识点与面向对象编程；

实现思路：

1>通过浏览器获取当前callback值；
2>请求并保存验证码；
3>手动打开图片，输入正确位置，获取坐标；
4>请求验证，如果验证失败重复2~4步骤；

验证码验证代码实现：

import reimport base64import jsonimport requestsimport timeclass login12306:
    #初始化
    def __init__(self, callback, nums, headers):
        self.callback = callback
        self.nums = nums
        self.headers = headers
        self.s = requests.Session()
        self.fpath = './code.jpg'
    #发起请求
    def do_request(self, req_type='GET', url='',pdata=None, jdata=None):
        if req_type == 'POST':
            req = req = requests.Request(req_type, url, data=pdata, \
                                         json=jdata,headers=self.headers)        else:
            req = requests.Request(req_type, url, params=pdata, \
                                   headers=self.headers)
        pre = self.s.prepare_request(req)        try:
            resp = self.s.send(pre, timeout=3)            return resp        except:            return None
    #获取验证码坐标
    def gen_pointlist(self):
        #提示输入位置
        indexs = input('input 1~8 : \n')
        width = 35
        points = []
        select = []        #生成图片对应位置
        for i in range(0, 8):
            points.append([(i) % 4 * width * 2 + width, width * (i // 4 * 2) + width])        #根据位置后去坐标点
        [select.extend(points[int(index)-1]) for index in indexs]
        tmp = [str(val) for val in select]        return ','.join(tmp)    #下载验证码
    def downimg(self):
        url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64?'
        ts = str(int(time.time() * 1000))
        pdata = {            'login_site': 'E',            'module': 'login',            'rand': 'sjrand',
            ts: '',            'callback': self.callback,            '_': str(self.nums)
        }
        req = self.do_request('GET', url, pdata=pdata)        if not req:            return
        m = re.search(r'\((.*)\)', req.text)
        text = m.group()[1:-1]
        jdata = json.loads(text)
        img = base64.b64decode(jdata['image'])        with open(self.fpath, 'wb') as f:
            f.write(img)        return True
    #获取验证码信息
    def get_qcinfo(self):
        #下载验证码
        if self.downimg():            #下载完成之后打开图片，并输入位置获取坐标
            indexs = self.gen_pointlist()            return indexs    #验证码校验
    def qc_verify(self):
        indexs = self.get_qcinfo()        if not indexs:            return False
        self.nums += 1

        #验证码输入检查
        url = 'https://kyfw.12306.cn/passport/captcha/captcha-check?'
        print(indexs)
        jdata = {            'callback': self.callback,'answer': indexs,'rand': 'sjrand',            'login_site': 'E','_': self.nums
        }
        req = self.do_request('GET', url, pdata=jdata)        #输入成功返回True
        if ('验证码校验成功') in req.text:
            print('验证码成功')
            self.indexs = indexs            return True
        return False
    #用户名与密码登录
    def user_login(self):
        pass
    #登录接口
    def start_login(self):
        while True:            if self.qc_verify():                break
            time.sleep(2)
        self.user_login()if __name__ == '__main__':
    callback = 'jQuery19109060005139400158_1546821765087',
    nums = 1546821765097
    hds = {'Accept-Language': 'zh-CN,zh;q=0.9',               'Connection': 'keep-alive',               'Host': 'kyfw.12306.cn',               'Cache-Control': 'no-cache',               'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
               }
    obj =login12306(callback, nums, hds)
    obj.start_login()

运行输出结果如下：

3：用户登录：

浏览器中，输入正确验证码，用户名与密码；点击登录，登录过程如下图：

我们完善user_login方法，代码如下：

    def user_login(self):
        url = 'https://kyfw.12306.cn/passport/web/login'
        jdata = {            'username': 'myusername',#更换自己用户名
            'password': 'mypwd',#更换成自己密码
            'appid': 'otn',            'answer': self.indexs,
        }

        req = self.do_request('POST', url, pdata=jdata)
        items = [
            {'url':'https://kyfw.12306.cn/otn/login/userLogin', 'f':'GET'},
            {'url':'https://kyfw.12306.cn/otn/passport?redirect=/otn/login/userLogin','f':'GET'},
        ]        for item in items:
            url = item.get('url')
            f = item.get('f')
            req = self.do_request(f, url)

        url = 'https://kyfw.12306.cn/passport/web/auth/uamtk'
        info = {'appid': 'otn'}
        req = self.do_request('POST', url, pdata=info)

        url = 'https://kyfw.12306.cn/otn/uamauthclient'
        jdata = req.json()
        info = {'tk': jdata['newapptk']}
        req = self.do_request('POST', url, pdata=info)

        req_items = [
            {'url':'https://kyfw.12306.cn/otn/login/userLogin','f':'GET'},
            {'url':'https://kyfw.12306.cn/otn/login/conf','f':'POST'},
            {'url':'https://kyfw.12306.cn/otn/index/initMy12306Api','f':'post'},

        ]        for item in req_items:
            url = item.get('url')
            f = item.get('f')
            req = self.do_request(f, url)
        print(req.text)        return req

再次运行代码结果如下：

登录成功了，我们可以提取应答消息中的信息，判断是否登录成功。

对于用户名密码请求地址，我们可以不用关心具体作用，只需要记录请求地址与参数，有的数据可能需要在应答中提取。基于这个基础，我们可以使用Python完成预定车次选择，查找账户中联系人，购票这一系列操作。
经过分析，可以看到使用脚本操作，省去了页面渲染与人为点击这两个操作，节省了时间，这样订单提交速度就比其他人快，购买成功几率明显增加。

但是老猫不打算使用，因为使用的人越多，这种现象越猖獗；

但是，老猫怎么回老家呢？老猫一天心不在焉，没有一点工作状态。老板看在心里也十分为我着急。

最终结果：

最后广告：

大家如果想学习Python及爬虫技术，可以查看下面两个专栏：
Python爬虫专栏地址：http://blog.51cto.com/cloumn/detail/17 ；
Python入门专栏地址：http://blog.51cto.com/cloumn/detail/34 ；

-------------------------------------------------

本文转自奇猫博客51CTO博客

如需转载，请联系作者授权

原文链接：http://blog.51cto.com/huangyg/2339960

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入