建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块

天地志鹏

发帖: 17粉丝: 5

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-8-21 14:33:51 2944 1 楼主 显示全部楼层
通过ECS虚拟机+RDS SQL Server10分钟搭建一套爬虫环境,迎娶白富美走上人生巅峰不是梦

基于RDS For SQL Server爬虫实践

云数据库(SQL Server)+云数据库客户端(DAS)

背景

本教程爬取的是新浪微博微公益平台的微拍卖拍品信息列表。

blob.png


爬虫爬取的信息为拍品序号、拍品名称、起拍价和当前价。我们需要在数据库中构建一个存储这4个信息的表格,随后用爬虫爬取数据将数据存入数据库中。

字段名

字段说明

举例

Id

序号

1

project_name

拍品名称

春节晚会小虎队演出服-霹雳虎

project_start_price

起拍价

100

Project_now_price

当前价

57680

 

下面,让我们开始搭建小爬虫吧!

1.下载软件

1.1 下载pycharm community版

>下载路径:https://www.jetbrains.com/pycharm/download/#section=windows 选择community版

1.2下载python2.7.15

>下载路径:https://www.python.org/downloads/release/python-2715/,选择Windows x86-64 MSI installer

2.安装

2.1 安装python-2.7.15

>运行python-2.7.15.amd64.msi>Install for all users>选择目标路径,点击Next>点击Next>点击Finish

2.2 安装PyCharm

>运行pycharm-community-2018.2.1.exe

blob.png


>点击Next

blob.png


>选择默认路径即可,也可以自定义路径,点击Next。

blob.png


>根据系统操作系统版本选择, 64位系统选择64-bit launcher, 其他勾选如上图。

blob.png


>点击Install

blob.png


>勾选Run Pycharm Community **,点击Finish

>运行PyCharm

blob.png


>阅读完政策说明后点击Accept

blob.png

>点击create new project

blob.png

>设置Project的存储路径>点击create

blob.png

>点击close

2.3在pycharm中安装第三方库

blob.png

>点击file>点击settings>点击project untitled1(其中untitled1为自定义的项目名)>点击 project interpreter>点击右侧的“+”号

blob.png

>在搜索框中输入pymssql,选中pymssql, 点击Install Package

blob.png

出现以下提示说明安装成功,关闭PyCharm

 

3.购买云数据库

在华为云官网开发者支持计划领取免费套餐,或者购买SQL Server数据库

4.申请数据库客户端DAS

>目前DAS在公测阶段,您可以通过以下链接申请免费试用https://www.huaweicloud.com/product/das.html

5.登录华为云数据库管理页面

blob.png

>DAS服务申请成功后登陆管理控制台,选择您要存储数据的实例,点击登陆,跳转到DAS登陆页面

blob.png

输入管理员账户名和密码,账户名可在实例信息页面查到,一般默认为rdsuser,密码为您在购买数据库实例时输入的管理员密码。

 

>登陆DAS后右键点击实例名>点击SQL窗口,将以下SQL语句输入编辑框中,点击执行SQL语句,执行成功后sina数据库就建好啦。

CREATE DATABASE [sina]

CONTAINMENT = NONE

ON PRIMARY

( NAME = N'sina', FILENAME = N'D:\RDSDBDATA\DATA\sina.mdf' , SIZE = 5120KB , FILEGROWTH = 1024KB )

LOG ON

( NAME = N'sina_log', FILENAME = N'D:\RDSDBDATA\DATA\sina_log.ldf' , SIZE = 1024KB , FILEGROWTH = 10%)

随后删除上述SQL语句,并在在SQL语句输入框中输入以下SQL语句,建立sina_paimai

USE [sina];

CREATE TABLE [sina].[dbo].[sina_paimai]

(

[id] int NOT NULL IDENTITY (1,1) ,

[project_name] nvarchar(max) NULL ,

[project_start_price] nvarchar(max) NULL ,

[project_now_price] nvarchar(max) NULL

);

ALTER TABLE [dbo].[sina_paimai] ADD CONSTRAINT

[PK_sina_paimai] PRIMARY KEY CLUSTERED

(

[id]

) WITH( STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY];

ALTER TABLE [dbo].[sina_paimai] SET (LOCK_ESCALATION = TABLE);

完成上述步骤后我们已经在sina中新建了一张名为sina_paimai的表,表**有四个字段,分别是id,project_name,project_start_price,project_now_price

 

6.完成以上步骤后,只差最后一步,爬虫就搭建完成啦。

>打开pycharm>右键点击project untitled1>点击new>点击python file

 blob.png


给你要创建的python程序起一个名字,点击OK.

然后把以下“sina爬虫.txt”代码复制进你刚刚创建的python文件中,并把以下这段代码中的前四个字段依次改成你的数据库实例公网IP:端口号,数据库账户名,密码和数据库名保存就可以啦~

connection=pymssql.connect(

    'xxx.xxx.x.xxx:xxxx',

    'rdsuser',

    'xxxxxxxx',

    'sina',

    charset='utf8',

   )

爬虫代码:见下方附件

 

最后点击run

blob.png

7.在数据库客户端DAS中查看爬取的数据

>登录DAS, 在SQL窗口中输入SELECT * FROM `sina_paimai`,点击执行SQL

就可以看到爬取的结果啦

blob.png


举报
分享

分享文章到朋友圈

分享文章到微博

guangfu007

发帖: 6粉丝: 1

级别 : 版主

Rank: 7Rank: 7Rank: 7

发消息 + 关注

发表于2018-8-21 17:38:04 沙发 显示全部楼层
棒,顶起来!正准备学下爬虫。
点赞 回复 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册