- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【爬虫开发】爬虫开发从0到1全知识教程第9篇：Mongodb数据库,介绍【附代码文档】

程序员一诺python 发表于 2024/09/02 22:29:24 2024/09/02

811 0 0

【摘要】本教程的知识点为：爬虫课程概要爬虫基础爬虫概述知识点： 1. 爬虫的概念 requests模块 requests模块知识点： 1. requests模块介绍 1.1 requests模块的作用：数据提取概要数据提取概述知识点 1. 响应内容的分类知识点：了解响应内容的分类 Selenium课程概要 selenium的介绍知识点： 1. selenium运行效

本教程的知识点为：爬虫概要爬虫基础爬虫概述知识点： 1. 爬虫的概念 requests模块 requests模块知识点： 1. requests模块介绍 1.1 requests模块的作用：数据提取概要数据提取概述知识点 1. 响应内容的分类知识点：了解响应内容的分类 Selenium概要 selenium的介绍知识点： 1. selenium运行效果展示 1.1 chrome浏览器的运行效果 Selenium概要 selenium的其它使用方法知识点： 1. selenium标签页的切换知识点：掌握 selenium控制标签页的切换反爬与反反爬常见的反爬手段和解决思路学习目标 1 服务器反爬的原因 2 服务器常反什么样的爬虫反爬与反反爬验证码处理学习目标 1.图片验证码 2.图片识别引擎反爬与反反爬 JS的解析学习目标： 1 确定js的位置 1.1 观察按钮的绑定js事件 Mongodb数据库介绍内容 mongodb文档 mongodb的简单使用 Mongodb数据库介绍内容 mongodb文档 mongodb的聚合操作 Mongodb数据库介绍内容 mongodb文档 mongodb和python交互 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy的入门使用 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy管道的使用 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy中间件的使用 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy_redis原理分析并实现断点续爬以及分布式爬虫 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy的日志信息与配置利用appium抓取app中的信息介绍内容 appium环境安装学习目标

完整笔记资料代码：https://gitee.com/yinuo112/Backend/tree/master/爬虫/爬虫开发从0到1全知识教程/note.md

感兴趣的小伙伴可以自取哦~

全套教程部分目录：

部分文件图片：

Mongodb数据库

介绍

在前面的中我们学习了mysql这种关系型数据库，那么接下来，我们会来学习一种非关系型数据库mongodb，mongodb数据库主要用于海量存储，常被用在数据采集项目中。

内容

mongodb的介绍和安装
mongodb的简单使用
mongodb的增删改查
mongodb的聚合操作
mongodb的索引操作
mongodb的权限管理
mongodb和python交互（pymongo模块）

mongodb文档

[

mongodb的简单使用

学习目标

掌握服务端的启动
掌握客户端的使用
掌握 mongodb的数据库和集合命令
了解文档中的_id字段

1. mongodb服务端的启动

默认端口：27017
默认配置文件的位置：/etc/mongod.conf
默认日志的位置：/var/log/mongodb/mongod.log

mongodb服务端启动分别两种方式：

本地测试方式的启动（只具有本地数据增删改查的功能）
生产环境启动（具有完整的全部功能）

1.1 测试方式启动

启动: sudo service mongod start (sudo service mongod start)
停止: sudo service mongod stop
重启: sudo service mongod restart

1.2 生产环境正式的启动方式

启动: sudo mongod [--auth --dbpath=dbpath --logpath=logpath --append --fork] [-–f logfile ]

只以 sudo mongod 命令启动时，默认将数据存放在了 /data/db 目录下，需要手动创建
--dbpath: 指定数据库的存放路径
--logpath: 指定日志的存放路径
--append: 或--logappend 设置日志的写入形式为追加模式
--fork: 或-fork 开启新的进程运行mongodb服务
--f: 或-f 配置文件路径(可以将上述配置信息写入文件然后通过该文件中的参数进行加载启动)
--auth: 以权限认证的方式启动，我们会在后边的中学习该内容

1.3 查看是否启动成功

ps aux | grep mongod

2. 启动mongodb的客户端：进入mongo shell

启动本地客户端: mongo
查看帮助：mongo –help
退出：exit或者ctrl+c

3. mongodb的简单使用

开启mongodb server的情况下，在进入mongo shell后，就可以做简单的使用了

3.1 mongodb数据库的命令

查看当前的数据库：db(没有切换数据库的情况下默认使用test数据库)
查看所有的数据库：show dbs /show databases
切换数据库：use db_name
db_name为show dbs后返回的数据库名
删除当前的数据库：db.dropDatabase()

3.2 mongodb集合的命令

无需手动创建集合：向不存在的集合中第一次添加数据时，集合会自动被创建出来
手动创建集合：
db.createCollection(name,options)
db.createCollection("stu")
db.createCollection("sub", { capped : true, size : 10 } )
参数capped：默认值为false表示不设置上限，值为true表示设置上限
参数size：集合所占用的字节数。当capped值为true时，需要指定此参数，表示上限大小，当文档达到上限时，会将之前的数据覆盖，单位为字节
查看集合：show collections
删除集合：db.集合名称.drop()
检查集合是否设定上限: db.集合名.isCapped()

3.3 简单练习

在mongo shell中输入下列命令，查看结果

show dbs
use test
show collections
db
db.stu.insert({'name':'郭靖', 'age':22})
show dbs
show collections
db.stu.find()
db.stu.drop()
show collections
db.dropDatabase()
show dbs
exit

3.3 mongodb中常见的数据类型（了解）

3.3.1 常见类型

Object ID：文档ID/数据的ID，数据的主键
String：字符串，最常用，必须是有效的UTF-8
Boolean：存储一个布尔值，true或false
Integer：整数可以是32位或64位，这取决于服务器
Double：浮点数
Arrays：数组/列表
Object： mongodb中的一条数据/文档，即文档嵌套文档
Null：存储null值
Timestamp：时间戳，表示从1970-1-1到现在的总秒数
Date：存储当前日期或时间的UNIX时间格式

3.3.2 注意点

每个文档都有一个属性，为_id，保证每个文档的唯一性，mongodb默认使用_id作为主键
可以手动设置_id的值，如果没有提供，那么MongoDB为每个文档提供了一个独特的_id，类型为objectID
objectID是一个12字节的十六进制数,每个字节两位，一共是24位的字符串：
前4个字节为当前时间戳
接下来3个字节的机器ID
接下来的2个字节中MongoDB的服务进程id
最后3个字节是简单的增量值

小结

服务端的启动
sudo mongod --dbpath=数据库路径
进入mongo shell客户端
mongo
mongodb的数据库和集合命令
show dbs
use db_name
show collections
db
db.集合名.drop()
db.dropDatabase()
exit
了解文档中的_id字段

Mongodb的的增删改查

学习目标

掌握 mongodb插入数据的方法
掌握 mongodb保存数据的方法
掌握 mongodb查询数据的方法
掌握 mongodb查询结果的处理方法
掌握 mongodb更新数据的方法
掌握 mongodb删除数据的方法

1. mongodb插入数据

命令：db.集合名称.insert(document)

db.stu.insert({name:'gj', gender:1})
db.stu.insert({_id:"20170101", name:'gj', gender:1})

插文档时，如果不指定_id参数，MongoDB会为文档自动分配一个唯一的ObjectId

2. mongodb的保存

命令：db.集合名称.save(document)

db.stu.save({_id:'20170101', name:'gj', gender:2})
db.stu.save({name:'gj', gender:2})
db.stu.find()

如果文档的_id已经存在则修改，如果_id不存在则添加

3 mongodb的查询

命令：db.集合名称.find()

可以使用以下数据进行练习

db.stu.insert([{"name" : "郭靖", "hometown" : "蒙古", "age" : 20, "gender" : true },
{"name" : "黄蓉", "hometown" : "桃花岛", "age" : 18, "gender" : false },
{"name" : "华筝", "hometown" : "蒙古", "age" : 18, "gender" : false },
{"name" : "黄药师", "hometown" : "桃花岛", "age" : 40, "gender" : true },
{"name" : "段誉", "hometown" : "大理", "age" : 16, "gender" : true },
{"name" : "段王爷", "hometown" : "大理", "age" : 45, "gender" : true },
{"name" : "洪七公", "hometown" : "华筝", "age" : 18, "gender" : true }])

3.1 简单查询

方法find()：查询

db.集合名称.find({条件文档})

方法findOne()：查询，只返回第一个

db.集合名称.findOne({条件文档})

方法pretty()：将结果格式化；不能和findOne()一起使用！

db.集合名称.find({条件文档}).pretty()

3.2 比较运算符

等于：默认是等于判断，没有运算符
小于：$lt （less than）
小于等于：$lte （less than equal）
大于：$gt （greater than）
大于等于：$gte
不等于：$ne

查询年龄大于18的所有学生
db.stu.find({age:{$gte:18}})

3.3 逻辑运算符

逻辑运算符主要指与、或逻辑

and：在json中写多个条件即可

查询年龄大于或等于18， 并且性别为true的学生
db.stu.find({age:{$gte:18},gender:true})

or:使用$or，值为数组，数组中每个元素为json

查询年龄大于18， 或性别为false的学生
db.stu.find({$or:[{age:{$gt:18}},{gender:false}]})

查询年龄大于18或性别为男生， 并且姓名是郭靖
db.stu.find({$or:[{age:{$gte:18}},{gender:true}],name:'gj'})

3.4 范围运算符

使用$in， $nin 判断数据是否在某个数组内

查询年龄为18、 28的学生
db.stu.find({age:{$in:[18,28,38]}})

3.5 支持正则表达式

使用$regex编写正则表达式

查询name以'黄'开头的数据
db.stu.find({name:{$regex:'^黄'}})

3.6 自定义查询

mongo shell 是一个js的执行环境使用$where 写一个函数，返回满足条件的数据

查询年龄大于30的学生
db.stu.find({
 $where:function() {
     return this.age>30;}
})

3.7 skip和limit

方法limit()：用于读取指定数量的文档

db.集合名称.find().limit(NUMBER)
查询2条学生信息
db.stu.find().limit(2)

方法skip()：用于跳过指定数量的⽂档

db.集合名称.find().skip(NUMBER)
db.stu.find().skip(2)

同时使用

db.stu.find().limit(4).skip(5)
db.stu.find().skip(5).limit(4)

注意：先使用skip在使用limit的效率要高于前者

3.8 投影

在查询到的返回结果中，只选择必要的字段

命令：db.集合名称.find({},{字段名称:1,...})

参数为字段与值，值为1表示显示，值为0不显特别注意：

对于_id列默认是显示的，如果不显示需要明确设置为0
对于其他不显示的字段不能设置为0

db.stu.find({},{_id:0,name:1,gender:1})

3.9 排序

方法sort()，用于对查询结果按照指定的字段进行排序

命令：db.集合名称.find().sort({字段:1,...})

参数1为升序排列参数-1为降序排列

根据性别降序， 再根据年龄升序
db.stu.find().sort({gender:-1,age:1})

3.10 统计个数

方法count()用于统计结果集中文档条数

命令：db.集合名称.find({条件}).count() 命令：db.集合名称.count({条件})

db.stu.find({gender:true}).count()
db.stu.count({age:{$gt:20},gender:true})

4 mongodb的更新

db.集合名称.update({query}, {update}, {multi: boolean})

参数query:查询条件
参数update:更新操作符
参数multi:可选，默认是false，表示只更新找到的第一条数据，值为true表示把满足条件的数据全部更新

db.stu.update({name:'hr'},{name:'mnc'})           # 全文档进行覆盖更新
db.stu.update({name:'hr'},{$set:{name:'hys'}})    # 指定键值更新操作
db.stu.update({},{$set:{gender:0}},{multi:true})  # 更新全部

注意："multi update only works with $ operators"

multi参数必须和$set一起使用！

5 mongodb的删除

db.集合名称.remove({query}, {justOne: boolean})

- 参数query:可选，删除的⽂档的条件
- 参数justOne:可选， 如果设为true或1，则只删除一条，默认false，表示删除全部

小结

mongo shell中的增 db.集合名.insert({数据}) db.集合名.save({包含_id的完整数据}) # 根据指定的_id进行保存，存在则更新，不存在则插入
mongo shell中的删 db.集合名.remove({条件}, {justOne: true/false})
mongo shell中的改 db.集合名.update({条件}, {$set:{完整数据/部分字段}}, {multi: true/false})
mongo shell中的查 db.集合名.find({条件}, {字段投影})

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

作者其他文章

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务