Google资深工程师深度讲解Go语言-单任务版爬虫(十四)
【摘要】
一.获得初始页面内容
gopm get -g -v golang.org/x/text //引入gbk库
报错: bash: gopm: command not found 解决方法: 使用gopm 完成安装
gopm--Go Package Manager 的缩写。是go 上的包管理工具,十分好用。 gopm
1.gopm...
一.获得初始页面内容
gopm get -g -v golang.org/x/text //引入gbk库
报错: bash: gopm: command not found
解决方法: 使用gopm 完成安装
gopm--Go Package Manager 的缩写。是go 上的包管理工具,十分好用。 gopm
1.gopm 安装:
这个十分简单只需一条命令就可以了:
go get -u github.com/gpmgo/gopm //亲测可用
2.使用 gopm安装需要的包
gopm 具有丰富的包管理功能,具体的管理命令可以参考官方文档(官方文档有中文版 各位爽不爽)链接
这里只需要一条命令就可以搞定了:
gopm bin -d $GOPATH/bin PackageName
二.正则表达式获取邮件地址
-
package main
-
-
import (
-
"fmt"
-
"regexp"
-
)
-
-
const text = `
-
my email is lxw@qq.com
-
email2 is aa@def.com
-
email3 is bb@eft.com.cn
-
`
-
-
func main() {
-
re := regexp.MustCompile(`([a-zA-Z0-9]+)@([a-zA-Z0-9]+)(\.[a-zA-Z0-9]+)`)
-
match := re.FindAllStringSubmatch(text, -1)
-
for _, m := range match {
-
fmt.Println(m)
-
}
-
}
2.提取城市和url
-
package main
-
-
import (
-
"fmt"
-
"io/ioutil"
-
"net/http"
-
"regexp"
-
)
-
-
func main() {
-
resp, err := http.Get("http://www.zhenai.com/zhenghun")
-
if err != nil {
-
panic(err)
-
}
-
defer resp.Body.Close()
-
if resp.StatusCode != http.StatusOK {
-
fmt.Println("Error:status code", resp.StatusCode)
-
return
-
}
-
all, err := ioutil.ReadAll(resp.Body)
-
if err != nil {
-
panic(err)
-
}
-
//fmt.Printf("%s\n", all)
-
printCityList(all)
-
}
-
-
func printCityList(contents []byte){
-
re:=regexp.MustCompile(`<a href="(http://www.zhenai.com/zhenghun/[a-z0-9]+)"[^>]*>([^<]+)</a>`)
-
match:=re.FindAllSubmatch(contents,-1)
-
for _,m :=range match {
-
//for _,sub:=range m {
-
// fmt.Printf("%s",sub)
-
//}
-
//fmt.Println()
-
fmt.Printf("city: %s, Url:%s \n",m[2],m[1])
-
}
-
-
fmt.Printf("matches found:%d\n",len(match))
-
}
文章来源: blog.csdn.net,作者:lxw1844912514,版权归原作者所有,如需转载,请联系作者。
原文链接:blog.csdn.net/lxw1844912514/article/details/108629822
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)