- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

用java爬取杭电oj已ac代码

bigsai 发表于 2021/02/03 01:02:27 2021/02/03

【摘要】前言电脑的硬盘突然坏了，新安装的eclipse的代码全没了，后来发现杭电上已经ac的代码可以查看到，我是个有强迫症的人，我宁愿做很多件不同的事也不愿意做一件相同的事（复制黏贴）许多次，所以就突发奇想，做个爬虫爬取已经ac的代码。实现首先打开杭电的首页，这里有我想要的信息这里，解决的问题的序列号事我们想要的。查看网页源码就在这里找到我们想要的信息，我们...

前言

电脑的硬盘突然坏了，新安装的eclipse的代码全没了，后来发现杭电上已经ac的代码可以查看到，我是个有强迫症的人，我宁愿做很多件不同的事也不愿意做一件相同的事（复制黏贴）许多次，所以就突发奇想，做个爬虫爬取已经ac的代码。

实现

首先打开杭电的首页，这里有我想要的信息

这里，解决的问题的序列号事我们想要的。查看网页源码

就在这里找到我们想要的信息，我们要将他存下来，然后进去分析。
接着随便点击一个进去分析。

对这个图片信息，注意链接是有规律的，通过简单拼凑就可以进入，注意第一个 run id这个信息，是需要分析抓取的，然后点击code len的链接。

发现自己的代码就在这。发现链接，就是通过run id拼凑而来。这样思路就清晰了。
1：抓取主页面，获得题目号。
2：对于每个题目号，拼凑地址进入第二个界面，在分析爬取这里的run id。
3：通过run id号拼凑地址进入有代码的网页，在通过解析工具获取代码。
4：通过io传输传到本地文件
5：ps（解析工具：jsoup）注意要通过f12抓取登陆过的cookie模拟登陆，因为只爬一次，就直接抓取cookie值传入。
附上代码：
1：抓取主页面

import java.io.IOException;
import java.util.HashMap;
import java.util.Map;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class exercise {//爬取标题
	public static void main(String[] args) throws IOException
	{
		Map map=new HashMap();//粗存id和正确的次数 
		String url="http://acm.hdu.edu.cn/userstatus.php?user=1315426911";//我的杭电页面
 Document doc=Jsoup.connect(url).get();
 Elements links=doc.getElementsByTag("script");
 Elements links1=links.attr("language", "javascript");
 Element links2=links1.get(links1.size()-2);
 String links3=links2.html();
 System.out.println(links3);//输出p(1001,2,6);p(1003,2,16);p(1006,1,3);p(1008,1,1);p(1009,3,16);**********
 String value[]=links3.split(";");//获取总共的题目数
 int length=value.length;
 for(int i=0;i 如果对后端、爬虫等感性趣欢迎关注我的个人公众号交流：`bigsai`</li>

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23

文章来源: bigsai.blog.csdn.net，作者：Big sai，版权归原作者所有，如需转载，请联系作者。

原文链接：bigsai.blog.csdn.net/article/details/80223984

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

用java爬取杭电oj已ac代码

前言

实现

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

用java爬取杭电oj已ac代码

前言

实现

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品