Java基础-爬虫实战之爬去校花网网站内容

　　　　　　　　　　Java基础-爬虫实战之爬去校花网网站内容

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

　　爬虫这个实现点我压根就没有把它当做重点，也没打算做网络爬虫工程师，说起爬虫我更喜欢用Python实现！下面是Java爬虫的代码如下：

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Scala%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.reptilian;

 import java.io.FileOutputStream;

 import java.io.IOException;

 import java.io.InputStream;

 import java.net.HttpURLConnection;

 import java.net.URL;

 public class ReptilianDemo {

     public static void main(String[] args) throws IOException {

         //定义需要爬取的网站

         URL url = new URL("http://www.xiaohuar.com/");

         //建立连接

         HttpURLConnection conn = (HttpURLConnection) url.openConnection();

         //设置请求方式

         conn.setRequestMethod("GET");

         //获取服务器响应的状态码

         int code = conn.getResponseCode();

         //判断状态码是否为200，如果是说明访问成功，那么就开始下载页面

         if(code == 200){

             InputStream in = conn.getInputStream() ;

             FileOutputStream out = new FileOutputStream("D:\\BigData\\JavaSE\\yinzhengjieData\\校花网.html",false) ;

             byte[] buf = new byte[1024] ;

             int len = 0 ;

             while((len = in.read(buf)) != -1){

 //                System.out.println(new String(buf ,0 ,len , "utf-8" ));

                 out.write(buf , 0 , len);

             }

             in.close();

             out.close();

             System.out.println("下载完成!");

         }

     }

 }

 /*

 以上代码执行结果如下:

 下载完成!

  */

　　查看爬去后的文件：

Java基础-爬虫实战之爬去校花网网站内容的更多相关文章

Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
Go语言实战-爬取校花网图片
一.目标网站分析爬取校花网http://www.xiaohuar.com/大学校花所有图片. 经过分析,所有图片分为四个页面,http://www.xiaohuar.com/list-1-0.htm ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战——反爬策略之模拟登录【CSDN】
在<Python爬虫实战-- Request对象之header伪装策略>中,我们就已经讲到:=="在header当中,我们经常会添加两个参数--cookie 和 User-Age ...
爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...

随机推荐

洛咕3312 [SDOI2014]数表
洛咕3312 [SDOI2014]数表终于独立写出一道题了...真tm开心(还是先写完题解在写的) 先无视a的限制,设\(f[i]\)表示i的约数之和不妨设\(n<m\) \(Ans=\su ...
[CF917D]Stranger Trees[矩阵树定理+解线性方程组]
题意给你 \(n\) 个点的无向完全图,指定一棵树 \(S\),问有多少棵生成树和这棵树的公共边数量为 \(k\in[0,n-1]\) \(n\leq 100\) 分析考虑矩阵树定理,把对应的树边 ...
一步一步来熟悉Akka.Net(一）
一步一步来熟悉Akka.Net(一) 标签(空格分隔): .netcore 分布式一.不利flag 好久没写过文章了,翻开前几年写的博客,看到有两个目标"代码生成器"和&qu ...
beef局域网内模拟攻击
0x0环境主机A win10:10.51.20.60(wifi) 主机A中的虚拟机kali(攻击者):192.168.110.129(NAT) 主机A中的虚拟机win2003(受害者):192.16 ...
Beta阶段对团队成员公开感谢
我感谢付佳对我的帮助,因为Beta阶段她承担了一名组长责任,每次代码编写,安排任务都由她带头来做,并且在代码方面帮助我解决了一些问题.
FTP地址
访问不了FTP的同学可以试试用IPv6 地址2001:da8:203:ed5:CEB2:55FF:FE8B:ED1来访问,用户名密码不变.
【SE】Week3 : 四则运算式生成评分工具Extension&Release Version(结对项目)
Foreword 此次的结对项目终于告一段落,除了本身对软件开发的整体流程有了更深刻的了解外,更深刻的认识应该是结对编程对这一过程的促进作用. 在此想形式性但真心地啰嗦几句,十分感谢能端同学能够不厌其 ...
20135202闫佳歆--week5 课本18章学习笔记
第十八章调试内核级开发的调试工作远比用户级开发艰难的多. 一.准备开始准备工作需要的是: 一个bug 一个藏匿bug的内核版本相关内核代码的知识和运气在这一章里,调试的主要思想是让bug重现 ...
剑指offer：包含min函数的栈
题目描述: 定义栈的数据结构,请在该类型中实现一个能够得到栈中所含最小元素的min函数(时间复杂度应为O(1)). 解题思路: 相当与在保留原栈的同时,去维护一个最小栈.利用一个辅助栈来完成.对于每个 ...
idea 导入项目后不能执行main方法
点击右键,出来不能run/debug 项目分为多个mouel模块,很多模块进来后在idea中丢失了(暂时不知道原因) 我们需要做的就是把丢失的模块加进来 ctrl+alt+shift+s 快捷键或 ...

Java基础-爬虫实战之爬去校花网网站内容

Java基础-爬虫实战之爬去校花网网站内容的更多相关文章

随机推荐

热门专题