【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）

 package 网络编程;

 import java.io.BufferedReader;

 import java.io.BufferedWriter;

 import java.io.FileOutputStream;

 import java.io.IOException;

 import java.io.InputStreamReader;

 import java.io.OutputStreamWriter;

 import java.net.URL;

 public class TestBaidu {

     public static void main(String[] args) throws IOException {

         URL url=new URL("http://www.baidu.com");

         /*此方法会有乱码输出

         InputStream is=url.openStream();

         byte[] b=new byte[1024];

         int len=0;

         while((len=is.read(b))!=-1){

             System.out.println(new String(b,0,len));

         }

         */

         BufferedReader br=new BufferedReader(new InputStreamReader(url.openStream(),"utf-8"));

         BufferedWriter bw=new BufferedWriter(new OutputStreamWriter(new FileOutputStream("baidu.html"),"utf-8"));

         String str=null;

         while((str=br.readLine())!=null){

             bw.append(str);

             bw.newLine();

         }

             //System.out.print(str);

         bw.flush();

         bw.close();

         br.close();

     }

 }

抓取页面内容

 package 网络编程;

 import java.io.BufferedReader;

 import java.io.IOException;

 import java.io.InputStreamReader;

 import java.net.URL;

 import java.nio.charset.Charset;

 import java.util.regex.Matcher;

 import java.util.regex.Pattern;

 public class Get163URL {

     public static void main(String[] args) throws IOException {

         URL url=new URL("http://www.163.com");

         BufferedReader br=new BufferedReader(new InputStreamReader(url.openStream(),Charset.forName("gbk")));

         StringBuffer sb=new StringBuffer();

         String tmp=null;

         while((tmp=br.readLine())!=null){

             sb.append(tmp);

         }

 //        System.out.println(sb.toString());

         Pattern p=Pattern.compile("\"(http:\\/\\/.+?)\"");

         Matcher m=p.matcher(sb);

         while(m.find())

             System.out.println(m.group(1));

     }

 }

提出链接

 public class WikiDownload {

     static final String name = "username";

     static final String pwd = "password";

     public static void main(String[] args){

         CookieManager manager = new CookieManager();

         CookieHandler.setDefault(manager);

         String wikiUrl = "http://wiki.xxxxx.org/pages/viewpage.action?pageId=71709153";

         String loginUrl = "http://wiki.xxxxx.org/login.action?os_destination=%2Fpages%2Fviewpage.action%3FpageId%3D71709153";

         try{

             URL url = new URL(loginUrl);

             HttpURLConnection connection = (HttpURLConnection)url.openConnection();

             connection.setRequestProperty("accept", "*/*");

             connection.setRequestProperty("connection", "Keep-Alive");

             connection.setRequestProperty("user-agent",

                     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36");

             String line;

             connection.setDoInput(true);

             connection.setDoOutput(true);

             connection.setUseCaches(false);

             connection.setRequestMethod("POST");

             try(OutputStreamWriter writer = new OutputStreamWriter(connection.getOutputStream())){

                 writer.write("os_username=" + name

                         +"&os_password="+ pwd

                         + "&login=%E7%99%BB%E5%BD%95&os_destination="

                         + URLEncoder.encode(wikiUrl.split("http://wiki.xxxxx.org")[0],"utf-8"));

             }

             try(InputStreamReader reader = new InputStreamReader(connection.getInputStream())){

                 BufferedReader in = new BufferedReader(reader);

                 StringBuilder result= new StringBuilder("");

                 while ((line = in.readLine()) != null) {

                     result.append("\n");

                     result.append(line);

                 }

                 System.out.println(result);

             }

         }catch (Exception e){

             e.printStackTrace();

         }

     }

 }

获取需要登录的网页

【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）的更多相关文章

如何使用angularjs实现抓取页面内容
<html ng-app="myApp"> <head> <title>angularjs-ajax</title> <scr ...
PHP cURL库函数抓取页面内容
目录 1 为什么要用cURL? 2 启用cURL 3 基本结构 4 检查错误 5 获取信息 6 基于浏览器的重定向 7 用POST方法发送数据 8 文件上传 9 cURL批处理(multi cURL) ...
nodejs抓取页面内容，并分析有无某些内容的js文件
nodejs获取网页内容绑定data事件,获取到的数据会分几次相应,如果想全局内容匹配,需要等待请求结束,在end结束事件里把累积起来的全局数据进行操作! 举个例子,比如要在页面中找有没有www.ba ...
C#使用CSS选择器抓取页面内容
最近在查wpf绘图资料时,偶然看到Python使用CSS选择器抓取网页的功能.觉得很强,这里用C#也实现一下. 先介绍一下CSS选择器在 CSS 中,选择器是一种模式,用于选择需要添加样式的元素. ...
Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...
基于puppeteer模拟登录抓取页面
关于热图在网站分析行业中,网站热图能够很好的反应用户在网站的操作行为,具体分析用户的喜好,对网站进行针对性的优化,一个热图的例子(来源于ptengine) 上图中能很清晰的看到用户关注点在那,我们不 ...
Python抓取视频内容
Python抓取视频内容 Python 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年.Python语法简洁而清晰,具 ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
用PHP抓取页面并分析
在做抓取前,记得把php.ini中的max_execution_time设置的大点,不然会报错的.

随机推荐

JavaWeb面试（六）
51.说一说Servlet的生命周期? Servlet有良好的生存期的定义,包括加载和实例化.初始化.处理请求以及服务结束.这个生存期由javax.servlet.Servlet接口的init(),s ...
HTTP协议类
本文从以下几方面介绍HTTP协议 HTTP协议的主要特点 HTTP报文的组成部分 HTTP方法 HTTP状态码 POST和GET的区别什么是持久连接什么是管线化主要特点: http协议的特点: ...
spring boot 中 Mybatis plus 多数据源的配置方法
最近在学习spring boot,发现在jar包依赖方面做很少的工作量就可以了,对于数据库操作,我用的比较多的是mybatis plus,在中央仓库已经有mybatis-plus的插件了,对于单数据源 ...
let and const
let 和 const 命令 let 命令基本用法 ES6 新增了let命令,用来声明变量.它的用法类似于var,但是所声明的变量,只在let命令所在的代码块内有效. { let a = 10; v ...
Java中的回调
又忙了一周,事情差不多解决了,终于有可以继续写我的博客了(各位看官久等了). 这次我们来谈一谈Java里的一个很有意思的东西--回调. 什么叫回调,一本正经的来讲,在计算机程序设计中,回调函数是指通过 ...
多线程编程 - PHP 实现
* { color: #3e3e3e } body { font-family: "Helvetica Neue", Helvetica, "Hiragino Sans ...
ubuntu实时显示网速cpu占用和内存占用率
ubuntu实时显示网速cpu占用和内存占用率大家在使用ubuntu的时候,有没有想让它实时显示网速,内存占用率,或者cpu占用率呢?现在我就教大家怎么实现,就像下面这样 1. 添加indicato ...
ChatterBot之快速入门01
本人运行环境为Python 3.5.2; 首先你需要导入chatterbot 的包,如果没有你先需要下载使用命令 pip install chatterbot 1 # -*- coding: utf ...
基于laravel5.5和vue2开发的个人博客
本项目使用 PHP 框架 Laravel 5.5 进行开发.系统后台使用了Vuejs + Element-UI实现完全的前后端分离. 项目地址:http://phpjourney.xin(正在备案,暂 ...
Java分布式锁实现详解
在进行大型网站技术架构设计以及业务实现的过程中,多少都会遇到需要使用分布式锁的情况.那么问题也就接踵而至,哪种分布式锁更适合我们的项目? 下面就这个问题,我做了一些分析: 分布式锁现状: 目前几乎很多 ...

【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）

【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）的更多相关文章

随机推荐

热门专题