php 爬取数据

简单、 灵活、强大的PHP采集工具，让采集更简单一点。

简介：

QueryList使用jQuery选择器来做采集，让你告别复杂的正则表达式；
QueryList具有jQuery一样的DOM操作能力、Http网络操作能力、乱码解决能力、内容过滤能力以及可扩展能力；
可以轻松实现诸如：模拟登陆、伪造浏览器、HTTP代理等意复杂的网络请求；拥有丰富的插件，支持多线程采集以及使用PhantomJS采集JavaScript动态渲染的页面。

安装

通过Composer安装:

composer require jaeger/querylist

使用教程：

直接上代码：

<?php

include './vendor/autoload.php';// 使用composer安装后引入目录

use QL\QueryList;// 使用插件

$html = file_get_contents('https://www.biqudu.com/14_14778/');// 手动获取页面

$data = QueryList::html($html);// 得到页面内容

$data = QueryList::setHtml('https://www.biqudu.com/14_14778/');// 等同于上面的html()

$data->rules([ 
    // 采集所有a标签的href属性

    'link' => ['a','href'],

    // 采集所有a标签的文本内容

    'text' => ['a','text']

    ]);

// 此处$data = 上面已经获取到网页内容之后的对象

// 设置采集规则 替代了传统正则

$data->query();

// 此处$data = 上面已经获取到网页内容之后的对象

// query 执行操作

$data->getData();

// 此处$data = 上面已经获取到网页内容之后的对象

// 得到数据结果

$data->all();

// 此处$data = 上面已经获取到网页内容之后的对象

// 将数据转换成二维数组

print_r($data->all());

// 打印结果

这样我们已经可以抓取到一定的数据了。

php 爬取数据的更多相关文章

Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
借助Chrome和插件爬取数据
工具 Chrome浏览器 TamperMonkey ReRes Chrome浏览器 chrome浏览器是目前最受欢迎的浏览器,没有之一,它兼容大部分的w3c标准和ecma标准,对于前端工程师在开发过程 ...
web scraper——简单的爬取数据【二】
web scraper——安装[一] 在上文中我们已经安装好了web scraper现在我们来进行简单的爬取,就来爬取百度的实时热点吧. http://top.baidu.com/buzz?b=1&a ...
关于js渲染网页时爬取数据的思路和全过程（附源码）
于js渲染网页时爬取数据的思路首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里 ...
node.js爬取数据并定时发送HTML邮件
node.js是前端程序员不可不学的一个框架,我们可以通过它来爬取数据.发送邮件.存取数据等等.下面我们通过koa2框架简单的只有一个小爬虫并使用定时任务来发送小邮件! 首先我们先来看一下效果图差不 ...
【Spider】使用CrawlSpider进行爬虫时，无法爬取数据，运行后很快结束，但没有报错
在学习<python爬虫开发与项目实践>的时候有一个关于CrawlSpider的例子,当我在运行时发现,没有爬取到任何数据,以下是我敲的源代码:import scrapyfrom UseS ...
【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜
实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install ...
python模拟浏览器爬取数据
爬虫新手大坑:爬取数据的时候一定要设置header伪装成浏览器!!!! 在爬取某财经网站数据时由于没有设置Header信息,直接被封掉了ip 后来设置了Accept.Connection.User-A ...
scrapy爬取数据的基本流程及url地址拼接
说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢! 了解内容: Scrapy :抓取数据的爬虫框架异步与非阻塞的区别异步:指的是整个过程,中间如果是非阻塞的,那就是异步 ...
如何分页爬取数据--beautisoup
'''本次爬取讲历史网站'''#!usr/bin/env python#-*- coding:utf-8 _*-"""@author:Hurrican@file: 分页爬 ...

随机推荐

maven自动打包上传nexus仓库配置
一个基础类,可能要升级并放到私服库里,为了方便,应该能够自动打包放到nexus.这就需要配置maven一些参数与pom.xml. 依次在settings.xml文件裡輸入 <!-- nexus帳 ...
java代码示例（6-4）
创建ChangePassword.java /** * 需求分析:修改用户密码 * @author chenyanlong * 日期:2017/10/15 */ package com.hp.test ...
git 线上回滚问题纪要
1. git revert 作用 revert 用来取消置顶的提交的内容 2. 前提说明当讨论 revert 时,需要分两种情况,因为 commit 分为两种: 一种是常规的 commit,也就是使 ...
Elasticsearch5.5 多机集群配置和x-pack安装配置
x-pack安装配置 https://www.elastic.co/guide/en/elasticsearch/reference/current/installing-xpack-es.html ...
GCC输出带C源代码的汇编文件
GCC输出带C源代码的汇编文件,一共有两种方式(同样也适合G++输出呆CPP源代码的汇编文件). 测试代码(hello.cpp) #include<iostream> usingnames ...
SQL记录-PLSQL基本语法与数据类型
PL/SQL基本语法 PL/SQL是一种块结构的语言,这意味着PL/SQL程序被划分和编写代码的逻辑块.每块由三个子部分组成: S.N. 段和说明 1 声明此部分开头使用关键字DECLARE.它是一 ...
python学习笔记8-异常处理
一.异常处理在程序运行过程中,总会遇到各种各样的错误.程序一出错就停止运行了,那我们不能让程序停止运行吧,这时候就需要捕捉异常了,通过捕捉到的异常,我们再去做对应的处理. 下面我们先写一个函数,实现 ...
Jacob 调用金税系统
1.调用打印方法时,若是有预览弹窗提示,程序会阻塞住,并在控制台打印一行: C:\Program Files (x86)\��Ʊ��\914601007603699430.0\Config\Prin ...
pyinstaller 打包不成功，提示inporterror 缺少xlrd、xlwt
问题:pyinstaller 打包不成功,提示inporterror 缺少xlrd.xlwt 解决:将 pypiwin 230 改为 219
串行动画组QSequentialAnimationGroup
按顺序执行动画该类就是用来按照动画添加顺序来执行动画的.我们只用实例化该类,然后通过调用addAnimation()或者insertAnimation()方法把各个动画添加进去就可以了 import ...

php 爬取数据

php 爬取数据的更多相关文章

随机推荐

热门专题