puppeteer爬虫服务

爬虫文件

baidu.js

const puppeteer = require("puppeteer");

const path = require('path');

const pathToExtension = path.join(__dirname, './chrome-mac/Chromium.app/Contents/MacOS/Chromium');

var exec = require('child_process').execSync;

const conf = {

    headless: false,

    executablePath: pathToExtension,

    defaultViewport: {

        width: 1300,

        height: 900

    },

};

const run = async (browserEndpoint) => {

    //var count = exec('ps -ef |grep Chromium |grep -v "grep" |awk \'{print $8}\'|wc -l');

    if (browserEndpoint == "") {

        var browser = await puppeteer.launch(conf)

        const _browserEndpoint = await await browser.wsEndpoint();

        console.log("_browserEndpoint",_browserEndpoint)

        browserEndpoint=_browserEndpoint

    }

    var browser = await puppeteer.connect({"browserWSEndpoint":browserEndpoint})

    const page = await browser.newPage()

    await page.goto('https://www.baidu.com/', {waitUntil: 'networkidle2'});

    //addScriptTag需要加在goto的后面，然后就可以在evaluate里使用jQuery的语法了。

    await page.addScriptTag({

        url: 'https://code.jquery.com/jquery-3.2.1.min.js',

    });

    await page.waitFor('#u1')

    // 可以接收evaluate内部打印的console内容

    page.on('console', msg => {

        for (let i = 0; i < msg.args().length; i++) {

            console.log(`${i}: ${msg.args([i])}`)

        }

    })

    const result = await page.evaluate(() => {

        let data = []; // 初始化空数组来存储数据

        let elements = $("#u1"); // 获取所有元素

        for (let element of elements) {

            let title = element.innerText; // 获取标题

            let url = element.href;//获取网址

            data.push({title, url}); // 存入数组

        }

        return data;

    });

    console.log(result);

    const dic = {

        "result": result,

        "browserEndpoint": browserEndpoint

    }

    await page.close()

    return dic

};

module.exports = {

    run

}

服务文件

server.js

var http = require('http');

var run_spider = require("./baidu.js");

var browserEndpoint = ""

http.createServer(function (req, res) {

    console.log("in", browserEndpoint)

    res.writeHead(200, {'Content-Type': 'text/plain;charset=UTF-8', 'Access-Control-Allow-origin': '*'});

    if (req.method.toUpperCase() == 'POST') {

        var postData = '';

        req.on('data', function (data) {

            postData += data; //接受的数据

        });

        req.on('end', function () {

                if (browserEndpoint == "") {

                    console.log("if", browserEndpoint)

                    run_spider.run(browserEndpoint).then(function (result_dict) {

                        browserEndpoint = result_dict.browserEndpoint

                        console.log("browserEndpoint", browserEndpoint)

                    })

                } else {

                    console.log("else", browserEndpoint)

                    run_spider.run(browserEndpoint).then(function (result_dict) {

                        Promise.resolve(result_dict.browserEndpoint)

                    })

                }

            }

        );

    }

}).listen('9001', function () {

    console.log('开启服务端口9001');

});

puppeteer爬虫服务的更多相关文章

网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
搭建pyspider爬虫服务
1. 环境准备首先yum更新 yum update -y 安装开发编译工具 yum install gcc gcc-c++ -y 安装依赖库 yum install python-pip pytho ...
爬虫服务集群处理nginx返回504
最近在对爬虫服务做分布式服务的时候总是遇到服务器返回504,搞了两天才发现原来是nginx中有对超时的设置参数,自己都是用默认的,然而客户端的等待时间超过了nginx默认的超时设置修改 keepal ...
用go写爬虫服务并发请求，限制并发数
java写爬虫服务,思路是线程池,任务队列,限制并行线程数即可. go要用另一种设计思路,不能在线程层面限制,协程的异步请求,如果不作处理,并行发出所有网络请求,因网络请求数过多,会抛出异常低版本的 ...
Puppeteer爬虫实战(一)
Puppeteer 爬虫技术实践信息简介 Puppeteer是Chrome开发团队发布的一个通过Chrome DevTool Protocol来控制浏览器Chrome(下文若无显式称呼Chromiu ...
【原】使用puppeteer爬虫下载Midi文件
The Beatles 乐队的 Midi文件下载地址 puppeteer官方github地址 midi文件爬取示例代码github地址 1.安装npm 参考:安装npm及cnpm(Windows) 修 ...
Puppeteer爬虫实战(三)
本篇文章针对大家熟知的技术站点作为目标进行技术实践. 确定需求访问目标网站并按照筛选条件(关键词.日期.作者)进行检索并获取返回数据中的目标数据.进行技术拆分如下: 打开目标网站找到输入框元素 ...
LINUX搭建PySpider爬虫服务
1.环境搭建 yum update -y yum install gcc gcc-c++ -y yum install python-pip python-devel python-distribut ...
puppeteer 爬虫 pdf 截图自动化
puppeteer简介 puppeteer 翻译是操纵木偶的人,利用这个工具,我们能做一个操纵页面的人.puppeteer是一个nodejs的库,支持调用Chrome的API来操纵Web,相比较Sel ...

随机推荐

如何判断 Session是否存在
相信很多人都跟我一样,在写网页中有些位置通过其他网页设置了 Session然后跳转到目标页面就需要要用 Session,但是那个位置如果是直接打开的就用不到 Session,那么问题就来了,例如:系统 ...
<script> 为什么不再使用 type="text/javascript" 【问题】
1.为什么在 <script> 标签中不需要使用 type="text/javascript" 就可以写jQuery代码 ? <head> <scri ...
【Zookeeper】集群环境搭建
一.概述 1.1 Zookeeper的角色 1.2 Zookeeper的读写机制 1.3 Zookeeper的保证 1.4 Zookeeper节点数据操作流程二.Zookeeper 集群环境搭建 2 ...
navicat for oracle 导入xlsx文件提示无法打开xlsx文件
navicat for oracle 导入xlsx文件提示:无法打开xlsx文件导入环境: navicat for oracle wps状态的xlsx文件处理: 将wps状态的xlsx文件,打开方 ...
win10开机后将存在多个系统选择，改为直接进入系统无需选择
win10系统安装后,可能出现每次开机都要选择操作系统,比较麻烦,所以就来设置下如何直接进入系统,无须选择 1.我的电脑右键“属性”—“高级系统设置”—“系统属性” 2.设置“启动和故障恢复”如下选 ...
[Mac][Python][Jupyter Notebook]安装配置和使用
Jupyter 项目(以前称为 IPython 项目),提供了一套使用功能强大的交互式 shell 进行科学计算的工具,实现了将代码执行与创建实时计算文档相结合. 这些 Notebook 文件可以包含 ...
Django drf：cbv（class base view）源码分析
cbv是基于类的视图 # 首先要在路由层配置: # 找到类绑定方法as_view # 点开dispatch的方法 # http_method_names其实就是方法的列表整个流程: 1.写一个基于类 ...
docker从入门到精通再到放弃
docker说明 docker三大功能:构建(build).运输(ship).运行(run),只需要记下这三大功能就可以了 1.docker入门 docker安装及配置 a.docker源配置 cur ...
python爬虫伪装技术应用
版权声明:本文为博主原创文章,转载请注明出处: https://blog.csdn.net/sc2079/article/details/82423865 -写在前面本篇博客主要是爬虫伪装技术的应 ...
Jmeter练习
首页新随笔管理 Jmeter接口测试实例-牛刀小试本次测试的是基于HTTP协议的接口,主要是通过Jmeter来完成接口测试,借此熟悉Jmeter的基本操作. 本次实战,我是从网上找的接口 ...

puppeteer爬虫服务

puppeteer爬虫服务的更多相关文章

随机推荐

热门专题