第一个nodejs爬虫：爬取豆瓣电影图片

第一个nodejs爬虫：爬取豆瓣电影图片存入本地：

首先在命令行下 npm install request cheerio express -save;

代码：

var http = require('https'); //使用https模块

var fs = require('fs');//文件读写

var cheerio = require('cheerio');//jquery写法获取所得页面dom元素

var request = require('request');//发送request请求

var i = 0;

var url = "https://movie.douban.com/subject/1889243/?from=subject-page";

//初始url

function fetchPage(x) { //封装一层函数,方便递归调用

    startRequest(x);

}

function startRequest(x) {

    //采用http模块向服务器发起一次get请求

    http.get(x, function(res) { //get到x网址，成功执行回调函数

        var html = ''; //用来存储请求网页的整个html内容

        res.setEncoding('utf-8'); //防止中文乱码

        //监听data事件，每次取一块数据

        res.on('data', function(chunk) {

            html += chunk;

        });

        //监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数

        res.on('end', function() {

            var $ = cheerio.load(html); //采用cheerio模块解析html

            var news_item = {

                //获取电影的标题

                title: $('.related-info h2 i').text().trim(),

                //i是用来判断获取页数

                i: i = i + 1,

            };

            console.log(news_item); //打印新闻信息

            var news_title = $('.related-info h2 i').text().trim();

            savedContent($, news_title); //存储每篇文章的内容及文章标题

            savedImg($, news_title); //存储每篇文章的图片及图片标题

            //下一篇电影的url

            nextLink = $(".recommendations-bd dl:last-child dd a").attr('href');

            if(i <= 10) { //爬取10页

                fetchPage(nextLink);

            }

        });

    }).on('error', function(err) { //http模块的on data,on end ,on error事件

        console.log(err);

    });

}

//存储标题函数

function savedContent($, news_title) {

    $('#link-report span').each(function(index, item) {

        var x = $(this).text();

        x = x + '\n';

        //将新闻文本内容一段一段添加到/data文件夹下，并用新闻的标题来命名文件

        fs.appendFile('./data/' + news_title + '.txt', x, 'utf-8', function(err) {

            if(err) {

                console.log(err);

            }

        });

    })

}

//该函数的作用：在本地存储所爬取到的图片资源

function savedImg($, news_title) {

    $('#mainpic img').each(function(index, item) {

        var img_title = $('#content h1 span').text().trim(); //获取图片的标题

        if(img_title.length > 35 || img_title == "") { //图片标题太长

            img_title = "Null";

        }

        var img_filename = img_title + '.jpg';

        var img_src = $(this).attr('src'); //获取图片的url

        //采用request模块，向服务器发起一次请求，获取图片资源

        request.head(img_src, function(err, res, body) {

            if(err) {

                console.log(err);

            }

        });

        request(img_src).pipe(fs.createWriteStream('./image/' + news_title + '---' + img_filename));

        //通过流的方式，把图片写到本地/image目录下，并用标题和图片的标题作为图片的名称。

    })

}

fetchPage(url); //主程序开始运行

第一个nodejs爬虫：爬取豆瓣电影图片的更多相关文章

写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id in ...
python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块
工具:Python 3.6.5.PyCharm开发工具.Windows 10 操作系统.谷歌浏览器目的:爬取豆瓣电影排行榜中电影的title.链接地址.图片.评价人数.评分等网址:https:// ...
python3 爬虫---爬取豆瓣电影TOP250
第一次爬取的网站就是豆瓣电影 Top 250,网址是:https://movie.douban.com/top250?start=0&filter= 分析网址'?'符号后的参数,第一个参数's ...
Scrapy-redis分布式爬虫爬取豆瓣电影详情页
平时爬虫一般都使用Scrapy框架,通常都是在一台机器上跑,爬取速度也不能达到预期效果,数据量小,而且很容易就会被封禁IP或者账号,这时候可以使用代理IP或者登录方式爬,然而代理IP很多时候都很鸡肋, ...
Python爬虫爬取豆瓣电影名称和链接，分别存入txt，excel和数据库
前提条件是python操作excel和数据库的环境配置是完整的,这个需要在python中安装导入相关依赖包: 实现的具体代码如下: #!/usr/bin/python# -*- coding: utf ...
python爬虫-爬取豆瓣电影数据
#!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:27# 文件 :spider_05.py# IDE :PyChar ...
Python爬虫-爬取豆瓣电影Top250
#!usr/bin/env python3 # -*- coding:utf-8-*- import requests from bs4 import BeautifulSoup import re ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...

随机推荐

函数定义和调用 -------JavaScript
本文摘要:http://www.liaoxuefeng.com/ 定义函数在JavaScript中,定义函数的方式如下: function abs(x) { if (x >= 0) { ret ...
Dynemic Web Project中使用servlet的 doGet()方法接收来自浏览器客户端发送的add学生信息形成json字符串输出到浏览器并保存到本地磁盘文件
package com.swift.servlet; import java.io.FileOutputStream;import java.io.IOException;import java.io ...
1045: [HAOI2008] 糖果传递
Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 4897 Solved: 2457[Submit][Status][Discuss] Descript ...
【dp】奶牛家谱 Cow Pedigrees
令人窒息的奶牛题题目描述农民约翰准备购买一群新奶牛. 在这个新的奶牛群中, 每一个母亲奶牛都生两个小奶牛.这些奶牛间的关系可以用二叉树来表示.这些二叉树总共有N个节点(3 <= N < ...
SpingBoot之配置文件的值注入问题
我们在这里研究的是以yml配置文件值注入的问题: Person: lastName: 张三 age: 23 boss: false birth: 2018-10-11 maps: {k1: v1,k2 ...
CentOS7下Mysql5.7安装
下载并安装MySQL官方的 Yum Repository wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.no ...
二十五、MySQL 索引
MySQL 索引 MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度. 打个比方,如果合理的设计且使用索引的MySQL是一辆兰博基尼的话,那么没有设计和使用索 ...
python笔记-dict字典的方法
#!/usr/bin/env python #-*- coding:utf-8 -*- #打印0001-9999的数字 for i in range(9999): s = "%04d&quo ...
php扩展开发-实现一个简易的哈希表
从一个简易的哈希表入手,会让你更好的理解php的哈希表,他们的本质是一样的,只是php的哈希表做了更多的功能扩展,php的哈希表是php语言的一个重要核心,大量的内核代码使用到哈希表. #includ ...
python3中文件的读与写
Python open() 函数用于打开一个文件,并返回文件对象,在对文件进行处理过程都需要使用到这个函数,如果该文件无法被打开,会抛出错误完整语法:open(file, mode='r', buf ...

第一个nodejs爬虫：爬取豆瓣电影图片

第一个nodejs爬虫：爬取豆瓣电影图片的更多相关文章

随机推荐

热门专题