从某些网站看小说的时候经常出现垃圾广告,一气之下写个爬虫,把小说链接抓取下来保存到txt,用requests_html全部搞定,代码简单,容易上手. 中间遇到最大的问题就是编码问题,第一抓取下来的小说内容保持到txt时出现乱码,第二url编码问题,第三UnicodeEncodeError 先贴源代码,后边再把思路还有遇到的问题详细说明. from requests_html import HTMLSession as hs def get_story(url): global f session
'use strict'; let request = require('request') let cheerio = require('cheerio'); //爬虫 let iconv = require('iconv-lite'); //处理gbk编码的网页 let Entities = require('html-entities').XmlEntities; let entities = new Entities(); const fs = require('fs') const p