最近想看盗墓笔记,看了一下网页代码,竟然不是js防爬虫,那就用简单的代码爬下了一节: """ 爬取盗墓笔记小说-七星鲁王宫 """ from urllib.request import urlopen from bs4 import BeautifulSoup from docx import Document import os class Download(): def __init__(self): self.baseUrl = 'http…
想看小说<鬼吹灯之精绝古城>,可是网页版的好多广告,还要一页一页的翻,还无法复制,于是写了个小爬虫,保存到word里慢慢看. 代码如下: """ 爬取<鬼吹灯之精绝古城>小说 """ from selenium import webdriver import os from docx import Document class DownloadFiles(): def __init__(self): self.baseUr…
前几天看到一篇博文:C# 爬虫 抓取小说 博主使用的是正则表达式获取小说的名字.目录以及内容. 下面使用HtmlAgilityPack来改写原博主的代码 在使用HtmlAgilityPack之前,可以先熟悉一下XPath:点我 代码如下: using System; using System.IO; using System.Text; using HtmlAgilityPack; namespace HtmlAgilityPackDemo { class Program { static vo…
前言 首先先介绍一下Jsoup:(摘自官网) jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods. Jsoup俗称“大杀器”,具体的使用大家可以看 jsoup中文文档 代码编写 首先mav…