#练习:另一种遍历xml文件的方式etree,xpathimport systry: import xml.etree.cElementTree as ET #前面带c的都是比较快的,效率高且不占内存的,优先使用这个except ImportError: import xml.etree.ElementTree as ET tree = ET.ElementTree(file='e:\\movie.xml')root=tree.getroot()print root.tag #打印根tagpri…
re模块 re.S表示匹配单行 re.M表示匹配多行 使用re模块提取图片url,下载所有糗事百科中的图片 普通版 import requests import re import os if not os.path.exists('image'): os.mkdir('image') def get_page(number): ''' 页数 :param number: :return: ''' if number == 1: url = 'https://www.qiushibaike.co…
import requests from lxml import html import time import pandas as pd from sqlalchemy import create_engine import traceback from fake_useragent import UserAgent as UA #使用其random方法获取随机ua class ZhaoPinSpider: def __init__(self): #http://sou.zhaopin.com…