一.下载页面并处理 二.提取数据 观察该网站 html 结构 可知该页面下所有电影包含在 ol 标签下.每个 li 标签包含单个电影的内容. 使用 XPath 语句获取该 ol 标签 在 ol 标签中遍历每个 li 标签获取单个电影的信息. 以电影名字为例 其余部分详见源码 三.页面跳转 检查"后页"标签.跳转到下一页面 返回 None 则已获取所有页面. 四.导入 CSV 创建 CSV 文件 其余部分详见源码 五.导入数据库(以 mysql 为例) 先在 mysql 中创建数据库与
这几天在学习selenium,顺便用selenium + python写了一个比较简陋的爬虫,现附上源码,有时间再补充补充: from selenium import webdriver from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by