一.下载页面并处理 二.提取数据 观察该网站 html 结构 可知该页面下所有电影包含在 ol 标签下.每个 li 标签包含单个电影的内容. 使用 XPath 语句获取该 ol 标签 在 ol 标签中遍历每个 li 标签获取单个电影的信息. 以电影名字为例 其余部分详见源码 三.页面跳转 检查"后页"标签.跳转到下一页面 返回 None 则已获取所有页面. 四.导入 CSV 创建 CSV 文件 其余部分详见源码 五.导入数据库(以 mysql 为例) 先在 mysql 中创建数据库与
读取csv文件 通过csv.reader()和DictReader()两个函数 reader()函数返回一个迭代器 会包含表头 通过next函数可以跳过,但是它只能通过下标访问数据: DictReader()函数返回一个字典,不包含表头,可以通过键名访问!! import csv # with open('1 (2).csv','r') as fp: # reader=csv.reader(fp) # # next(reader) # for x in reader: #