模拟登录是爬取某些站点内容的一个关键,有些网站(特别是论坛类),不登录的话,一个数据也拿不到. 模拟登录有这样几个关键: 弄清楚登录的url一些网站打开出现登录的页面,地址栏大多数不是登录提交表单的url. 提交登录表单的字段登录页面的url和登录表彰的字段名获取的方式有两种:1) 分析页面源代码,找到表单标签及属性.适应比较简单的页面,或者对网页代码,js非常熟悉.2) 采用抓包工具,查看提交的url和参数,如Chrome的开发者工具中的Network, Fiddler等.这种方式简单粗暴.快…