近期由于公司资源需要,我爬取了一个视频网站,结果以为一个很容易的小爬虫,却步步是坑啊,费了一天终于都解决了(太菜了!!!). 前面导航页的爬虫就不多说了,无非就是webdriver和PhantomJS,然后设置referer和ua,就可以一层一层访问了.其实大多数的网站的防爬都会这么做. 然后到了详情页面,就是我遇到的最困难的一步了.网站为了防止爬虫,嵌套了3层iframe,并且每个iframe都有很多限制,单独打开无法得到想要的数据. 但是PhantomJS获取到的网站源码即使是js加载完成以