对HTML的解析: 在解析复杂的HTML的页面时,需要避免一些问题,好让爬虫工作变得得心应手. • 寻找“打印此页”的链接,或者看看网站有没有HTML样式更友好的移动版(把自己 的请求头设置成处于移动设备的状态,然后接收网站移动版). • 寻找隐藏在JavaScript文件里的信息.要实现这一点,可能需要查看网页加载的 JavaScript 文件.虽然网页标题经常会用到,但是这个信息也许可以从网页的URL链接里获取. 如果要找的信息只存在于一个网站上,别处没有,那确实是运气不佳.如果不只限于这个…