背景 在Python去写爬虫,网页解析等过程中,比如: 如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站 常常需要涉及到HTML等网页的解析. 当然,对于简单的HTML中内容的提取,Python内置的正则表达式Re模块,就足够用了, 但是对于复杂的HTML的处理,尤其是一些非法的,有bug的html代码的处理,那么最好还是用专门的HTML的解析的库. Python中的,专门用于HTML解析的库,比较好用的,就是BeautifulSoup. BeautifulSoup简