这个爬虫写的比较久远,很久没有更新博客了. 1.首先思路是:通过php的curl_setopt()函数可以方便快捷的抓取网页. 2.什么样的新闻吸引人呢,当然的热点新闻了.这里选百度的搜索风云榜,获取热点关键词列表. 3.为了方便过滤,我们筛选搜狐的新闻.由于搜狐是通过搜狗搜索的新闻.所以把百度热点关键词通过搜狗一一搜索,打开对应的结果,筛选出搜狐的新闻链接. 4.进入搜狐新闻.获取新闻数据,进行内容筛选,重复过滤. 5.插入WordPress数据库,得到自己的新闻链接 6.自己的新闻链接主动提…