折磨我几天的问题今天终于解决了,分享一下近期solr使用的一些经验. 本来是用nutch在爬取页面,可是客户需要爬取RSS,而且可以识别那些页面是通过RSS源抓取出来的.nutch虽然自带解析RSS的插件,但是有些RSS解析不了,也不好控制,更重要的抓取后和普通页面就没什么太大的区别了,不能识别不能判断是由哪个rss源抓取出来的.因为上面原因,所以就自己用C#写了一个配合Solr抓取RSS的工程. 一切实现好后,客户非常满意,我也觉得做的还不错,可是过了一段时间后发现nutch在solrdedu…