最近Nutch出新的2.2.1版本了,上个月才用2.1这个月就已经2.2.1,版本更新实在太快,以至于升级到新版本又遇到不少坑。索性再次记录一下一些比较麻烦的问题。
1. 从2.2版本开始对mysql数据源的配置就和2.1的默认支持不同了,这个地方的调整一定要严格遵守http://nlp.solutions.asia/?p=362 此文的说明对配置文件进行修改。
2. 切忌一定要在ivy文件修改后再去执行ant命令,这样才能自动的去下载指定的gora-sql版本的jar文件提供给mysql用,要不然nutch会每次执行命令提示找不到jdbc库。
3. 2.2版本的抓去命令没有2.1来的方便,而且目前测试发现处理性能比2.1要慢不少,但是内存占用要小一些。