其他|3@leeon | 分享未来 - 互联网技术

Jul2

【原创】Nginx 诡异http 400问题定位

Author: leeon Click: 9706 Comments: 0 Category: 其他 Tag: nginx,http,400,get

今日在定位接口问题时候发现一个诡异的Nginx 400错误，现象和官方的问题反馈平台说的一样：

Inconsistent behavior on uri's with unencoded spaces followed by H http://trac.nginx.org/nginx/ticket/196

在GET请求中如果带有原始空格后跟着一个大写H字母或者H开头的字符串的时候，Nginx会认为请求非法。

此问题出现在所有nginx版本中，请大家注意在GET请求的时候避免原始的空格出现，全部转义成%20

Jun30

【原创】使用xmlstarlet格式化xml文本

Author: leeon Click: 8106 Comments: 0 Category: 其他 Tag: xmlstarlet,editplus

今日在做xml的数据采集和分析的时候需要对一定大小的xml文件做文本格式化，搜罗了一番网上资源，说的是xmlstar这个工具，只可惜已经被墙了，去sf看了下有个xmlstarlet的工具http://sourceforge.net/projects/xmlstar/?source=dlp，评价非常高，索性下下来一看也是一个xml.exe的文件，看来是把xmlstar的名字改头换面了一下。然后按照网上所说的方式配置下editplus就行了，这里就不多言了，请移步http://hi.baidu.com/fieldspace/item/fcb9e353ec0b31908d12ed29 下载xmlstarlet后自行配置即可。

Jun25

【原创】ZendStudio中格式化HTML代码错位问题修正

Author: leeon Click: 15003 Comments: 2 Category: 其他 Tag: zendstudio,html,css,source,format

ZendStudio提供的HTML编辑功能感觉很强大，有时候觉得比dw更加人性化，而且整合php在一个编辑器上编写前端会方便很多，以前每次通过zend格式化html代码都会奇丑无比，把html弄的各种错位和不适应的换行。今日研究了一番发现重新配置一下参数就能修正格式化html代码错位的问题。

选项：window -> preference -> web -> HTML Files -> Editor: 然后按照下图重新设置即可：

Jun16

【原创】Nutch2.1 部署问题小记

Author: leeon Click: 9905 Comments: 0 Category: 其他 Tag: apache,nutch,2.1

1.nutch2.1 src版本的包下载后是不能直接使用的，必须通过ant命令进行一次编译。

2.ant编译的时间依赖网速，编译后会在源码包的根目录下生成两个目录，分别为ivy和runtime目录。nutch的核心配置和执行文件，jar包放在runtime下，ivy目录里面的ivy.xml管理依赖关系。数据源的配置在ivy.xml中管理。

3.启动nutch时候提示：

Exception in thread "main" org.apache.gora.util.GoraException: java.io.IOException: java.lang.ClassNotFoundException: com.mysql.jdbc.Driver

在ant执行命令之前请先编辑ivy.xml文件开启mysql支持，然后执行ant会自动的下载mysql的jar包。注意这里的顺序，不要线ant再修改ivy文件。

4. nutch支持mysql的方法可以参看 http://my.oschina.net/robolin/blog/82512 这篇文章关于mysql的配置说的是正确的

5. http://agiledon.github.io/blog/2013/03/07/nutch-crawler-crawl-data-and-store-to-mysql/ 此篇文章依据2.1版本讲解了如何使用mysql做为数据源配置nutch，可以参考借鉴。

6. mysql中表及字段的参数配置是由runtime/local/conf目录下的gora-sql-mapping.xml 文件管理的，我们可以根据此配置进行数据存储的调整。

7. 出现如下日志“can't find rules for scope 'outlink'”切此时java的cpu占用率持续100%，而且没有任何数据处理迹象的时候是因为匹配的数据出现的死循环，是因为过滤条件没有写正确导致。

8. 写入db数据报错提示：

java.io.IOException: java.sql.BatchUpdateException: Data truncation: Incorrect string value: '\xE5\xBE\xAE\xE6\xB3\xA2...' for column 'id' at row 1

这是因为主键id的属性编码有问题，必须是utf8编码，且长度最好设置为主键最大长度值，每个编码的varchar最大长度还不一样，utf8设置的最大长度为255。

9. 有些网站在采集的时候会返回403，这里原因很多，但是我们首先要怀疑的是被采集网站是否对useragent做了防采集判断，我们在nutch-default.xml中关于http.agent的配置参数尽量不要写太特殊的值，useragent写成模拟google spider的最好，先模拟采集自己的网站抓访问日志看useragent是否正常。

分享未来 ^Internet _Technology

【原创】Nginx 诡异http 400问题定位

【原创】使用xmlstarlet格式化xml文本

【原创】ZendStudio中格式化HTML代码错位问题修正

【原创】Nutch2.1 部署问题小记

分类

标签

归档

最新评论

我看过的书

链接

其他

分享未来 Internet Technology

【原创】Nginx 诡异http 400问题定位

【原创】使用xmlstarlet格式化xml文本

【原创】ZendStudio中格式化HTML代码错位问题修正

【原创】Nutch2.1 部署问题小记

分类

标签

归档

最新评论

我看过的书

链接

其他

分享未来 ^Internet _Technology