tech.cap

我在一望无际的路上

cool! ruby版编码探测器[Universal Encoding Detector in Ruby]

以前一直想用java来作一个类似的东西, 今天看到ruby这边已经有了
-----
gem install chardet -y
-----

require 'rubygems'
require 'UniversalDetector'
require 'net/http'
Net::HTTP.version_1_2
Net::HTTP.start( 'www.sina.com.cn' ) {|http|
    data = http.get("/").body
    p UniversalDetector::chardet(data)
}
它是python版本的移植,  居然有个confidence参数 , 偶测试了国内几个站点, 都很准确, 不过偶发现只要是utf8或者gb2312, 返回的confidence全部都是0.99, 只有国外某些纯ascii的网页会返回1.0

posted on 2006-03-29 11:39 tech.cap 阅读(2701) 评论(0)  编辑  收藏 所属分类: ruby


标题  
姓名  
主页
验证码 *  
内容(请不要发表任何与政治相关的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      
该文被作者在 2006-03-31 12:33 编辑过
 
 
相关链接:
网站导航: