emu in blogjava

:: 管理 ::

171 随笔 :: 103 文章 :: 1052 评论 :: 2 Trackbacks

本来以为isLowerCase只有对"a"-"z"才为true，isUpperCase只有对 "A"-"Z" 才为true，其它情况下都应该是false，谁知道jdk让我大跌了一回眼镜：

public class E {
public static void main(String[] args) {
  for( char c = 170; c<65371;c++)
    if(c==8522)
      c=64255;
    else if(Character.isLowerCase(c)||Character.isUpperCase(c))
      System.out.println(c+"("+(c-0)+"):"+Character.isLowerCase(c)+" - "+Character.isUpperCase(c));
}
}

看了一下，isLowerCase()和isUpperCase()是跟着 getType()的返回走的，jdk认为，getType的返回等于 UPPERCASE_LETTER 的就是大写字母，等于 LOWERCASE_LETTER 的就是小写字母。这本来也没有错。但是 UPPERCASE_LETTER 和 LOWERCASE_LETTER 是两个整型常量，他们的定义见：

http://java.sun.com/j2se/1.4.2/docs/api/constant-values.html

java.lang.Character
...
public static final byte DIRECTIONALITY_RIGHT_TO_LEFT 1
public static final byte DIRECTIONALITY_RIGHT_TO_LEFT_ARABIC 2
...
public static final byte LOWERCASE_LETTER 2
...
public static final int MIN_RADIX 2
...
public static final byte UPPERCASE_LETTER 1

Character的常量撞车撞的这么厉害，不知道设计jdk的人是怎么想的。这样我们getType的时候获得了1，是没有办法知道这个字符是 DIRECTIONALITY_RIGHT_TO_LEFT 的还是 UPPERCASE_LETTER 的，获得2也没有办法知道是 DIRECTIONALITY_RIGHT_TO_LEFT_ARABIC 、MIN_RADIX 还是 LOWERCASE_LETTER 的，因此 isLowerCase()和isUpperCase() 通过getType()来判断是否大小写字母当然要犯错误了。

要我说，isLowerCase()和isUpperCase()全部用最简单的写法来实现，也不需要一个getType()的函数调用过程了，直接：

function isLowerCase(ch){
return (ch>='a' && ch<='z');
}
function isUpperCase(ch){
return (ch>='A' && ch<='Z');
}

不是挺好吗？

常量撞车始终是不对的，JDK为什么要这么干呢？大概是想用二进制位来组合各种type，可是又受限于常量类型被定义为byte型。可是现在的结果是，不但类型常量撞车，各种type还是不能正确的组合。

posted on 2006-03-23 12:59 emu 阅读(1949) 评论(4) 编辑收藏

# re: JDK的bug？ 2006-03-23 14:24 非鱼

要考虑I18N啊，你ch>='a' && ch<="z"才是BUG呢。回复更多评论

# re: JDK的bug？ 2006-03-24 09:25 emu

我不这么认为。isLowerCase什么时候需要关心非英语字母的大小写了？不管如何I18N(

)，ch>='a' && ch<='z'都应该是isLowerCase的正确定义啊回复更多评论

# re: JDK的bug？ 2006-03-24 11:07 charon@xxx

当然要关心了，希腊字母也有大小写来着
回复更多评论

# re: JDK的bug？ 2006-03-25 10:39 emu

是的，再看了一下JDK文档：

The following are examples of uppercase characters:

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
'\u00C0' '\u00C1' '\u00C2' '\u00C3' '\u00C4' '\u00C5' '\u00C6' '\u00C7'
'\u00C8' '\u00C9' '\u00CA' '\u00CB' '\u00CC' '\u00CD' '\u00CE' '\u00CF'
'\u00D0' '\u00D1' '\u00D2' '\u00D3' '\u00D4' '\u00D5' '\u00D6' '\u00D8'
'\u00D9' '\u00DA' '\u00DB' '\u00DC' '\u00DD' '\u00DE'

Many other Unicode characters are uppercase too.

上面两位说的有理。回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理

emu in blogjava

公告

常用链接

留言簿(93)

随笔分类(20)

随笔档案(171)

文章分类(89)

文章档案(103)

相册

收藏夹(46)

友情连接

收藏

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜

评论