iNeo

:: 管理

30 Posts :: 8 Stories :: 2 Comments :: 0 Trackbacks

　　摘要:简要介绍了一种通用的，动态树型结构的实现方案，该方案基于Asynchronous JavaScript and XML，结合Struts框架设计实现了结构清晰、扩展性良好的多层架构，数据存储于数据库，结合XML描述树的节点信息，使得任何按预定的XML文档描述的信息都可以通过动态树来展现。

　　关键词:MVC模式；Ajax；树型结构；字典序

　　树型结构是一类应用非常广泛的数据结构。人类社会中宗族的族谱和现代企业的组织形式都是树型结构。在计算机领域中,文件系统中文件的管理结构、存储器管理中的页表、数据库中的索引等也都是树型结构。随着Internet的飞速发展，树型结构在浏览器/服务器（Browser/Server，简称B/S）应用系统的应用也越来越广泛。

　　目前，在互联网上广泛存在、应用的树型结构一般分为两种：静态和动态结构。静态结构存在最多、实现简单，但是静态导致不能改变树的结构和内容，无法反映树的节点信息的变化；而实现相对复杂的动态构造树，虽然可以动态增加、删除、更新节点信息，但是大部分不能直接拖放节点来改变树的结构以及节点间的次序，并且反复刷新整个页面，给用户维护带来了许多不便。本文提出了一种基于Ajax （Asynchronous JavaScript and XML）通用的、动态加载节点的解决方案。实现上采用J2EE多层架构，树节点的描述信息采用数据库存储，以可扩展标记语言（eXtensible Markup Language，简称XML）展现给JavaScript解析，支持无刷新地增加、删除、更新节点信息，以及拖放节点来改变树的结构和节点间的次序。文中第1部分简要介绍了Ajax技术；第2部分详细介绍了该方案的技术实现过程；第3部分分析了该方案的效率。

　　1、Ajax简介

　　Ajax概念的最早提出者Jesse James Garrett认为：Ajax并不是一门新的语言或技术，它实际上是几项技术按一定的方式组合在共同的协作中发挥各自的作用，它包括：

　　·使用扩展超媒体标记语言（eXtended Hypertext Markup Language，简称XHTML）和级联样式单（Cascading Style Sheet，简称CSS）标准化呈现；

　　·使用文档对象模型（Document Object Model，简称DOM）实现动态显示和交互；

　　·使用可扩展标记语言（eXtensible Markup Language，简称XML）和可扩展样式表转换（eXtensible Stylesheet Language Transformation，简称XSLT）进行数据交换与处理；

　　·使用XMLHTTP组件XMLHttpRequest对象进行异步数据读取；

　　·最后用JavaScript绑定和处理所有数据。

　　Ajax的工作原理如图1所示，它相当于在用户和服务器之间加了一个中间层，使用户操作与服务器响应异步化。并不是所有的用户请求都提交给服务器，像— 些数据验证和数据处理等都交给Ajax引擎处理，只有确定需要从服务器读取新数据时再由Ajax引擎代为向服务器提交请求。这样就把一些服务器负担的工作转嫁到客户端，利用客户端闲置的处理能力来处理，减轻服务器和带宽的负担，从而达到节约ISP的空间及带宽租用成本的目的。

图 1 未使用Ajax（a）和使用Ajax（b）的web应用比较

　　2、总体设计方案

　　传统的服务器程序采用Model 1开发模型，通常将业务逻辑、服务器端处理过程和HTML代码集中在一起表示，快速完成应用开发。Model 1 在小规模应用开发时优势明显，但是应用实现一般是基于过程的，一组服务器页面实现一个流程，如果流程改动将导致多个地方修改，非常不利于应用的扩展和更新。此外业务逻辑和表示逻辑混合在服务器页面中，耦合紧密，无法模块化，导致代码无法复用。

　　Model 2则解决了这些问题，它是面向对象的MVC模式（Model-View-Controller，模型-视图-控制器）在Web开发中的应用，Model表示应用的业务逻辑，View是应用的表示层页面，Controller是提供应用的处理过程控制。通过这种MVC设计模式把应用逻辑，处理过程和显示逻辑划分成不同的组件、模块实现，组件间可以进行交互和重用。

　　本方案是采用J2EE的多层架构，设计时结合Struts框架将表示层、业务逻辑层和数据层划分成不同的模块。表示层专注于树的外观显示，业务逻辑层为服务器端处理程序，处理树的生成、变化，为减少耦合性，该程序全部模块化实现，不在表示页面嵌入服务器程序；模型层是数据的存储和表示。下面分别介绍各层实现。

原文链接:http://www.7dspace.com/doc/44/0512/2005122906292220003.htm

posted @ 2005-12-30 08:28 只牵这只狗阅读(340) | 评论 (0) | 编辑收藏

Google工程师详述Google的搜索结果排列算法[转]

Google工程师详述Google的搜索结果排列算法

本文作者马特-卡兹（Matt Cutts）是Google公司品质管理部门的软件工程师。他的工作主要是给好的网站评定等级，并负责开发阻止虚假或垃圾网站出现在Google搜索结果上的技术。

图书馆管理员们提出最多的问题之一是：“对于什么样的结果应该位于搜索列表的最上方，Google是如何选择的？”现在品质工程师马特-卡兹介绍了快速入门的知识，解释了Google是如何在网上爬行和索引，以及如何评定搜索结果等级的。马特也向学校图书馆管理员提出建议，告诉他们如何辅导学生。

爬行和索引

在你浏览包含了Google搜索结果的网页之前，要发生很多事情。首先是在万维网数以十亿计的网页上爬行和索引，这个工作是由Googlebot完成的，它负责与全球的网络服务器连接以收集文件。爬行不是真的在网上漫游，而是访问网络服务器返回到一个特定的网页上，接着扫描该网页建立超链接并为每一个网页编上号码。爬行可收集大量的文件，但这些文件还不能直接用于搜索。

如果没有索引，在你想查询如“civil war”（南北战争）等内容时，Google的服务器将不得不在你每次搜索时阅读每一份文件的内容。因此第二个步骤是要建立一个索引，这样就需要“转换” 爬行所获得的数据。为了不必在每一份文件上扫描每一个单词，就需要在数据上做些文章，以便显示包含了特定单词的所有文件。例如，假设单词“civil”在编号为3、8、22、56、68和92的文件上出现过，而单词“war”出现编号为2、8、15、22、68和77的文件上。

一旦建立了索引，就开始对文件进行等级评定并确定它们的相关性。假如某个人上Google搜索并输入“civil war”，为呈现和评价搜索结果需要做两件事：一是查找包含了用户提问的网页；二是按照相关性排定匹配网页的位置。Google已经开发出一个有趣的技术可加速第一步骤的过程：不是将所有索引存储在一台电脑上，而是使用数百台电脑做这种工作。由于任务被分配到很多电脑上，使得查询答案更为迅速。

为更加形象地描述这个过程，可以设想下一本30页厚书的索引。如果一个人在索引中查找数页的信息，那么每一次搜索都至少需要花几秒钟的时间；但如果你将索引的每一页分给不同的人去查找呢？三十个人分别查找索引的不同部分，要比一个人独自查找快的多。同样，Google也是将数据分配到各台电脑上以便可以更快地查找文件。

如何查找包含了用户提问的网页？让我们返回到上面举的“civil war”例子。单词“civil”在编号为3、8、22、56、68和92的文件上，单词“war”在编号为2、8、15、22、68和77的文件上，我们可以在网页上显示文件并寻找包含两个单词的文件（从下表中可以看出是8、22和68号文件）。

单词civil 3 8 22 56 68 92

单词war 2 8 15 22 68 77

两个单词都出现 8 22 68

包含了一个单词的文件列表被称为“文件标识列表”，查找包含两个单词的文件被称为“文件标识列表的交集”。

评定搜索结果

有了包含用户提问的网页后，就该按照相关性评定网页了。Google使用了很多技术，其中 PageRank算法是最有名的。PageRank评定的是两种事情：从网站到某一网页有多少个链接，提供链接的网站的排名。使用PageRank，来自 CNN和纽约时报网站的链接的价值，是很多不太有名网站的两倍。

除了PageRank外Google还使用了很多其他技术，例如一份文件所包含的 “civil”和“war”两个单词靠的很近，就比只使用了“war”单词的包含“Revolutionary War”（独立战争）的文件相关性要大的多。另外在题目中出现了“civil war”的网页，它的相关性就比题目为“19th Century American Clothing”（19世纪的美国服装）要重要的多。同样如果“civil war”在网页上出现了数次，比出现一次的网页要相关的多。

Google的目的是要找到知名度和相关性都大的网页。如果两个网页出现匹配提问的信息数量几乎一样，我们常常会选择更有名网站的链接。但如果其他方面表明一个网页更为相关，也会选择更少链接或更低排名的网页。例如，一个网页全篇都是讲“南北战争”的内容，会比只是略微提到“南北战争”的网页更为有用，即使这个网页是出现不太有名的网站上。一旦我们有了文件的列表和分值，就会选择最高分值、最匹配的文件。

Google从包含了提问单词的每一份文件中提取几句话作为摘要显示，接着将排好的URLs和摘要显示在搜索结果上。正如你所知道的运行一个搜索器需要大量的计算资源。每一次搜索需要500台以上的电脑一起工作，搜索的时间还不到半秒钟。

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=559502

posted @ 2005-12-23 14:43 只牵这只狗阅读(236) | 评论 (0) | 编辑收藏

快圣诞晚会了

快圣诞晚会了,决定出个小节目——准备“嗷嗷”一下,呵.......终于有了点快乐的气氛.....

posted @ 2005-12-22 10:27 只牵这只狗阅读(221) | 评论 (0) | 编辑收藏

螳螂捕蝉、黄雀在后——从一个成语谈观察家模式[转]

摘要: 观察家模式是一个事件通知模式，被观察者发生某个事件，或者状态发生某个变化，就通知观察者，这样观察者就能采取适当的行动。下面我以一个简单的例子来说明一下这个模式的应用。我们都知道，蜜蜂是勤劳的精灵，它总是四处采蜜。只要花朵的花瓣一张开，她就飞上去采蜜。我们轻易就能想到，在这里，蜜蜂应该是一个观察者，而花朵是一个被观察者。只要花朵发生花瓣张开事件，就通知了观... 阅读全文

posted @ 2005-12-09 16:26 只牵这只狗阅读(372) | 评论 (0) | 编辑收藏

测试时出的一个错误

今天测试时出的一个错误，数据库中一个表的说明栏位值全部成了“ui8ll/”，但却无法再现。很郁闷，搞了半天查不出什么原因。应该是编码格式出现异常，但什么原因会突然造成编码异常呢？且把整个这一栏的值全都变了而其他栏位却正常？是数据库的原因还是程序原因？
google一下“ui8ll/”，没有资料！

JSP编码:
<%@ page contentType = "text/html;charset=GBK"%>
database是DB2 栏位Type是varchar

到底是什么原因呢？

posted @ 2005-12-09 11:29 只牵这只狗阅读(219) | 评论 (0) | 编辑收藏

用XML和XSL来生成动态页面[Z]

xml（可扩展标记语言）看起来可能像某种w3c标准——现在没有什么实际影响，即使以后能派上用场，也是很久以后的事。但实际上，它现在已经得到了应用。所以，不要等到xml已被加进了你最喜爱的html编辑器中才开始使用它。它现在就可以解决各种内部问题和b2b系统问题。

在sparks.com，我们使用xml来标准化从java对象到html数据显示等不同系统之间的数据表示。

特别需要指出的是，我们发现，只要以非常基本的xml结构来实现标准化，就可以更容易地共享和操作数据。在这一过程中，我们发现了使用xml的很多有效方法。下面详细介绍我们现在的应用情况。

标准化
在使用xml之前，建立与你要使用的信息不同的xml数据格式。

生成动态xml
从数据库中生成html并不新鲜，但生成xml却很新鲜。这里我们介绍具体的生成步骤。

用xsl作为模板语言
xsl（可扩展样式表语言）是定义xml数据显示格式的好方法，如果写成几个静态模板会更有效。

生成html
xml加上xsl就等于html。这听起来似乎不对，但用户所见的我们的html页面其实就是xml和xsl共同产生的效果。

一、标准化

xml的能力来自于它的灵活性。但不幸的是，它有时太灵活了，以至于你会面对一个空白的页面，发愁该怎么解决问题。

在任何xml的项目中，第一步工作都是创建标准的数据格式。为此你要作出以下决定：

• 要涉及哪些数据
• 是否要使用dtd（文件类型定义）
• 是否要使用dom（文档对象模型）或sax（xml的简化api）解析

确定数据：
因为没有标准的xml格式，开发者可以自由地开发自己的格式。然而，如果你的格式只能被一个应用程序识别，那么你只能运行这个程序来使用该格式。如果还有其他程序也能读懂你的xml格式，那显然会更有帮助。如果某个xml格式被修改，则使用它的系统可能也需要被修改，所以你应该建立尽可能完整的格式。因为大多数系统忽略它们无法识别的标签，所以改变一个xml格式的最安全的方法是添加标签，而不是修改标签。

单击此处查看xml数据格式实例

在sparks.com，我们查看了不同的产品展示需要的所有产品数据。尽管并不是所有的页面都使用全部数据，但我们还是由此开发出适用于所有数据的非常完整的xml数据格式。例如，我们的产品明细信息页面显示的数据要比产品浏览页面多。然而，我们在这两种情况下仍然使用相同的数据格式，因为每个页面的xsl模板都只使用它所需要的字段。

是否使用dtd
在sparks.com，我们使用组织良好的xml，而不使用仅仅是正确的xml，因为前者不需要dtd。dtd在用户点击和看到页面之间加入了一个处理层。我们发现这一层需要太多的处理。当然，在以xml格式与其他公司通信时，使用dtd还是很不错的。因为dtd能在发送和接受时能保证数据结构正确。

选择解析引擎
现在，可以使用的解析引擎有好几个。选择哪一个几乎完全取决于你的应用需要。如果你决定使用dtd，那么这个解析引擎必须能使你的xml被dtd验证。你可以将验证另放到一个进程中，但那样会影响性能。

sax和dom是两个基本的解析模型。sax基于事件，所以在xml被解析时，事件被发送给引擎。接下来，事件与输出文件同步。dom解析引擎为动态xml数据和xsl样式表建立层次树状结构。通过随机访问dom树，可以提供xml数据，就象由xsl样式表来决定一样。sax模型上的争论主要集中于对dom结构的内存降低过度和加快xsl样式表解析时间缩短方面。

然而，我们发现使用sax的很多系统并没有充分发挥它的能力。这些系统用它来建立dom结构并通过dom结构来发送事件。用这种方法，在任何xml处理之前必须从样式表中建立dom，所以性能会下降。

二、生成动态xml

一旦建立了xml格式，我们需要一种能够将其从数据库中动态移植的方法。

生成xml文档相对来说比较简单，因为它只需要一个可以处理字符串的系统。我们建立了一个使用java servlet、enterprise javabean server、jdbc和rdbms（关系型数据库管理系统）的系统。

• servlet通过把生成xml文档的任务交给enterprise javabean (ejb)来处理产品信息请求。
• ejb使用jdbc从数据库里查询所需的产品详细信息。
• ejb生成xml文件并把它传递给servlet。
• servlet调用解析引擎，从xml文件和静态的xsl样式表中创建html输出。

（有关xsl应用的其他信息，请参阅用xsl作为模板语言。）

生成xml的例子
在java中创建xml文档字符串的真正代码可以分成几个方法和类。

启动xml生成过程的代码放在ejb方法里。这一实例会立即创建一个stringbuffer，以便存储生成的xml字符串。

stringbuffer xml = new stringbuffer();
xml.append(xmlutils.begindocument("/browse_find/browse.xsl", "browse", request));
xml.append(product.toxml());
xml.append(xmlutils.enddocument("browse");
out.print(xml.tostring());

后面的三个xml.append()变元本身就是对其他方法的调用。
产生文件头
第一个附加方法调用xmlutils类来产生xml文件头。我们的java servlet中的代码如下：

public static string begindocument(string stylesheet, string page)
{
    stringbuffer xml = new stringbuffer();
    xml.append("\n")
    .append("    .append(stylesheet).append("\"")
    .append(" type =\"text/xsl\"?>\n");
xml.append("<").append(page).append(">\n");
return xml.tostring();
}

这段代码生成了xml文件头。标签把本文件定义为支持1.0版本的xml文件。第二行代码指向用以显示数据的正确样式表的位置。最后包括进去的是项级标签（本实例中为）。在文件末尾，只有标签需要被关闭。

填入产品信息
完成了文件头后，控制方法会调用java对象来产生它的xml。本例中调用的是product对象。product对象使用两个方法来产生它的xml表示。第一个方法toxml()通过产生和标签来建立product节点。然后它会调用internalxml()，这样就能提供产品xml所需的内容。internalxml()是一系列的stringbuffer.append()调用。stringbuffer也被转换成字符串并返回给控制方法。
public string toxml()
    {
    stringbuffer xml = new stringbuffer("\n");
    xml.append(internalxml());
    xml.append("\n");
    return xml.tostring();
    }

public string internalxml()
    {
    stringbuffer xml = new
    stringbuffer("\t")
        .append(producttype).append("\n");
    xml.append("\t").append(idvalue.trim())
        .append("\n");
    xml.append("\t").append(idname.trim())
        .append("\n");
    xml.append("\t").append(page.trim())
        .append("\n");
厖?
      xml.append("\t").append(amount).append("\n");
    xml.append("\t").append(vendor).append("\n");
    xml.append("\t\n");
    xml.append("\t").append(pubdesc).append("\n");
    xml.append("\t").append(vendesc).append("\n";
厖?
    return xml.tostring();
}

关闭文件
最后，xmlutils.enddocument()方法被调用。这个调用关闭xml标签（本例中为），并最终完成架构好的xml文件。来自控制方法的整个stringbuffer也转换成字符串，并返回给处理最初http请求的servlet。

三、用xsl作为模板语言

为了得到html输出，我们把生成的xml文件和控制xml数据如何表示的xsl模板相结合。我们的xsl模板由精心组织的xsl和html标签组成。

开始建模板
我们的xsl模板开始部分与下面这段代码类似。第一行代码为必需代码，将本文件定义为xsl样式表。xmlns:xsl=属性引用本文件所使用的xml名称空间，而version=属性则定义名称空间的版本号。在文件的末尾，我们关闭标签。

由开始的第二行代码确定了xsl模板的模式。match属性是必需的，在这里指向xml标签。在我们的系统里，标签里包含标签，这使得xsl模板可以访问嵌在标签内的产品信息。我们又一次必须在文件末尾关闭标签。

接下来，我们来看一看组织良好的html。由于它将被xml解析引擎处理，所以必须符合组织良好的xml的所有规则。从本质上来讲，这意味着所有的开始标签必须有对应的结束标签。例如，通常不被结束的

标签，必须用

关闭。
http://www.w3.org/1999/xsl/transform"
version="1.0">?br>
在模板的主体内，有很多xsl标签被用于为数据表示提供逻辑。下面解释两个常用的标签。
choose
标签类似于传统编程语言中if-then-else结构的开始部分。在xsl中，choose标签表示在代码进入的部分中，赋值将触发动作的发生。拥有赋值属性的标签跟在choose标签后面。如果赋值是正确的，位于的开始和结束标签之间的内容将被使用。如果赋值错误，就使用的开始和结束标签之间的内容。整个部分用来结束。

在这个例子里，when标签会为quantity标签检查xml。如果quantity标签里含有值为真的error属性，quantity标签将会显示列在下面的表格单元。如果属性的值不为真，xsl将会显示otherwise标签间的内容。在下面的实例里，如果error属性不真，则什么都不会被显示。

posted @ 2005-12-07 11:47 只牵这只狗阅读(265) | 评论 (0) | 编辑收藏

Java Map 集合类简介[转]

java.util 中的集合类包含 Java 中某些最常用的类。最常用的集合类是 List 和 Map。 List 的具体实现包括 ArrayList 和 Vector，它们是可变大小的列表，比较适合构建、存储和操作任何类型对象的元素列表。 List 适用于按数值索引访问元素的情形。

Map 提供了一个更通用的元素存储方法。 Map 集合类用于存储元素对（称作“键”和“值”），其中每个键映射到一个值。从概念上而言，您可以将 List 看作是具有数值键的 Map。而实际上，除了 List 和 Map 都在定义 java.util 中外，两者并没有直接的联系。本文将着重介绍核心 Java 发行套件中附带的 Map，同时还将介绍如何采用或实现更适用于您应用程序特定数据的专用 Map。

了解 Map 接口和方法

Java 核心类中有很多预定义的 Map 类。在介绍具体实现之前，我们先介绍一下 Map 接口本身，以便了解所有实现的共同点。 Map 接口定义了四种类型的方法，每个 Map 都包含这些方法。下面，我们从两个普通的方法（表 1）开始对这些方法加以介绍。

表 1：覆盖的方法。我们将这 Object 的这两个方法覆盖，以正确比较 Map 对象的等价性。 equals(Object o) 比较指定对象与此 Map 的等价性
hashCode() 返回此 Map 的哈希码

Map 构建

Map 定义了几个用于插入和删除元素的变换方法（表 2）。

表 2： Map 更新方法：可以更改 Map 内容。 clear() 从 Map 中删除所有映射
remove(Object key) 从 Map 中删除键和关联的值
put(Object key, Object value) 将指定值与指定键相关联
clear() 从 Map 中删除所有映射
putAll(Map t) 将指定 Map 中的所有映射复制到此 map

尽管您可能注意到，纵然假设忽略构建一个需要传递给 putAll() 的 Map 的开销，使用 putAll() 通常也并不比使用大量的 put() 调用更有效率，但 putAll() 的存在一点也不稀奇。这是因为，putAll() 除了迭代 put() 所执行的将每个键值对添加到 Map 的算法以外，还需要迭代所传递的 Map 的元素。但应注意，putAll() 在添加所有元素之前可以正确调整 Map 的大小，因此如果您未亲自调整 Map 的大小（我们将对此进行简单介绍），则 putAll() 可能比预期的更有效。

查看 Map

迭代 Map 中的元素不存在直接了当的方法。如果要查询某个 Map 以了解其哪些元素满足特定查询，或如果要迭代其所有元素（无论原因如何），则您首先需要获取该 Map 的“视图”。有三种可能的视图（参见表 3）

所有键值对 — 参见 entrySet()
所有键 — 参见 keySet()
所有值 — 参见 values()

前两个视图均返回 Set 对象，第三个视图返回 Collection 对象。就这两种情况而言，问题到这里并没有结束，这是因为您无法直接迭代 Collection 对象或 Set 对象。要进行迭代，您必须获得一个 Iterator 对象。因此，要迭代 Map 的元素，必须进行比较烦琐的编码

Iterator keyValuePairs = aMap.entrySet().iterator();
Iterator keys = aMap.keySet().iterator();
Iterator values = aMap.values().iterator();

值得注意的是，这些对象（Set、Collection 和 Iterator）实际上是基础 Map 的视图，而不是包含所有元素的副本。这使它们的使用效率很高。另一方面，Collection 或 Set 对象的 toArray() 方法却创建包含 Map 所有元素的数组对象，因此除了确实需要使用数组中元素的情形外，其效率并不高。

我运行了一个小测试（随附文件中的 Test1），该测试使用了 HashMap，并使用以下两种方法对迭代 Map 元素的开销进行了比较：

int mapsize = aMap.size();

Iterator keyValuePairs1 = aMap.entrySet().iterator();
for (int i = 0; i < mapsize; i++)
{
Map.Entry entry = (Map.Entry) keyValuePairs1.next();
Object key = entry.getKey();
Object value = entry.getValue();
...
}

Object[] keyValuePairs2 = aMap.entrySet().toArray();
for (int i = 0; i < rem; i++) {
{
Map.Entry entry = (Map.Entry) keyValuePairs2[i];
Object key = entry.getKey();

Object value = entry.getValue();
...
}

此测试使用了两种测量方法：一种是测量迭代元素的时间，另一种测量使用 toArray 调用创建数组的其他开销。第一种方法（忽略创建数组所需的时间）表明，使用已从 toArray 调用中创建的数组迭代元素的速度要比使用 Iterator 的速度大约快 30%-60%。但如果将使用 toArray 方法创建数组的开销包含在内，则使用 Iterator 实际上要快 10%-20%。因此，如果由于某种原因要创建一个集合元素的数组而非迭代这些元素，则应使用该数组迭代元素。但如果您不需要此中间数组，则不要创建它，而是使用 Iterator 迭代元素。

表 3：返回视图的 Map 方法：使用这些方法返回的对象，您可以遍历 Map 的元素，还可以删除 Map 中的元素。 entrySet() 返回 Map 中所包含映射的 Set 视图。 Set 中的每个元素都是一个 Map.Entry 对象，可以使用 getKey() 和 getValue() 方法（还有一个 setValue() 方法）访问后者的键元素和值元素
keySet() 返回 Map 中所包含键的 Set 视图。删除 Set 中的元素还将删除 Map 中相应的映射（键和值）
values() 返回 map 中所包含值的 Collection 视图。删除 Collection 中的元素还将删除 Map 中相应的映射（键和值）

访问元素

表 4 中列出了 Map 访问方法。Map 通常适合按键（而非按值）进行访问。 Map 定义中没有规定这肯定是真的，但通常您可以期望这是真的。例如，您可以期望 containsKey() 方法与 get() 方法一样快。另一方面，containsValue() 方法很可能需要扫描 Map 中的值，因此它的速度可能比较慢。

表 4： Map 访问和测试方法：这些方法检索有关 Map 内容的信息但不更改 Map 内容。 get(Object key) 返回与指定键关联的值
containsKey(Object key) 如果 Map 包含指定键的映射，则返回 true
containsValue(Object value) 如果此 Map 将一个或多个键映射到指定值，则返回 true
isEmpty() 如果 Map 不包含键-值映射，则返回 true
size() 返回 Map 中的键-值映射的数目

对使用 containsKey() 和 containsValue() 遍历 HashMap 中所有元素所需时间的测试表明，containsValue() 所需的时间要长很多。实际上要长几个数量级！（参见图 1 和图 2，以及随附文件中的 Test2）。因此，如果 containsValue() 是应用程序中的性能问题，它将很快显现出来，并可以通过监测您的应用程序轻松地将其识别。这种情况下，我相信您能够想出一个有效的替换方法来实现 containsValue() 提供的等效功能。但如果想不出办法，则一个可行的解决方案是再创建一个 Map，并将第一个 Map 的所有值作为键。这样，第一个 Map 上的 containsValue() 将成为第二个 Map 上更有效的 containsKey()。

图 1：使用 JDeveloper 创建并运行 Map 测试类

图 2：在 JDeveloper 中使用执行监测器进行的性能监测查出应用程序中的瓶颈

核心 Map

Java 自带了各种 Map 类。这些 Map 类可归为三种类型：

通用 Map，用于在应用程序中管理映射，通常在 java.util 程序包中实现
HashMap
Hashtable
Properties
LinkedHashMap
IdentityHashMap
TreeMap
WeakHashMap
ConcurrentHashMap
专用 Map，您通常不必亲自创建此类 Map，而是通过某些其他类对其进行访问
java.util.jar.Attributes
javax.print.attribute.standard.PrinterStateReasons
java.security.Provider
java.awt.RenderingHints
javax.swing.UIDefaults
一个用于帮助实现您自己的 Map 类的抽象类
AbstractMap

内部哈希：哈希映射技术

几乎所有通用 Map 都使用哈希映射。这是一种将元素映射到数组的非常简单的机制，您应了解哈希映射的工作原理，以便充分利用 Map。

哈希映射结构由一个存储元素的内部数组组成。由于内部采用数组存储，因此必然存在一个用于确定任意键访问数组的索引机制。实际上，该机制需要提供一个小于数组大小的整数索引值。该机制称作哈希函数。在 Java 基于哈希的 Map 中，哈希函数将对象转换为一个适合内部数组的整数。您不必为寻找一个易于使用的哈希函数而大伤脑筋：每个对象都包含一个返回整数值的 hashCode() 方法。要将该值映射到数组，只需将其转换为一个正值，然后在将该值除以数组大小后取余数即可。以下是一个简单的、适用于任何对象的 Java 哈希函数

int hashvalue = Maths.abs(key.hashCode()) % table.length;

（% 二进制运算符（称作模）将左侧的值除以右侧的值，然后返回整数形式的余数。）

实际上，在 1.4 版发布之前，这就是各种基于哈希的 Map 类所使用的哈希函数。但如果您查看一下代码，您将看到

int hashvalue = (key.hashCode() & 0x7FFFFFFF) % table.length;

它实际上是使用更快机制获取正值的同一函数。在 1.4 版中，HashMap 类实现使用一个不同且更复杂的哈希函数，该函数基于 Doug Lea 的 util.concurrent 程序包（稍后我将更详细地再次介绍 Doug Lea 的类）。

图 3：哈希工作原理

该图介绍了哈希映射的基本原理，但我们还没有对其进行详细介绍。我们的哈希函数将任意对象映射到一个数组位置，但如果两个不同的键映射到相同的位置，情况将会如何？这是一种必然发生的情况。在哈希映射的术语中，这称作冲突。 Map 处理这些冲突的方法是在索引位置处插入一个链接列表，并简单地将元素添加到此链接列表。因此，一个基于哈希的 Map 的基本 put() 方法可能如下所示

public Object put(Object key, Object value) {
//我们的内部数组是一个 Entry 对象数组
//Entry[] table;

//获取哈希码，并映射到一个索引
int hash = key.hashCode();
int index = (hash & 0x7FFFFFFF) % table.length;

//循环遍历位于 table[index] 处的链接列表，以查明
//我们是否拥有此键项 — 如果拥有，则覆盖它
for (Entry e = table[index] ; e != null ; e = e.next) {
//必须检查键是否相等，原因是不同的键对象
//可能拥有相同的哈希
if ((e.hash == hash) && e.key.equals(key)) {
//这是相同键，覆盖该值
//并从该方法返回 old 值
Object old = e.value;
e.value = value;
return old;
}
}

//仍然在此处，因此它是一个新键，只需添加一个新 Entry
//Entry 对象包含 key 对象、 value 对象、一个整型的 hash、
//和一个指向列表中的下一个 Entry 的 next Entry

//创建一个指向上一个列表开头的新 Entry，
//并将此新 Entry 插入表中
Entry e = new Entry(hash, key, value, table[index]);
table[index] = e;

return null;
}

如果看一下各种基于哈希的 Map 的源代码，您将发现这基本上就是它们的工作原理。此外，还有一些需要进一步考虑的事项，如处理空键和值以及调整内部数组。此处定义的 put() 方法还包含相应 get() 的算法，这是因为插入包括搜索映射索引处的项以查明该键是否已经存在。（即 get() 方法与 put() 方法具有相同的算法，但 get() 不包含插入和覆盖代码。）使用链接列表并不是解决冲突的唯一方法，某些哈希映射使用另一种“开放式寻址”方案，本文对其不予介绍。

优化 Hasmap

如果哈希映射的内部数组只包含一个元素，则所有项将映射到此数组位置，从而构成一个较长的链接列表。由于我们的更新和访问使用了对链接列表的线性搜索，而这要比 Map 中的每个数组索引只包含一个对象的情形要慢得多，因此这样做的效率很低。访问或更新链接列表的时间与列表的大小线性相关，而使用哈希函数访问或更新数组中的单个元素则与数组大小无关 — 就渐进性质（Big-O 表示法）而言，前者为 O(n)，而后者为 O(1)。因此，使用一个较大的数组而不是让太多的项聚集在太少的数组位置中是有意义的。

调整 Map 实现的大小

在哈希术语中，内部数组中的每个位置称作“存储桶”(bucket)，而可用的存储桶数（即内部数组的大小）称作容量 (capacity)。为使 Map 对象有效地处理任意数目的项，Map 实现可以调整自身的大小。但调整大小的开销很大。调整大小需要将所有元素重新插入到新数组中，这是因为不同的数组大小意味着对象现在映射到不同的索引值。先前冲突的键可能不再冲突，而先前不冲突的其他键现在可能冲突。这显然表明，如果将 Map 调整得足够大，则可以减少甚至不再需要重新调整大小，这很有可能显著提高速度。

使用 1.4.2 JVM 运行一个简单的测试，即用大量的项（数目超过一百万）填充 HashMap。表 5 显示了结果，并将所有时间标准化为已预先设置大小的服务器模式（关联文件中的 Test3）。对于已预先设置大小的 JVM，客户端和服务器模式 JVM 运行时间几乎相同（在放弃 JIT 编译阶段后）。但使用 Map 的默认大小将引发多次调整大小操作，开销很大，在服务器模式下要多用 50% 的时间，而在客户端模式下几乎要多用两倍的时间！

表 5：填充已预先设置大小的 HashMap 与填充默认大小的 HashMap 所需时间的比较客户端模式服务器模式
预先设置的大小 100% 100%
默认大小 294% 157%

使用负载因子

为确定何时调整大小，而不是对每个存储桶中的链接列表的深度进行记数，基于哈希的 Map 使用一个额外参数并粗略计算存储桶的密度。 Map 在调整大小之前，使用名为“负载因子”的参数指示 Map 将承担的“负载”量，即它的负载程度。负载因子、项数（Map 大小）与容量之间的关系简单明了：

如果（负载因子）x（容量）>（Map 大小），则调整 Map 大小

例如，如果默认负载因子为 0.75，默认容量为 11，则 11 x 0.75 = 8.25，该值向下取整为 8 个元素。因此，如果将第 8 个项添加到此 Map，则该 Map 将自身的大小调整为一个更大的值。相反，要计算避免调整大小所需的初始容量，用将要添加的项数除以负载因子，并向上取整，例如，

对于负载因子为 0.75 的 100 个项，应将容量设置为 100/0.75 = 133.33，并将结果向上取整为 134（或取整为 135 以使用奇数）

奇数个存储桶使 map 能够通过减少冲突数来提高执行效率。虽然我所做的测试（关联文件中的Test4）并未表明质数可以始终获得更好的效率，但理想情形是容量取质数。 1.4 版后的某些 Map（如 HashMap 和 LinkedHashMap，而非 Hashtable 或 IdentityHashMap）使用需要 2 的幂容量的哈希函数，但下一个最高 2 的幂容量由这些 Map 计算，因此您不必亲自计算。

负载因子本身是空间和时间之间的调整折衷。较小的负载因子将占用更多的空间，但将降低冲突的可能性，从而将加快访问和更新的速度。使用大于 0.75 的负载因子可能是不明智的，而使用大于 1.0 的负载因子肯定是不明知的，这是因为这必定会引发一次冲突。使用小于 0.50 的负载因子好处并不大，但只要您有效地调整 Map 的大小，应不会对小负载因子造成性能开销，而只会造成内存开销。但较小的负载因子将意味着如果您未预先调整 Map 的大小，则导致更频繁的调整大小，从而降低性能，因此在调整负载因子时一定要注意这个问题。

选择适当的 Map

应使用哪种 Map？它是否需要同步？要获得应用程序的最佳性能，这可能是所面临的两个最重要的问题。当使用通用 Map 时，调整 Map 大小和选择负载因子涵盖了 Map 调整选项。

以下是一个用于获得最佳 Map 性能的简单方法

将您的所有 Map 变量声明为 Map，而不是任何具体实现，即不要声明为 HashMap 或 Hashtable，或任何其他 Map 类实现。

Map criticalMap = new HashMap(); //好

HashMap criticalMap = new HashMap(); //差

这使您能够只更改一行代码即可非常轻松地替换任何特定的 Map 实例。

下载 Doug Lea 的 util.concurrent 程序包 (http://gee.cs.oswego.edu/dl/classes/EDU/oswego/cs/dl/util/concurrent/intro.html)。将 ConcurrentHashMap 用作默认 Map。当移植到 1.5 版时，将 java.util.concurrent.ConcurrentHashMap 用作您的默认 Map。不要将 ConcurrentHashMap 包装在同步的包装器中，即使它将用于多个线程。使用默认大小和负载因子。
监测您的应用程序。如果发现某个 Map 造成瓶颈，则分析造成瓶颈的原因，并部分或全部更改该 Map 的以下内容： Map 类；Map 大小；负载因子；关键对象 equals() 方法实现。专用的 Map 的基本上都需要特殊用途的定制 Map 实现，否则通用 Map 将实现您所需的性能目标。

Map 选择

也许您曾期望更复杂的考量，而这实际上是否显得太容易？好的，让我们慢慢来。首先，您应使用哪种 Map？答案很简单：不要为您的设计选择任何特定的 Map，除非实际的设计需要指定一个特殊类型的 Map。设计时通常不需要选择具体的 Map 实现。您可能知道自己需要一个 Map，但不知道使用哪种。而这恰恰就是使用 Map 接口的意义所在。直到需要时再选择 Map 实现 — 如果随处使用“Map”声明的变量，则更改应用程序中任何特殊 Map 的 Map 实现只需要更改一行，这是一种开销很少的调整选择。是否要使用默认的 Map 实现？我很快将谈到这个问题。

同步 Map

同步与否有何差别？（对于同步，您既可以使用同步的 Map，也可以使用 Collections.synchronizedMap() 将未同步的 Map 转换为同步的 Map。后者使用“同步的包装器”）这是一个异常复杂的选择，完全取决于您如何根据多线程并发访问和更新使用 Map，同时还需要进行维护方面的考虑。例如，如果您开始时未并发更新特定 Map，但它后来更改为并发更新，情况将如何？在这种情况下，很容易在开始时使用一个未同步的 Map，并在后来向应用程序中添加并发更新线程时忘记将此未同步的 Map 更改为同步的 Map。这将使您的应用程序容易崩溃（一种要确定和跟踪的最糟糕的错误）。但如果默认为同步，则将因随之而来的可怕性能而序列化执行多线程应用程序。看起来，我们需要某种决策树来帮助我们正确选择。

Doug Lea 是纽约州立大学奥斯威戈分校计算机科学系的教授。他创建了一组公共领域的程序包（统称 util.concurrent），该程序包包含许多可以简化高性能并行编程的实用程序类。这些类中包含两个 Map，即 ConcurrentReaderHashMap 和 ConcurrentHashMap。这些 Map 实现是线程安全的，并且不需要对并发访问或更新进行同步，同时还适用于大多数需要 Map 的情况。它们还远比同步的 Map（如 Hashtable）或使用同步的包装器更具伸缩性，并且与 HashMap 相比，它们对性能的破坏很小。 util.concurrent 程序包构成了 JSR166 的基础；JSR166 已经开发了一个包含在 Java 1.5 版中的并发实用程序，而 Java 1.5 版将把这些 Map 包含在一个新的 java.util.concurrent 程序包中。

所有这一切意味着您不需要一个决策树来决定是使用同步的 Map 还是使用非同步的 Map，而只需使用 ConcurrentHashMap。当然，在某些情况下，使用 ConcurrentHashMap 并不合适。但这些情况很少见，并且应具体情况具体处理。这就是监测的用途。

结束语

通过 Oracle JDeveloper 可以非常轻松地创建一个用于比较各种 Map 性能的测试类。更重要的是，集成良好的监测器可以在开发过程中快速、轻松地识别性能瓶颈 - 集成到 IDE 中的监测器通常被较频繁地使用，以便帮助构建一个成功的工程。现在，您已经拥有了一个监测器并了解了有关通用 Map 及其性能的基础知识，可以开始运行您自己的测试，以查明您的应用程序是否因 Map 而存在瓶颈以及在何处需要更改所使用的 Map。

以上内容介绍了通用 Map 及其性能的基础知识。当然，有关特定 Map 实现以及如何根据不同的需求使用它们还存在更多复杂和值得关注的事项，这些将在本文第 2 部分中介绍。

--------------------------------------------------------------------------------
Jack Shirazi 是 O''Reilly 的“Java 性能调整”的作者，以及受欢迎的 JavaPerformanceTuning.com 网站（提供 Java 性能信息的全球知名站点）的总监。 Jack 在 Java 性能领域提供咨询并著书立说。他还监督 JavaPerformanceTuning.com 提供的信息，其中包括每年大约发布 1000 条性能技巧以及许多有关性能工具、讨论组等内容的文章。 Jack 早年还曾发布有关蛋白质结构预测以及黑洞热力学方面的文章，而且在其空闲时还对某些 Perl5 核心模块作出了贡献。

posted @ 2005-12-06 13:16 只牵这只狗阅读(654) | 评论 (0) | 编辑收藏

正则表达式之道[转]

原著：Steve Mansour
sman@scruznet.com
Revised: June 5, 1999
(copied by jm /at/ jmason.org from http://www.scruz.net/%7esman/regexp.htm, after the original disappeared! )

翻译：Neo Lee
什么是正则表达式

一个正则表达式，就是用某种模式去匹配一类字符串的一个公式。很多人因为它们看上去比较古怪而且复杂所以不敢去使用——很不幸，这篇文章也不能够改变这一点，不过，经过一点点练习之后我就开始觉得这些复杂的表达式其实写起来还是相当简单的，而且，一旦你弄懂它们，你就能把数小时辛苦而且易错的文本处理工作压缩在几分钟（甚至几秒钟）内完成。正则表达式被各种文本编辑软件、类库（例如Rogue Wave的tools.h++）、脚本工具（像awk/grep/sed）广泛的支持，而且像Microsoft的Visual C++这种交互式IDE也开始支持它了。

我们将在如下的章节中利用一些例子来解释正则表达式的用法，绝大部分的例子是基于vi中的文本替换命令和grep文件搜索命令来书写的，不过它们都是比较典型的例子，其中的概念可以在sed、awk、perl和其他支持正则表达式的编程语言中使用。你可以看看不同工具中的正则表达式这一节，其中有一些在别的工具中使用正则表达式的例子。还有一个关于vi中文本替换命令（s）的简单说明附在文后供参考。

正则表达式基础

正则表达式由一些普通字符和一些元字符（metacharacters）组成。普通字符包括大小写的字母和数字，而元字符则具有特殊的含义，我们下面会给予解释。

在最简单的情况下，一个正则表达式看上去就是一个普通的查找串。例如，正则表达式"testing"中没有包含任何元字符，，它可以匹配"testing"和"123testing"等字符串，但是不能匹配"Testing"。

要想真正的用好正则表达式，正确的理解元字符是最重要的事情。下表列出了所有的元字符和对它们的一个简短的描述。

元字符 描述

. 匹配任何单个字符。例如正则表达式r.t匹配这些字符串：rat、rut、r t，但是不匹配root。

$ 匹配行结束符。例如正则表达式weasel$ 能够匹配字符串"He's a weasel"的末尾，但是不能匹配字符串"They are a bunch of weasels."。

^ 匹配一行的开始。例如正则表达式^When in能够匹配字符串"When in the course of human events"的开始，但是不能匹配"What and When in the"。

* 匹配0或多个正好在它之前的那个字符。例如正则表达式.*意味着能够匹配任意数量的任何字符。

\ 这是引用府，用来将这里列出的这些元字符当作普通的字符来进行匹配。例如正则表达式\$被用来匹配美元符号，而不是行尾，类似的，正则表达式\.用来匹配点字符，而不是任何字符的通配符。

[ ]
[c1-c2]
[^c1-c2] 匹配括号中的任何一个字符。例如正则表达式r[aou]t匹配rat、rot和rut，但是不匹配ret。可以在括号中使用连字符-来指定字符的区间，例如正则表达式[0-9]可以匹配任何数字字符；还可以制定多个区间，例如正则表达式[A-Za-z]可以匹配任何大小写字母。另一个重要的用法是“排除”，要想匹配除了指定区间之外的字符——也就是所谓的补集——在左边的括号和第一个字符之间使用^字符，例如正则表达式[^269A-Z] 将匹配除了2、6、9和所有大写字母之外的任何字符。

\< \> 匹配词（word）的开始（\<）和结束（\>）。例如正则表达式\<the能够匹配字符串"for the wise"中的"the"，但是不能匹配字符串"otherwise"中的"the"。注意：这个元字符不是所有的软件都支持的。

 将 $ 和 $ 之间的表达式定义为“组”（group），并且将匹配这个表达式的字符保存到一个临时区域（一个正则表达式中最多可以保存9个），它们可以用 \1 到\9 的符号来引用。

| 将两个匹配条件进行逻辑“或”（Or）运算。例如正则表达式(him|her) 匹配"it belongs to him"和"it belongs to her"，但是不能匹配"it belongs to them."。注意：这个元字符不是所有的软件都支持的。

+ 匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。注意：这个元字符不是所有的软件都支持的。

? 匹配0或1个正好在它之前的那个字符。注意：这个元字符不是所有的软件都支持的。

\{i\}
\{i,j\} 匹配指定数目的字符，这些字符是在它之前的表达式定义的。例如正则表达式A[0-9]\{3\} 能够匹配字符"A"后面跟着正好3个数字字符的串，例如A123、A348等，但是不匹配A1234。而正则表达式[0-9]\{4,6\} 匹配连续的任意4个、5个或者6个数字字符。注意：这个元字符不是所有的软件都支持的。

*元字符*		描述

`.`		匹配任何单个字符。例如正则表达式`r.t`匹配这些字符串：rat、rut、r t，但是不匹配root。
`$`		匹配行结束符。例如正则表达式`weasel$` 能够匹配字符串"He's a weasel"的末尾，但是不能匹配字符串"They are a bunch of weasels."。
^		匹配一行的开始。例如正则表达式`^When in`能够匹配字符串"When in the course of human events"的开始，但是不能匹配"What and When in the"。
*``**		匹配0或多个正好在它之前的那个字符。例如正则表达式*`.`**意味着能够匹配任意数量的任何字符。
`\`		这是引用府，用来将这里列出的这些元字符当作普通的字符来进行匹配。例如正则表达式`\$`被用来匹配美元符号，而不是行尾，类似的，正则表达式`\.`用来匹配点字符，而不是任何字符的通配符。
`[ ]` `[c1-c2]` `[^c1-c2]`		匹配括号中的任何一个字符。例如正则表达式`r[aou]t`匹配rat、rot和rut，但是不匹配ret。可以在括号中使用连字符-来指定字符的区间，例如正则表达式`[0-9]`可以匹配任何数字字符；还可以制定多个区间，例如正则表达式`[A-Za-z]`可以匹配任何大小写字母。另一个重要的用法是“排除”，要想匹配除了指定区间之外的字符——也就是所谓的补集——在左边的括号和第一个字符之间使用^字符，例如正则表达式`[^269A-Z]` 将匹配除了2、6、9和所有大写字母之外的任何字符。
`\< \>`		匹配词（word）的开始（\<）和结束（\>）。例如正则表达式`\<the`能够匹配字符串"for the wise"中的"the"，但是不能匹配字符串"otherwise"中的"the"。注意：这个元字符不是所有的软件都支持的。
`\( \)`		将 \( 和 \) 之间的表达式定义为“组”（group），并且将匹配这个表达式的字符保存到一个临时区域（一个正则表达式中最多可以保存9个），它们可以用 `\1` 到`\9` 的符号来引用。
`\|`		将两个匹配条件进行逻辑“或”（Or）运算。例如正则表达式`(him\|her)` 匹配"it belongs to him"和"it belongs to her"，但是不能匹配"it belongs to them."。注意：这个元字符不是所有的软件都支持的。
`+`		匹配1或多个正好在它之前的那个字符。例如正则表达式`9+`匹配9、99、999等。注意：这个元字符不是所有的软件都支持的。
`?`		匹配0或1个正好在它之前的那个字符。注意：这个元字符不是所有的软件都支持的。
`\{`i`\}` `\{`i`,`j`\}`		匹配指定数目的字符，这些字符是在它之前的表达式定义的。例如正则表达式`A[0-9]\{3\}` 能够匹配字符"A"后面跟着正好3个数字字符的串，例如A123、A348等，但是不匹配A1234。而正则表达式`[0-9]\{4,6\}` 匹配连续的任意4个、5个或者6个数字字符。注意：这个元字符不是所有的软件都支持的。

最简单的元字符是点，它能够匹配任何单个字符（注意不包括新行符）。假定有个文件test.txt包含以下几行内容：

he is a rat

he is in a rut

the food is Rotten

I like root beer

我们可以使用grep命令来测试我们的正则表达式，grep命令使用正则表达式去尝试匹配指定文件的每一行，并将至少有一处匹配表达式的所有行显示出来。命令

grep r.t test.txt

在test.txt文件中的每一行中搜索正则表达式r.t，并打印输出匹配的行。正则表达式r.t匹配一个r接着任何一个字符再接着一个t。所以它将匹配文件中的rat和rut，而不能匹配Rotten中的Rot，因为正则表达式是大小写敏感的。要想同时匹配大写和小写字母，应该使用字符区间元字符（方括号）。正则表达式[Rr]能够同时匹配R和r。所以，要想匹配一个大写或者小写的r接着任何一个字符再接着一个t就要使用这个表达式：[Rr].t。

要想匹配行首的字符要使用抑扬字符（^）——又是也被叫做插入符。例如，想找到text.txt中行首"he"打头的行，你可能会先用简单表达式he，但是这会匹配第三行的the，所以要使用正则表达式^he，它只匹配在行首出现的h。

有时候指定“除了×××都匹配”会比较容易达到目的，当抑扬字符（^）出现在方括号中是，它表示“排除”，例如要匹配he ，但是排除前面是t or s的情性（也就是the和she），可以使用：[^st]he。

可以使用方括号来指定多个字符区间。例如正则表达式[A-Za-z]匹配任何字母，包括大写和小写的；正则表达式[A-Za-z][A-Za-z]* 匹配一个字母后面接着0或者多个字母（大写或者小写）。当然我们也可以用元字符+做到同样的事情，也就是：[A-Za-z]+ ，和[A-Za-z][A-Za-z]*完全等价。但是要注意元字符+ 并不是所有支持正则表达式的程序都支持的。关于这一点可以参考后面的正则表达式语法支持情况。

要指定特定数量的匹配，要使用大括号（注意必须使用反斜杠来转义）。想匹配所有100和1000的实例而排除10和10000，可以使用：10\{2,3\}，这个正则表达式匹配数字1后面跟着2或者3个0的模式。在这个元字符的使用中一个有用的变化是忽略第二个数字，例如正则表达式0\{3,\} 将匹配至少3个连续的0。

简单的例子

这里有一些有代表性的、比较简单的例子。

vi 命令 作用

:%s/ */ /g 把一个或者多个空格替换为一个空格。

:%s/ *$// 去掉行尾的所有空格。

:%s/^/ / 在每一行头上加入一个空格。

:%s/^[0-9][0-9]* // 去掉行首的所有数字字符。

:%s/b[aeio]g/bug/g 将所有的bag、beg、big和bog改为bug。

:%s/t$[aou]$g/h\1t/g 将所有tag、tog和tug分别改为hat、hot和hug（注意用group的用法和使用\1引用前面被匹配的字符）。

中级的例子（神奇的咒语）

例1

将所有方法foo(a,b,c)的实例改为foo(b,a,c)。这里a、b和c可以是任何提供给方法foo()的参数。也就是说我们要实现这样的转换：

之前之后

foo(10,7,2) foo(7,10,2)

foo(x+13,y-2,10) foo(y-2,x+13,10)

foo( bar(8), x+y+z, 5) foo( x+y+z, bar(8), 5)

下面这条替换命令能够实现这一魔法：

:%s/foo($[^,]*$,$[^,]*$,$[^)]*$)/foo(\2,\1,\3)/g

现在让我们把它打散来加以分析。写出这个表达式的基本思路是找出foo()和它的括号中的三个参数的位置。第一个参数是用这个表达式来识别的：：$[^,]*$，我们可以从里向外来分析它：

[^,] 除了逗号之外的任何字符

[^,]* 0或者多个非逗号字符

$[^,]*$ 将这些非逗号字符标记为\1，这样可以在之后的替换模式表达式中引用它

$[^,]*$, 我们必须找到0或者多个非逗号字符后面跟着一个逗号，并且非逗号字符那部分要标记出来以备后用。

现在正是指出一个使用正则表达式常见错误的最佳时机。为什么我们要使用[^,]*这样的一个表达式，而不是更加简单直接的写法，例如：.*，来匹配第一个参数呢？设想我们使用模式.*来匹配字符串"10,7,2"，它应该匹配"10,"还是"10,7,"？为了解决这个两义性（ambiguity），正则表达式规定一律按照最长的串来，在上面的例子中就是"10,7,"，显然这样就找出了两个参数而不是我们期望的一个。所以，我们要使用[^,]*来强制取出第一个逗号之前的部分。

这个表达式我们已经分析到了：foo($[^,]*$，这一段可以简单的翻译为“当你找到foo(就把其后直到第一个逗号之前的部分标记为\1”。然后我们使用同样的办法标记第二个参数为\2。对第三个参数的标记方法也是一样，只是我们要搜索所有的字符直到右括号。我们并没有必要去搜索第三个参数，因为我们不需要调整它的位置，但是这样的模式能够保证我们只去替换那些有三个参数的foo()方法调用，在foo()是一个重载（overoading）方法时这种明确的模式往往是比较保险的。然后，在替换部分，我们找到foo()的对应实例，然后利用标记好的部分进行替换，是的第一和第二个参数交换位置。

例2

假设有一个CSV（comma separated value）文件，里面有一些我们需要的信息，但是格式却有问题，目前数据的列顺序是：姓名，公司名，州名缩写，邮政编码，现在我们希望讲这些数据重新组织，以便在我们的某个软件中使用，需要的格式为：姓名，州名缩写-邮政编码，公司名。也就是说，我们要调整列顺序，还要合并两个列来构成一个新列。另外，我们的软件不能接受逗号前后面有任何空格（包括空格和制表符）所以我们还必须要去掉逗号前后的所有空格。

这里有几行我们现在的数据：

Bill Jones, HI-TEK Corporation , CA, 95011

Sharon Lee Smith, Design Works Incorporated, CA, 95012

B. Amos , Hill Street Cafe, CA, 95013

Alexander Weatherworth, The Crafts Store, CA, 95014

...

我们希望把它变成这个样子：

Bill Jones,CA 95011,HI-TEK Corporation

Sharon Lee Smith,CA 95012,Design Works Incorporated

B. Amos,CA 95013,Hill Street Cafe

Alexander Weatherworth,CA 95014,The Crafts Store

...

我们将用两个正则表达式来解决这个问题。第一个移动列和合并列，第二个用来去掉空格。

下面就是第一个替换命令：

:%s/$[^,]*$,$[^,]*$,$[^,]*$,$.*$/\1,\3 \4,\2/

这里的方法跟例1基本一样，第一个列（姓名）用这个表达式来匹配：$[^,]*$，即第一个逗号之前的所有字符，而姓名内容被用\1标记下来。公司名和州名缩写字段用同样的方法标记为\2和\3，而最后一个字段用$.*$来匹配（"匹配所有字符直到行末"）。替换部分则引用上面标记的那些内容来进行构造。

下面这个替换命令则用来去除空格：

:%s/[ \t]*,[ \t]*/,/g

我们还是分解来看：[ \t]匹配空格/制表符，[ \t]* 匹配0或多个空格/制表符，[ \t]*,匹配0或多个空格/制表符后面再加一个逗号，最后，[ \t]*,[ \t]*匹配0或多个空格/制表符接着一个逗号再接着0或多个空格/制表符。在替换部分，我们简单的我们找到的所有东西替换成一个逗号。这里我们使用了结尾的可选的g参数，这表示在每行中对所有匹配的串执行替换（而不是缺省的只替换第一个匹配串）。

例3

假设有一个多字符的片断重复出现，例如：

Billy tried really hard
Sally tried really really hard
Timmy tried really really really hard
Johnny tried really really really really hard

而你想把"really"、"really really"，以及任意数量连续出现的"really"字符串换成一个简单的"very"（simple is good!），那么以下命令：

:%s/$really $$really $*/very /

就会把上述的文本变成：

Billy tried very hard
Sally tried very hard
Timmy tried very hard
Johnny tried very hard

表达式$really $*匹配0或多个连续的"really "（注意结尾有个空格），而$really $$really $* 匹配1个或多个连续的"really "实例。

困难的例子（不可思议的象形文字）

Coming soon.

不同工具中的正则表达式

OK，你已经准备使用RE（regular expressions，正则表达式），但是你并准备使用vi。所以，在这里我们给出一些在其他工具中使用RE的例子。另外，我还会总结一下你在不同程序之间使用RE可能发现的区别。

当然，你也可以在Visual C++编辑器中使用RE。选择Edit->Replace，然后选择"Regular expression"选择框，Find What输入框对应上面介绍的vi命令:%s/pat1/pat2/g中的pat1部分，而Replace输入框对应pat2部分。但是，为了得到vi的执行范围和g选项，你要使用Replace All或者适当的手工Find Next and Replace（译者按：知道为啥有人骂微软弱智了吧，虽然VC中可以选中一个范围的文本，然后在其中执行替换，但是总之不够vi那么灵活和典雅）。

sed

Sed是Stream EDitor的缩写，是Unix下常用的基于文件和管道的编辑工具，可以在手册中得到关于sed的详细信息。

这里是一些有趣的sed脚本，假定我们正在处理一个叫做price.txt的文件。注意这些编辑并不会改变源文件，sed只是处理源文件的每一行并把结果显示在标准输出中（当然很容易使用重定向来定制）：

sed脚本 描述

sed 's/^$/d' price.txt 删除所有空行

sed 's/^[ \t]*$/d' price.txt 删除所有只包含空格或者制表符的行

sed 's/"//g' price.txt 删除所有引号

awk

awk是一种编程语言，可以用来对文本数据进行复杂的分析和处理。可以在手册中得到关于awk的详细信息。这个古怪的名字是它作者们的姓的缩写（Aho，Weinberger和Kernighan）。

在Aho，Weinberger和Kernighan的书The AWK Programming Language中有很多很好的awk的例子，请不要让下面这些微不足道的脚本例子限制你对awk强大能力的理解。我们同样假定我们针对price.txt文件进行处理，跟sed一样，awk也只是把结果显示在终端上。

awk脚本 描述

awk '$0 !~ /^$/' price.txt 删除所有空行

awk 'NF > 0' price.txt awk中一个更好的删除所有行的办法

awk '$2 ~ /^[JT]/ {print $3}' price.txt 打印所有第二个字段是'J'或者'T'打头的行中的第三个字段

awk '$2 !~ /[Mm]isc/ {print $3 + $4}' price.txt 针对所有第二个字段不包含'Misc'或者'misc'的行，打印第3和第4列的和（假定为数字）

awk '$3 !~ /^[0-9]+\.[0-9]*$/ {print $0}' price.txt 打印所有第三个字段不是数字的行，这里数字是指d.d或者d这样的形式，其中d是0到9的任何数字

awk '$2 ~ /John|Fred/ {print $0}' price.txt 如果第二个字段包含'John'或者'Fred'则打印整行

grep

grep是一个用来在一个或者多个文件或者输入流中使用RE进行查找的程序。它的name编程语言可以用来针对文件和管道进行处理。可以在手册中得到关于grep的完整信息。这个同样古怪的名字来源于vi的一个命令，g/re/p，意思是global regular expression print。

下面的例子中我们假定在文件phone.txt中包含以下的文本，——其格式是姓加一个逗号，然后是名，然后是一个制表符，然后是电话号码：

Francis, John           5-3871
Wong, Fred              4-4123
Jones, Thomas           1-4122
Salazar, Richard        5-2522

grep命令 描述

grep '\t5-...1' phone.txt 把所有电话号码以5开头以1结束的行打印出来，注意制表符是用\t表示的

grep '^S[^ ]* R' phone.txt 打印所有姓以S打头和名以R打头的行

grep '^[JW]' phone.txt 打印所有姓开头是J或者W的行

grep ', ....\t' phone.txt 打印所有姓是4个字符的行，注意制表符是用\t表示的

grep -v '^[JW]' phone.txt 打印所有不以J或者W开头的行

grep '^[M-Z]' phone.txt 打印所有姓的开头是M到Z之间任一字符的行

grep '^[M-Z].*[12]' phone.txt 打印所有姓的开头是M到Z之间任一字符，并且点号号码结尾是1或者2的行

egrep

egrep是grep的一个扩展版本，它在它的正则表达式中支持更多的元字符。下面的例子中我们假定在文件phone.txt中包含以下的文本，——其格式是姓加一个逗号，然后是名，然后是一个制表符，然后是电话号码：

Francis, John 5-3871

Wong, Fred 4-4123

Jones, Thomas 1-4122

Salazar, Richard 5-2522

egrep command Description

egrep '(John|Fred)' phone.txt 打印所有包含名字John或者Fred的行

egrep 'John|22$|^W' phone.txt 打印所有包含John 或者以22结束或者以W的行

egrep 'net(work)?s' report.txt 从report.txt中找到所有包含networks或者nets的行

正则表达式语法支持情况

命令或环境 . [ ] ^ $  \{ \} ? + | ( )

vi X X X X X

Visual C++ X X X X X

awk X X X X X X X X

sed X X X X X X

Tcl X X X X X X X X X

ex X X X X X X

grep X X X X X X

egrep X X X X X X X X X

fgrep X X X X X

perl X X X X X X X X X

vi替换命令简介

Vi的替换命令：

:

range

s/

pat1

/

pat2

/g

其中

:

range

10,20

.,$

.+2,$-5

s 表示其后是一个替换命令。

pat1 这是要查找的一个正则表达式，这篇文章中有一大堆例子。

pat2

g 可选标志，带这个标志表示替换将针对行中每个匹配的串进行，否则则只替换行中第一个匹配串。

网上有很多vi的在线手册，你可以访问他们以获得更加完整的信息。

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=539524

posted @ 2005-12-06 09:25 只牵这只狗阅读(230) | 评论 (0) | 编辑收藏

AJAX入门[Z]

摘要: Posted on 2005-11-24 00:21 BlueO2 阅读(469) 评论(0) 编辑收藏收藏至365Key 所属分类: AJAX --> 本想翻译IBM的一篇文章 Build apps using Asynchronous JavaScript with XML 但是发现不如就按照那个方式想怎么写就怎么写。之后有时间了会把其中的一个系列... 阅读全文

posted @ 2005-12-05 17:12 只牵这只狗阅读(391) | 评论 (0) | 编辑收藏

基于Ajax的应用程序架构汇总[Z]

浏览器端框架被划分成两大类：

·应用程序框架：提供浏览器的功能，但是常以包括窗口小部件抽象和另外的部件而出名，其功能主要围绕桌面GUI框架。

·基本结构框架：提供基本的管道和可移植的浏览器抽象，让开发者去创建内容。典型的功能：

* 针对XMLHttpRequest的包装器以封装浏览器-服务器的交互。(所有的框架都提供这一功能)。

* XML操作和查询。

* 根据来自XMLHttpRequest的应答执行DOM操作。

* 在一些情况中，与另外的浏览器端技术如Flash(和潜在的Java applets)集成在一起。

而服务器端框架通常以下面两种方式工作(尽管它们在这里根据语言的不同进行了分类)：

·HTML/JS生成：服务器提供完整的HTML/Javascript代码生成和浏览器-服务器协调，结果是只有浏览器端编码可以被定制。

·远程调用：Javascript调用直接被路由到服务器端功能(例如Java方法)并返回到Javascript回叫处理器；或者Javascript调用服务器以提取信息，例如会话细节，数据库查询等。

·纯Javascript：应用程序框架

1.1 Bindows(自从2003年)

网址是：http://www.bindows.net，Bindows是一个软件开发包(SDK)，它，通过强力联合DHTML，JavaScript，CSS和XML等技术，能生成高度交互的互联网应用程序-成为现代的桌面应用程序的强有力对手。Bindows应用程序不要求下载和也不需要在用户端安装-仅要求有一个浏览器(也不需要Java，Flash或者ActiveX)。Bindows有可能领导面向对象开发的AJAX应用程序的平台。

·它是商业化的，使用来自于MB的技术(总部位于GA USA，主要开发中心在瑞典，成立于2002年)。

Bindows框架提供给你：

·基于类的面向对象的API

·一套完整的窗口系统，提供宽范围的窗口小部件支持，包括菜单、表单、格子、滑动条、量程，甚至更多

·用于开发zero-footprint SOA客户端应用程序的领先的工具箱

·本机的XML，SOAP和XML-RPC支持

·单用户到企业级的支持

·内建的对AJAX的支持

Bindows开发环境：

·支持企业级规模的工程开发

·跨浏览器，跨平台支持

·服务器独立结构

·与新的和现有资源的互操作性

·一致性开发方法学

1.2 BackBase(自从2003年)

网址是：http://www.backbase.com，是一个全面的浏览器端框架，支持丰富的浏览器功能以及与.NET和Java的集成。

·商业化，来自于Backbase B.V(总部在Amsterdam，成立于2003年)。

1.3 DOJO(开发中;自从2004年9月)

网址是：http://dojotoolkit.org/，提供全面窗口小组件和浏览器-服务器消息支持。

·为创建定制的Javascript窗口小组件提供框架支持。

·预置的窗口小组件库。

·浏览器-服务器消息支持-XMLHttpRequest和另外的机制。

·支持浏览器中的URL操纵功能。

·开源许可(学术自由许可2.1(http://opensource.org/licenses/afl-2.1.php))，由JotSpot(http://www.jot.com/)的Alex Russell(http://alex.dojotoolkit.org/)所领导。

1.4 Open Rico(开发中;自从2005年5月;基于早期的私有框架)

网址是：http://openrico.org/demos.page，是一多用途框架，支持Ajax基础结构和用户交互。

·一个XMLHttpRequest应答能被路由到一个或者更多回叫操作，DOM对象，或者Javascript对象。

·容易鼠标拖动支持。

·Ajax动画，例如缩放和变换。

·"行为"-实质上是窗口小组件库。

·使用指南(http://www.mirimar.net/mailbrowser/)，由RussMirimar的Yonah所提供

·开源。源于Sabre航空公司解决方案，由Bill Scott(http://looksgoodworkswell.blogspot.com)，Darren James及另外一些人所支持。

1.5 qooxdoo(开发中;自从2005年5月)

网址是：http://qooxdoo.sourceforge.net/，是另一个雄心勃勃的框架，提供宽范围的UI支持和正在开发中的基础结构特性。

·基础结构：

* DOM和事件/焦点管理的可移植的抽象。

* 调试支持。

* 易于时间调度的Timer类。

* Getter/Setter支持。

·UI：

* 窗口小组件框架和预置的窗口小组件库。

* 布局管理器。

* 图像缓冲和可移植的PNG透明性。

·开源(LGPL)。来自多方面的贡献者。

1.6 Tibet(开发中;自从2005年6月)

网址是：http://www.technicalpursuit.com/，目的是提供高度可移植的和全面的Javascript API，结果是，可能自动生成大量的客户端代码。自称是"企业级Ajax"。

·远程脚本运行在XMLHttpRequest包装之上-通过协调调用结果支持工作流管理，例如应答可以发生在只有当两个分离的调用返回时。

·URI支持。

·所有的HTTP方法-不仅是"GET"和"POST"。

·低级的协议-File://和WebDav以及HTTP。

·Web服务调用-SOAP，XML-RPC，等等。

·预置的针对Google API，Amazon API等等服务的支持。

·由高级Javascript对象组成一个巨大的库。

·许多XML操作。

·IDE和开发工具。

·开源许可(显然经过OSI认证，但是细节不多)。

2 纯Javascript：基础结构框架

2.1 AjaxCaller(Alpha版本;自从5月2005年)

网址是：http://ajaxify.com/run/testAjaxCaller/，是一基本的线程安全的XMLHttpRequest包装器，主要针对Ajax新手，仍处于原始的alpha开发阶段，目前仅与AjaxPatterns的在线搜索范例一起打包。

·实现对服务器的调用(GET/POST/PUT/DELETE)，用路由到一个回叫操作的plain-text或者XML完成。

·使用过的XMLHttpRequest对象的析构。

·Response缓冲(计划的)。

·针对Ajax新手-并非强调性能优化，该库主要用于实现易读的基础代码并将提供调试支持。

·开源许可。由Michael Mahemoff(http://softwareas.com)(具有John Wehr和Richard Schwartz的一些思想)维护。

2.2 Flash JavaScript集成包

网址是：http://www.osflash.org/doku.php?id=flashjs，允许JavaScript和Flash内容的集成：

·使JavaScript能够调用ActionScript功能和反过来的实现。

·所有主要的数据类型能在这两种环境之间传递。

·开源许可。由多个开源Flash贡献者提供支持。

2.3 Google AJAXSLT(发行于2005年6月)

网址是：http://goog-ajaxslt.sourceforge.net/，是一个Javascript框架，用来执行XSLT转换以及XPath查询。

·建立在Google地图工作基础之上。

·开源许可(BSD)。由一家创新搜索方案公司支持，自称为"Google"。

2.4 HTMLHttpRequest(Beta版；始于2005年)

HtmlHttpRequest(http://www.twinhelix.com/javascript/htmlhttprequest/)，它使用了XMLHttpRequest和Iframes以改进兼容性。

·测试过并能工作在:IE6/Win，IE5.5/Win，IE5/Win，IE4/Win，Mozilla/Win，Opera7/Win，Safari/Mac，IE5/Mac。

·未测试，可能能工作在：IE4/Mac，Mozilla/Mac，Opera/Other，Konqueror/Linux。你正在使用这些之一吗？作者正在请求兼容性信息。

·开源许可(LGPL)。由Twin Helix Designs(http://www.twinhelix.com/)的Angus Turnbull维护。

2.5 交互式网站框架(自从2005年5月)

交互式网站框架(http://sourceforge.net/projects/iwf/，是一个项目，目的是从浏览器端对Ajax基础结构的多方面予以支持。自描述为"使用javascript，css，xml，和html来创造高度交互网站的框架。包括一个定制的针对高度可读的javascript的xml分析器。实质上，是建立基于AJAX的网站的基础，还有另外一些通用脚本"。

·线程安全的XMLHttpRequest实现。

·针对XML文档的包装器，以便你能够创建更具可读性的代码：

var node = doc.groceries.frozen[0].pizza[0].size;</pre>

代替手工的导航：

var node = doc.documentElement.firstChild.firstChild.getAttribute("size");</pre>

·开源许可。由Weaver(http://circaware.com|Brock)维护。

2.6 LibXMLHttpRequest(发行于2003年6月)

libXmlRequest(http://www.whitefrost.com/servlet/connector?file=reference/2003/06/17/libXmlRequest.html)，是XMLHttpRequest的一个瘦包装器。

·getXML()和postXML()方法。

·XMLHttpRequest对象池支持。

·Response缓冲。

·可用源码(明显)，但是受标准版权的保护，由Stephen W.Coate(http://www.whitefrost.com/index.jsp)所维护。

2.7 RSLite(x)

网站是：http://www.ashleyit.com/rs/main.htm，是一个针对XMLHttpRequest的瘦包装器。

·一个简单的组件，作为Brent Ashley的更全面的远程脚本工作(参见Javascript远程脚本-JSRS在多语言服务器端)的一部分发行。

2.8 Sack(在开发中，自从2005年5月)

网站是：http://twilightuniverse.com/2005/05/sack-of-ajax/，是一个针对XMLHttpRequest的瘦包装器。

·调用者能指定回叫函数或者回叫DOM对象。借助于回叫DOM，应答文本直接被推入到DOM中

2.9 Sarissa(发行于2月，2003年)

网站是：http://sarissa.sf.net，是一种Javascript API，它封装了在浏览器端可以独立调用XML的功能。

·可移植的XMLHttpRequest创建

·可移植的XPath查询

·可移植的DOM操作

·可移植的XSLT

·可移植的XML串行化

·开源(GPL2.0和LGPL2.1)。来自多方面贡献者。

2.10 XHConn(发行于自从4月，2005年)

网站是：http://xkr.us/code/javascript/XHConn/，是一个对XMLHttpRequest的瘦包装器。

·例如：

new XHConn().connect("mypage.php"，"POST"，"foo=bar&baz=qux"，fnWhenDone);

·开源许可。由Brad Fults所维护。

服务器端：多种语言

3.1 跨平台异步的接口工具箱(5月2005年)

CPAINT：http://cpaint.sourceforge.net/，是一真正的支持PHP和ASP/Vbscript的Ajax实现和JSRS(JavaScript远程脚本)实现。CPAINT提供给你需求的代码在后台实现AJAX和JSRS，而返回的数据以JavaScript形式在前台操作，格式化和显示。这允许你创建能提供接近实时的反馈给用户的web应用程序。

·支持PHP&ASP

·针对所有函数的一致的JavaScript文件

·支持远程脚本和XML

·支持本地和远程函数

·单个或者多个XMLHTTP对象

·以文本或者JavaScript XML/DOM文档对象方式返回后台数据

·能支持POST和GET请求

·后台代理函数来访问远程函数和数据

·在所有的主要浏览器上测试过

·在GNU GPL&LGPL保护下发行

3.2 SAJAX(可用，但是不是1.0版本;自从3月2005年)

网站是：http://www.modernmethod.com/sajax/，直接把调用从Javascript发送到你的服务器端语言并再次回返。例如，调用一个javascript方法x_calculateBudget()，将先到达服务器和调用一个Java calculateBudget()方法，然后以javascript方式把值返回到x_calculateBudget_cb()。

·便利从Javascript代理函数到后台操作的映射。

·能够代理对众多服务器端平台（ASP/ColdFusion/Io/Lua/Perl/PHP/Python/Ruby）的调用。

·开源许可。来自多方面贡献者。

3.3 Javascipt对象标志(JSON)和JSON-RPC

JSON(http://www.crockford.com/JSON/index.html)，是一个"胖的自由的XML选择"，而JSON-RPC(http://www.json-rpc.org/)是一种远程过程协议，类似于XML-RPC，强有力支持Javascript客户。

·实现多服务器端平台(http://www.json-rpc.org/impl.xhtml)：Java，Python，Ruby，Perl。

·针对每种平台有独立的打包和许可，如JSON-RPC-Java(http://oss.metaparadigm.com/jsonrpc/)。

3.4 Javascript远程脚本(JSRS)(自从2000年)

网址是：http://www.ashleyit.com/rs/jsrs/test.htm，直接把调用从Javascript发送到你的服务器端语言并再次回返。

·知名的浏览器：IE4+，NS4.x，NS6.x，Mozilla，Opera7和Galeon。

·服务器端支持：ASP，ColdFusion，PerlCGI，PHP,Python和JSP(servlet)。

·开源许可。由Brent Ashley(http://www.ashleyit.com/)提供支持。

4 服务器端：Java

注意：许多现有的框架最近正在添加Java支持(例如struts)，我将在后面指出。

4.1 WebORB for Java(自从2005年8月)

网址：http://www.themidnightcoders.com/weborb/aboutWeborb.htm，是一个平台，支持开发AJAX和基于Flash的胖客户端应用程序，并可以把它们与Java对象和XML Web服务相系起来。在线举例(http：//www.themidnightcoders.com/examples)

·WebORB包括一个称作丰富的客户系统(http://www.themidnightcoders.com/rcs/index.htm)的客户端库。该丰富的客户系统提供一简单的在线api来绑定到并调用任何Java对象，XML Web服务或者EJB上的方法。

·支持同步的和异步的方法调用。

·并不要求在服务器端代码上作任何修改，不需要定制方法属性，特别的签名或者参数类型。★不要求设计时生成代理。

·同步调用返回来自于该调用(不需要回叫)的数据。异步的调用依赖于一个回叫实现。

·任何服务器端方法能被同步地或者异步地调用。

·客户应用程序能向服务器对象请求指定的活动方式。结果，对象能被轻易地创建而不需任何特殊的编程。

·提供一个特定API来处理数据库查询结果-服务器代码能返回Data集合或者Data表，而客户端以一个特殊RecordSet JavaScript对象来显示这个结果。该对象提供一个方法以检索列名和行数据。

·支持数据分页技术。客户应用程序能检索页面中的数据。

·支持所有的服务器端参数类型并返回值-原型，字符串，复合类型，数组，本机.net集合，远程参考。

·共有两种版本可用：标准版(自由)和专业版(商业许可)

4.2 Echo 2(自从3月2005年)

网址是：http://www.nextapp.com/products/echo2/，允许你用纯Java代码编写Ajax应用软件(范例(http://demo.nextapp.com/InteractiveTest/ia))。

自动地生成HTML和Javascript。

·协调浏览器和服务器之间的消息。消息形式为XML。

·如果需要，可以手工编写定制的Javascript部件。

·开源许可(Mozilla公共许可或者GNU LGPL)。源于Next App,Inc.(http://www.nextapp.com/)。

4.3 Direct Web Remoting (DWR)(2005年)

网址是：http://www.getahead.ltd.uk/dwr/，是一个框架，用于直接从Javascript代码中调用Java方法。

·象SAJAX，能把Javascript中的调用传递到Java方法，并返回到Javascript回叫。

·能与任何web框架（Struts，Tapestry，等等）一起使用。

·开源许可(Apache(http://www.apache.org/LICENSE.txt))。由Joe Walker(http://www.getahead.ltd.uk/sg/space/joe/)所支持。被加入到WebWork(http://www.opensymphony.com/webwork/)版本。

4.4 SWATO(2005年)

网址是：http://swato.dev.java.net/，是一套可重用的和良好集成的Java/JavaScript库，它实现了一种更容易的方式来改变你的web应用程序的交互，它是通过AJAX方式实现。

·服务器端Java库能被容易地配置到所有的Servlet 2.3+匹配的容器中。

·客户端JavaScript库能工作在支持HttpXMLRequest的各种浏览器中。

·使用JSON来在服务器端编组你的POJO数据。这样你能存取在任何JavaScript环境(HTML，XUL，SVG)中的远程数据，这种存取可以容易地通过硬编码或者与某种成熟的JavaScript库集成来实现。

·提供一个简单的接口来使你的JavaScript代码可以与暴露在客户端的远程POJO交互(RPC等)。

·使用web.xml中的<servlet>和<filter>的容易且灵活的配置，并能(但不是依赖)与Spring集成到一起。

·提供了几个可帮助你快速开发web应用程序的组件(如自动完成的文本框，在线表单，在线列表，等等)。

5 服务器端：Lisp

5.1 CL-Ajax

网址：http://cliki.net/cl-ajax，实现Javascript直接调用服务器端Lisp函数。

·如下输出函数：

(export-函数 #’my-函数)

·可以产生带有参数的Javascript代理。

·能回叫Javascript函数或者DOM对象。

·可以被集成进SAJAX。

·开源(定制，非常灵活，许可)。由[Richard Newman](http://www.holygoat.co.uk/)所维护。

6 服务器端：.NET

6.1 WebORB for.NET(自从8月2005年)

网址：http://www.themidnightcoders.com/weborb/aboutWeborb.htm，是一个平台，用于开发AJAX和基于Flash的胖客户端应用程序，并能把它们连接到.NET对象和XML Web服务。(在线举例(http://www.themidnightcoders.com/examples))

·WebORB包括一个客户端库，名叫Rich Client System(http://www.themidnightcoders.com/rcs/index.htm)。Rich Client System提供一简单的在线api以绑定到和调用任何.NET对象或者XML Web服务上的任何方法。

·支持同步和异步的方法调用

·并不要求在服务器端代码上作任何修改，不需要定制方法属性，特别的签名或者参数类型。**不要求设计时代理生成。

·同步调用返回来自于该调用的数据(不需要回叫)。异步的调用依赖于一个回叫实现。

·任何服务器端方法能被同步地或者异步地调用。

·客户应用程序能向服务器对象请求指定的活动方式。结果，对象能被轻易地创建而不需任何特殊的编程。

·提供一个特定API来处理数据库查询结果-服务器代码能返回DataSet或者DataTable，而客户端以一个特殊RecordSet JavaScript对象来显示这个结果。该对象提供一个方法以检索列名和行数据

·支持数据页面技术。客户端应用程序能检索页面中的数据。

·支持所有的服务器端参数类型并返回值-原型，字符串，复合类型，数组，本机.net集合，远程参考

·共有两种版本可用的：标准版(自由)和专业版(商业许可)

6.2 Ajax.NET(自从3月2005年)

网址是：http://ajax.schwarz-interactive.de/，是一个库，实现从Javascript到服务器端.NET的存取。

·象SAJAX，能把Javascript中的调用传递到.NET方法，并返回到Javascript回叫。

·能存取来自于JavaScript的会话数据。

·缓存结果

·自由使用，可用的源码，未指定使用许可。由Michael Schwarz(http://weblogs.asp.net/mschwarz/)所维护。

·不允许改变源代码，用属性标记方法

·完整的类支持以返回客户端JavaScript值

·使用HtmlControls来进行输入和返回值

·可以返回数据表，数据集，数据视图，数组和集合

7 服务器端：PHP

7.1 AjaxAC(自从2005年4月)

网址是：http://ajax.zervaas.com.au/，用单个的PHP类封装了完整的应用程序。

·所有的应用程序代码是自包含在单个类中(附加另外一些JavaScript库)

·干净利索地调用PHP文件/HTML页面。只需创建应用程序类，然后参照应用程序JavaScript和依附任何需要的HTML元素到该应用程序。

·容易地处理JavaScript事件的内嵌功能

·创建子需要并处理它们的内嵌功能

·允许定制的配置值，因此某些单元能在运行时间设置

·无凌乱的JavaScript代码夹杂在调用HTML的代码中-所有的事件是被动态依附的

·由于以上两个原因容易和模板引擎集成到一起

·容易钩到（hook in to）已有的PHP类或者MySQL数据库以返回来自于子需求的数据

·能够容易地进一步生成JavaScript对象的可扩展的窗口小组件结构(但是还需要做一些工作)

背景：

·开源许可(Apache2.0)。由Zervaas Enterprises(http://ajax.zervaas.com.au/)支持

7.2 JPSpan

网址是：http://jpspan.sourceforge.net/wiki/doku.php，直接把Javascript调用传递到PHP函数。

·进行了严肃的单元测试。

·开源许可(PHP)。

7.3 XAJAX

网址是：http://xajax.sf.net，直接把Javascript调用传递到PHP函数。

·使用Javascript代理来调用PHP脚本。

·开源。由J.Max Wilson所创。

8 服务器端：Ruby

Ruby On Rails(http://www.rubyonrails.org/)是一个通常的强力支持Ajax的web框架：

·当Ajax出现的时候Rails还处于其发展的早期，因此Ajax可能逐渐成为Rails框架的核心。

·生成浏览器中大多数/全部的窗口小组件和动画的Javascript脚本。

·支持服务器端调用。

·调度支持。

·开源许可。

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=542157

posted @ 2005-12-05 13:19 只牵这只狗阅读(261) | 评论 (0) | 编辑收藏

仅列出标题

iNeo

常用链接

留言簿(3)

我参与的团队

随笔分类(29)

随笔档案(30)

文章分类(7)

文章档案(8)

收藏夹(6)

搜索

最新评论

阅读排行榜

评论排行榜

翻译：Neo Lee
什么是正则表达式

正则表达式基础

简单的例子

中级的例子（神奇的咒语）

例1

例2

例3

困难的例子（不可思议的象形文字）

不同工具中的正则表达式

sed

awk

grep

egrep

正则表达式语法支持情况

vi替换命令简介

*vi 命令*	作用

*`:%s/ / /g`**	把一个或者多个空格替换为一个空格。
*`:%s/ $//`**	去掉行尾的所有空格。
`:%s/^/ /`	在每一行头上加入一个空格。
*`:%s/^[0-9][0-9] //`**	去掉行首的所有数字字符。
`:%s/b[aeio]g/bug/g`	将所有的bag、beg、big和bog改为bug。
`:%s/t\([aou]\)g/h\1t/g`	将所有tag、tog和tug分别改为hat、hot和hug（注意用group的用法和使用\1引用前面被匹配的字符）。

之前		之后
`foo(10,7,2)`		`foo(7,10,2)`
`foo(x+13,y-2,10)`		`foo(y-2,x+13,10)`
`foo( bar(8), x+y+z, 5)`		`foo( x+y+z, bar(8), 5)`

`[^,]`		除了逗号之外的任何字符
*`[^,]`**		0或者多个非逗号字符
*`\([^,]\)`**		将这些非逗号字符标记为`\1`，这样可以在之后的替换模式表达式中引用它
*`\([^,]\),`**		我们必须找到0或者多个非逗号字符后面跟着一个逗号，并且非逗号字符那部分要标记出来以备后用。

*sed脚本*		描述

`sed 's/^$/d' price.txt`		删除所有空行
*`sed 's/^[ \t]$/d' price.txt`**		删除所有只包含空格或者制表符的行
`sed 's/"//g' price.txt`		删除所有引号

*awk脚本*		描述

`awk '$0 !~ /^$/' price.txt`		删除所有空行
`awk 'NF > 0' price.txt`		awk中一个更好的删除所有行的办法
`awk '$2 ~ /^[JT]/ {print $3}' price.txt`		打印所有第二个字段是'J'或者'T'打头的行中的第三个字段
`awk '$2 !~ /[Mm]isc/ {print $3 + $4}' price.txt`		针对所有第二个字段不包含'Misc'或者'misc'的行，打印第3和第4列的和（假定为数字）
*`awk '$3 !~ /^[0-9]+\.[0-9]$/ {print $0}' price.txt`**		打印所有第三个字段不是数字的行，这里数字是指`d.d`或者`d这样的形式，其中d`是0到9的任何数字
`awk '$2 ~ /John\|Fred/ {print $0}' price.txt`		如果第二个字段包含'John'或者'Fred'则打印整行

*grep命令*		描述

`grep '\t5-...1' phone.txt`		把所有电话号码以5开头以1结束的行打印出来，注意制表符是用`\t`表示的
*`grep '^S[^ ] R' phone.txt`**		打印所有姓以S打头和名以R打头的行
`grep '^[JW]' phone.txt`		打印所有姓开头是J或者W的行
`grep ', ....\t' phone.txt`		打印所有姓是4个字符的行，注意制表符是用`\t`表示的
`grep -v '^[JW]' phone.txt`		打印所有不以J或者W开头的行
`grep '^[M-Z]' phone.txt`		打印所有姓的开头是M到Z之间任一字符的行
*`grep '^[M-Z].[12]' phone.txt`**		打印所有姓的开头是M到Z之间任一字符，并且点号号码结尾是1或者2的行

*egrep command*		*Description*

`egrep '(John\|Fred)' phone.txt`		打印所有包含名字John或者Fred的行
`egrep 'John\|22$\|^W' phone.txt`		打印所有包含John 或者以22结束或者以W的行
`egrep 'net(work)?s' report.txt`		从report.txt中找到所有包含networks或者nets的行

命令或环境	`.`	`[ ]`	`^`	`$`	`\( \)`	`\{ \}`	`?`	`+`	`\|`	`( )`
vi	X	X	X	X	X
Visual C++	X	X	X	X	X
awk	X	X	X	X			X	X	X	X
sed	X	X	X	X	X	X
Tcl	X	X	X	X	X		X	X	X	X
ex	X	X	X	X	X	X
grep	X	X	X	X	X	X
egrep	X	X	X	X	X		X	X	X	X
fgrep	X	X	X	X	X
perl	X	X	X	X	X		X	X	X	X

iNeo

常用链接

留言簿(3)

我参与的团队

随笔分类(29)

随笔档案(30)

文章分类(7)

文章档案(8)

收藏夹(6)

搜索

最新评论

阅读排行榜

评论排行榜

翻译：Neo Lee什么是正则表达式

正则表达式基础

简单的例子

中级的例子（神奇的咒语）

例1

例2

例3

困难的例子（不可思议的象形文字）

不同工具中的正则表达式

sed

awk

grep

egrep

正则表达式语法支持情况

vi替换命令简介

翻译：Neo Lee
什么是正则表达式