BlogJava-天空-随笔分类-XML

ANT十五大最佳实践

haogj — Mon, 24 Apr 2006 13:19:00 GMT

在Ant出现之前，构建和部署Java应用需要使用包括特定平台的脚本、Make文件、各种版本的IDE甚至手工操作的“大杂烩”。现在，几乎所有的开源Java项目都在使用Ant，大多数公司的内部项目也在使用Ant。Ant在这些项目中的广泛使用自然导致了读者对一整套Ant最佳实践的迫切需求。

本文总结了我喜爱的Ant技巧或最佳实践，多数是从我亲身经历的项目错误或我听说的其他人经历的 “恐怖”故事中得到灵感的。比如，有人告诉我有个项目把XDoclet 生成的代码放入带有锁定文件功能的版本控制工具中。当开发者修改源代码时，他必须记住手工检出（Check out）并锁定所有将要重新生成的文件。然后，手工运行代码生成器，只到这时他才能够让Ant编译代码，这一方法还存在如下一些问题：

生成的代码无法存储在版本控制系统中。
Ant（本案例中是Xdoclet）应该自动确定下一次构建涉及的源文件，而不应由程序员手工确定。
Ant的构建文件应该定义好正确的任务依赖关系，这样程序员就不必为了完成构建而不得不按照特定顺序调用任务。

当我开始一个新项目时，我首先编写Ant构建文件。Ant文件明确地定义构建的过程，并被团队中的每个程序员使用。本文所列的技巧基于这样的假定：Ant构建文件是一个必须仔细编写的重要文件，它应在版本控制系统中得到维护，并被定期进行重构。下面是我的十五大Ant最佳实践。

1. 采用一致的编码规范

Ant用户有的喜欢有的痛恨其构建文件的XML语法。与其跳进这一令人迷惑的争论中，不如让我们先看一些能保持XML构建文件简洁的方法。

首先也是最重要的，花费时间格式化你的XML让它看上去很清晰。不论XML是否美观，Ant都可以工作。但是丑陋的XML很难令人读懂。倘若你在任务之间留出空行，有规则的缩进，每行文字不超过90列左右，那么XML令人惊讶地易读。再加上使用能够高亮XML语法的优秀编辑器或IDE工具，你就不会有阅读的麻烦。

同样，精选含意明确、容易读懂的词汇来命名任务和属性。比如，dir.reports就比rpts好。特定的编码规范并不重要，只要拿出一套规范并坚持使用就行。

2. 将build.xml放在项目根目录中

Ant构建文件build.xml可以放在任何位置，但是放在项目顶级目录中可以保持项目简洁。这是最常用的规范，开发者能够在顶级目录中找到预期的build.xml。把构建文件放在根目录中，也能够使人容易了解项目目录树中不同目录之间的逻辑关系。以下是一个典型的项目目录层次：

[root dir]
| build.xml
+--src
+--lib (包含第三方 JAR包)
+--build (由 build任务生成)
+--dist (由 build任务生成)

当build.xml在顶级目录时，假设你处于项目某个子目录中，只要输入：ant -find compile 命令，不需要改变工作目录就能够以命令行方式编译代码。参数-find告诉Ant寻找存在于上级目录中的build.xml并执行。

3. 使用单一的构建文件

有人喜欢将一个大项目分解成几个小的构建文件，每个构建文件分担整个构建过程的一小部分工作。这确实是看法不同的问题，但是应该认识到，将构建文件分割会增加对整体构建过程的理解难度。要注意在单一构建文件能够清楚表现构建层次的情况下不要过工程化(over-engineer)。

即使你把项目划分为多个构建文件，也应使程序员能够在项目根目录下找到核心build.xml。尽管该文件只是将实际构建工作委派给下级构建文件，也应保证该文件可用。

4. 提供良好的帮助说明

应尽量使构建文件自文档化。增加任务描述是最简单的方法。当你输入ant -projecthelp时，你就可以看到带有描述的任务清单。比如，你可以这样定义任务：

description="Compiles code, output goes to the build dir.">

最简单的规则是把所有你想让程序员通过命令行就可以调用的任务都加上描述。对于一般用来执行中间处理过程的内部任务，比如生成代码或建立输出目录等，就无法使用描述属性。

这时，可以通过在构建文件中加入XML注释来处理。或者专门定义一个help任务，当程序员输入ant help时来显示详细的使用说明。

Detailed help...

5. 提供清除任务

每个构建文件都应包含一个清除任务，用来删除所有生成的文件和目录，使系统回到构建文件执行前的初始状态。执行清空任务后还存在的文件都应处在版本控制系统的管理之下。比如：

description="Destroys all generated files and dirs.">

除非是在产生整个系统版本的特殊任务中，否则不要自动调用clean任务。当程序员仅仅执行编译任务或其他任务时，他们不需要构建文件事先执行既令人讨厌又没有必要的清空任务。要相信程序员能够确定何时需要清空所有文件。

6. 使用ANT管理任务从属关系

假设你的应用由Swing GUI组件、Web界面、EJB层和公共应用代码组成。在大型系统中，你需要清晰地定义每个Java包属于系统的哪一层。否则任何一点修改都要被迫重新编译成百上千个文件。糟糕的任务从属关系管理会导致过度复杂而脆弱的系统。改变GUI面板的设计不应造成Servlet和EJB的重编译。

当系统变得庞大后，稍不注意就可能将依赖于客户端的代码引入到服务端。这是因为典型的IDE项目文件编译任何文件都使用单一的classpath。而Ant能让你更有效地控制构建活动。

设计你的Ant构建文件编译大型项目的步骤：首先，编译公共应用代码，将编译结果打成JAR包文件。然后，编译上一层的项目代码，编译时依靠第一步产生的JAR文件。不断重复这一过程，直到最高层的代码编译完成。

分步构建强化了任务从属关系管理。如果你工作在底层Java框架上，偶然引用到高层的GUI模板组件，这时代码不需要编译。这是由于构建文件在编译底层框架时在源路径中没有包含高层GUI面板组件的代码。

7. 定义并重用文件路径

如果文件路径在一个地方一次性集中定义，并在整个构建文件中得到重用，那么构建文件更易于理解。以下是这样做的一个例子：

    ...etc

当项目不断增长构建日益复杂时，这一技术越发体现出其价值。你可能需要为编译不同层次的应用定义各自的文件路径，比如运行单元测试的、运行应用程序的、运行Xdoclet的、生成JavaDocs的等等不同路径。这种组件化路径定义的方法比为每个任务单独定义路径要优越得多。否则，很容易丢失任务从属关系的轨迹。

8. 定义恰当的任务从属关系

假设dist任务从属于jar任务，那么哪个任务从属于compile任务哪个任务从属于prepare任务呢？Ant构建文件最终定义了任务的从属关系图，它必须被仔细地定义和维护。

应该定期检查任务的从属关系以保证构建工作得到正确执行。大的构建文件随着时间推移趋向于增加更多的任务，所以到最后可能由于不必要的从属关系导致构建工作非常困难。比如，你可能发现在程序员只需编译一些没有使用EJB的GUI代码时又重新生成了EJB代码。

以“优化”的名义忽略任务的从属关系是另一种常见的错误。这种错误迫使程序员为了得到恰当的结果必须记住并按照特定的顺序调用一串任务。更好的做法是：提供描述清晰的公共任务，这些任务包含正确的任务从属关系；另外提供一套“专家”任务让你能够手工执行个别的构建步骤，这些任务不提供完整的构建过程，但是让那些专家用户在快速而恼人的编码期间能够跳过某些步骤。

9.使用属性

任何需要配置或可能发生变化的信息都应作为Ant属性定义下来。对于在构建文件中多次出现的值也同样处理。属性既可以在构建文件头部定义，也可以为了更好的灵活性而在单独的属性文件中定义。以下是在构建文件中定义属性的样式：

value="${jdom.home}/build/${jdom.jar}"/>
etc...

或者你可以使用属性文件：

etc...

在属性文件 sample.properties中:

dir.build=build
dir.src=src
jdom.home=../java-tools/jdom-b8
jdom.jar=jdom.jarjdom.jar.withpath=${jdom.home}/build/${jdom.jar}

用一个独立的文件定义属性是有好处的，它可以清晰地定义构建中的可配置部分。另外，在开发者工作在不同操作系统的情况下，你可以在不同的平台上提供该文件的不同版本。

10. 保持构建过程独立

为了最大限度的扩展性，不要应用外部路径和库文件。最重要的是不要依赖于程序员的CLASSPATH设置。取而代之的是，在构建文件中使用相对路径并定义自己的路径。如果你引用了绝对路径如C:\java\tools，其他开发者未必使用与你相同的目录结构，所以就无法使用你的构建文件。

如果你部署开放源码项目，应该提供包含编译代码所需的所有JAR文件的发行版本。当然，这是在遵守许可协议的基础上。对于内部项目，相关的JAR文件都应在版本控制系统的管理中，并捡出（check out）到大家都知道的位置。

当你必须引用外部路径时，应将路径定义为属性。使程序员能够用适合他们自己的机器环境的参数重载这些属性。你也可以使用以下语法引用环境变量：

11. 使用版本控制系统

构建文件是一个重要的制品，应该像代码一样进行版本控制。当你标记你的代码时，也应用同样的标签标记构建文件。这样当你需要回溯到旧版本并进行构建时，能够使用相应版本的构建文件。

除构建文件之外，你还应在版本控制中维护第三方JAR文件。同样，这使你能够重新构建旧版本的软件。这也能够更容易保证所有开发者拥有一致的JAR文件，因为他们都是同构建文件一起从版本控制系统中捡出的。

通常应避免在版本控制系统中存放构建成果。倘若你的源代码很好地得到了版本控制，那么通过构建过程你能够重新生成任何版本的产品。

12. 把Ant作为“最小公分母”

假设你的开发团队使用IDE工具，当程序员通过点击图标就能够构建整个应用时为什么还要为Ant而烦恼呢？

IDE的问题是一个关于团队一致性和重现性的问题。几乎所有的IDE设计初衷都是为了提高程序员的个人生产率，而不是开发团队的持续构建。典型的IDE要求每个程序员定义自己的项目文件。程序员可能拥有不同的目录结构，可能使用不同版本的库文件，还可能工作在不同的平台上。这将导致出现这种情况：在Bob那里运行良好的代码，到Sally那里就无法运行。

不管你的开发团队使用何种IDE，一定要建立所有程序员都能够使用的Ant构建文件。要建立一个程序员在将新代码提交版本控制系统前必须执行Ant构建文件的规则。这将确保代码是经过同一个Ant构建文件构建的。当出现问题时，要使用项目标准的Ant构建文件，而不是通过某个IDE来执行一个干净的构建。

程序员可以自由选择任何他们习惯使用的IDE工具或编辑器。但是Ant应作为公共基线以保证代码永远是可构建的。

13. 使用zipfileset属性

人们经常使用Ant产生WAR、JAR、ZIP和 EAR文件。这些文件通常都要求有一个特定的内部目录结构，但其往往与你的源代码和编译环境的目录结构不匹配。

一个最常用的方法是写一个Ant任务，按照期望的目录结构把一大堆文件拷贝到临时目录中，然后生成压缩文件。这不是最有效的方法。使用zipfileset属性是更好的解决方案。它让你从任何位置选择文件，然后把它们按照不同目录结构放进压缩文件中。以下是一个例子：

    appxml="${dir.resources}/application.xml">

在这个例子中，所有JAR文件都放在EAR文件包的lib目录中。hr.jar和billing.jar是从构建目录拷贝过来的。因此我们使用zipfileset属性把它们移动到EAR文件包内部的lib目录。prefix属性指定了其在EAR文件中的目标路径。

14. 测试Clean任务

假设你的构建文件中有clean和compile的任务，执行以下的测试。第一步，执行ant clean；第二步，执行ant compile；第三步，再执行ant compile。第三步应该不作任何事情。如果文件再次被编译，说明你的构建文件有问题。

构建文件应该只在与输出文件相关联的输入文件发生变化时执行任务。一个构建文件在不必执行诸如编译、拷贝或其他工作任务的时候执行这些任务是低效的。当项目规模增长时，即使是小的低效工作也会成为大的问题。

15. 避免特定平台的Ant封装

不管什么原因，有人喜欢用简单的、名称叫做compile之类的批文件或脚本装载他们的产品。当你去看脚本的内容你会发现以下内容：

ant compile

其实开发人员都很熟悉Ant，并且完全能够自己键入ant compile。请不要仅仅为了调用Ant而使用特定平台的脚本。这只会使其他人在首次使用你的脚本时增加学习和理解的烦扰。除此之外，你不可能提供适用于每个操作系统的脚本，这是真正烦扰其他用户的地方。

总结

太多的公司依靠手工方法和特别程序来编译代码和生成软件发布版本。那些不使用Ant或类似工具定义构建过程的开发团队，花费了太多的时间来捕捉代码编译过程中出现的问题：在某些开发者那里编译成功的代码，到另一些开发者那里却失败了。

生成并维护构建脚本不是一项富有魅力的工作，但却是一项必需的工作。一个好的Ant构建文件将使你能够集中到更喜欢的工作——写代码中去！

参考

Ant
AntGraph: Ant依赖性的可视化工具
Ant: The Definitive Guide, O'Reilly
Java Extreme Programming Cookbook, O'Reilly

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=675230

haogj 2006-04-24 21:19 发表评论

xml中的空格之完全解说

haogj — Tue, 11 Apr 2006 13:40:00 GMT

xml中的空格之完全解说

转载自:http://www.knowsky.com/3123.html
转自：动态网制作指南 www.knowsky.com
提示：我提取了《xslt从入门到精通》中关于空格解释的核心部分，借以抛砖引玉，希望大家踊跃参与讨论。谈谈你对空格的理解。

只适合对xml文件结构有一定了解的学者，不适合初学者。请按从上至下的顺序阅读。

对html文件而言，空格不重要；然而，对xml而言，默认立场就是要保留空格结点（空格结点的解释见下文）。

根据xml规范的规定，所谓空格是四种字符的任意组合序列：
－－－－－－－－－－－－－－－－－－－－－－－
空格字符（space），对应字符值为 #x20
回车字符（Carriage Return）,对应字符值为 #xD
换行字符（Newline）,对应字符值为 #xA
制表字符（Tab）,对应字符值为 #x9。

xml文件的空格也会形成结点，也就是空格结点。空格结点属于文字结点类型。

对xml和xslt而言，空格结点会牵涉到两个议题：
－－－－－－－－－－－－－－－－－－－－－－－
1。在xml输入文件中决定哪些空格是重要的，xslt处理器要看见这些空格结点。而决定的密钥就是xml:space属性。
2。在xsl模板文件中决定哪些空格是重要的，xslt处理器应将它复制到结果树中，而决定的密钥就是xsl:strip-space
和xsl:preserve-space这两个命令。

“重要和不重要的空格结点”
－－－－－－－－－－－－－－－－－－－－－－－
若某元素的内容只能放元素，则该元素中的空格结点就是不重要的（Insignificant）；
如果某元素的内容是#PCDATA的类型，则其内的空格结点应视为重要的（Signficant）。
至于元素内容混杂了文字内容和元素的情况，则无从评判，应视元素及其内容之语意而定。

xslt处理器接触到xml输入文件之前，会先由xml分析器进行分析
－－－－－－－－－－－－－－－－－－－－－－－
（1）xml:space属性可以改变后续接手的xml应用程序处理空格结点的模式，例如，xslt处理器就会受xml:space属性影响。
（2）xml文件中任何一列标记或内容尾端的结尾的结尾符号全部会换成单一新行字符（#xA）。
（3）属性值交给xml应用程序之前，xml分析器也应该先对属性值做规范化的操作。这是因为不同的操作系统每一行文字列的结尾字符有不同的组合，例如，windows系统会由返回字符呵新行字符组成结尾符号，而Unix系统则仅由新行字符组成结尾符号。xml分析器在读取xml文件之后，便先行将所有结尾符号换成单一新行字符，不仅统一了不同系统间不同结尾符号设计的差异性，同时也简化了后续xml应用程序的的操作难度。这样一个处理过程称为“规范化(Normalization)”。
a，每一文字列的结尾符号都要规范化成单一的新行字符（#xA）。
b，任何一个空格符（#x20、#xD、#xA、#x9）都应换成一个空格字符（#x20）。
c，属性值中若含有字参码，则应替换成该参考字符，例如，
会换成新行字符(#xA)。
d，属性值若含有实体参考，则应以其替换文字替换。
e，除此之外，任何字符都应直接放入规范化属性值中。
f，最后，如果属性类型不是CDATA，则xml分析器应该再进一步把属性值前后的空格字符序列删除，而且属性值中间若有空格序列，也应该替换成单一空格字符。

xslt处理器把xml输入文件和xsl模板文件的结构树建好之后，会现把组件中相邻的文字结点合并成单一的文字结点，然后再把一些文字结点抽掉。然而，如果文字结点符合下列条件之一，就会被保留下来：
－－－－－－－－－－－－－－－－－－－－－－－
（1）文字结点的父元素是空格保留元素名称集（Set Of Whitespace-preserving Element Names）中的一员。
（2）文字结点中至少有一个非空格符。
（3）文字结点的某个祖先组件中有xml:space属性，其值为preserve，而且较近的祖先元素中没有其他xml:space属性值为default。除此之外的文字结点逗会被抽掉。

对xsl模板而言，所谓的空格保留元素名称集只有一个xsl:text组件可用。xsl模板文件的空格结点都会被删除，但是，如果空格结点出现在xsl:text组件中就会被保留下来。

haogj 2006-04-11 21:40 发表评论

字符编码的奥秘

haogj — Sun, 09 Apr 2006 14:08:00 GMT

摘要: 编码问题是信息处理的基本问题，但是由于历史和政治的问题，事实上存在着大量不统一的编码方式，造成在信息处理过程中的信息丢失，转换错误等问题，UCS 为问题的解决提供了一个很好的方向，但是，在现在的软件环境中，还没有达到全面地使用。在实际中工作中应尽量采用统一的编码格式，减少编码问题的发生

阅读全文

haogj 2006-04-09 22:08 发表评论

用于解析 sina 新闻页面的 XSLT 文件

haogj — Mon, 20 Mar 2006 13:29:00 GMT

http://www.w3.org/1999/XSL/Transform">




    Sina newsletter

haogj 2006-03-20 21:29 发表评论

[转帖]XML 中的常见问题

haogj — Sun, 05 Mar 2006 12:34:00 GMT

[转帖]XML 中的常见问题

XML 中的常见问题

引自：http://www.microsoft.com/china/msdn/Archives/workshop/xmlfaq.asp

--------------------------------------------------------------------------------
Microsoft Corporation
2000 年 6 月 7 日
目录

一般问题

什么是 XML？
什么是 MSXML？
Microsoft XML 分析器能够做什么？
MSXML、MSXML2 和 MSXML3 之间的区别是什么？
XML 可以代替 HTML 吗？
在 HTML 中增加 XML 的好处是什么？
XML 只适用于核心开发人员吗？
开始使用 XML 时需要什么？
有如何使用 XML 的实际例子吗？
我可以忽略 XML 吗？
Microsoft Internet Explorer 4.0 支持 XML 吗？
Internet Explorer 5.0 对 XML 提供哪个级别的支持？
HTML、动态 HTML 和 XML 之间的关系是什么？
为什么 XML 这么重要？
Microsoft 提供什么 XML 产品？
在 Web 上传输，必须压缩 XML 吗？ <
XML 作为数据格式有多安全？有没有增加 XML 安全性的计划？
确认

什么是 DTD 及其用途？
Web 开发人员在使用 XML 描述数据时必须包括 DTD 吗？
什么是 XML 架构？它们与 DTD 的区别是什么？
什么是名称空间，它们为何重要？
XSLT 和 XPath

什么是 XSLT？
XSL、XQL、XSL 模式和 XSLT 之间的区别是什么？
什么是 XPath？
为什么 XSLT 对 XML 很重要？
XSLT 和 CSS 之间的区别是什么？它们不是样式表吗？
标准

Microsoft 如何与 XML 标准兼容？
XML 和 World Wide Web Consortium (W3C) 之间的关系是什么？
XML 和 W3C 的地位关系如何？
DOM 在 W3C 中的地位如何？
工具支持

SQL Server 和 ADO 支持 XML 吗？
目前有 Microsoft 工具可以帮助我快速沿用 XML 吗？
什么是 SOAP？
XML 如何适用于构造三层 Web 使能的应用程序的
Microsoft Windows(R) Distributed InterNet Applications (Windows DNA) 策略？

问题和解决方案

为什么在调用了 Load() 方法后，我的文档对象仍然为空？
如何加载有外国和特殊字符的文档？
如何在 Visual Studio 6.0 C++ 中使用 MSXML COM 组件？
如何在 XML 中使用 HTML 实体？
在元素内容中如何处理空白字符？
如何处理属性中的空白字符？
在 XML 对象模型中如何处理空白字符？
XML 声明做什么？
如何以可读格式打印我的 XML 文档？
如何在 DTD 中使用名称空间？
如何在 Visual Basic 中使用 XMLDSO？
如何在 Java 中使用 XML DOM？

--------------------------------------------------------------------------------

一般问题

什么是 XML？

可扩展标记语言 (XML) 是 Web 上的数据通用语言。它使开发人员能够将结构化数据，从许多不同的应用程序传递到桌面，进行本地计算和演示。XML 允许为特定应用程序创建唯一的数据格式。它还是在服务器之间传输结构化数据的理想格式。

什么是 MSXML？

MSXML 是提供核心 XML 服务的 Microsoft 软件组件。

Microsoft XML 分析器能够做什么？

最新版本的 Microsoft 核心 XML 服务提供下面四种不同的功能。

基于文档对象模型 (DOM) 的分析器，它能够获取文本流（能够转换到 XML 的文件、程序中的字符串或者任何其他文本）并将它转换为能够编程处理的可导航 XML 树结构。

SAX（Simple API for XML）分析器，它针对处理大型文档和高吞吐量的情况进行了优化的。SAX 是基于事件的分析器，它读取文档并将分析事件（例如元素的开始和结尾）直接报告给应用程序。用户创建的应用程序实现了处理不同事件的处理程序，这非常类似于处理图形用户界面 (GUI) 中的事件。

XSLT 处理器读取 XSLT 文件，并将可扩展样式表转换语言 (XSLT) 文件的指令应用到 XML 文件，以产生某些类型的输出。除了创建 XML结构之外，XSLT 处理器还可以在得到的 XSLT 过滤器上执行一定量的优化，另外，从技术的角度看，它更像是一种编译器。

验证分析器读取文档类型定义 (DTD) 或者 XML 架构，然后检验实际得到的文档的格式是否正确，以及是否不包含与架构冲突的数据。请注意，仅对架构而言，验证架构将返回架构本身作为对象，可以在以后在 HTML 列表框中创建选项时引用这个对象。
所有四种功能都包含在同一 MSXML 库软件包中，它可以从 MSDN XML 开发人员中心（英文）免费得到。

MSXML、MSXML2 和 MSXML3 之间的区别是什么？

在过去三年中 XML 经历了许多反复，所以目前存在不同版本的 Microsoft XML 分析器也不奇怪。Internet Explorer 4.0 包含早期版本的 XML 分析器，它比 XSL、XML 数据或者大多数其他的 XML 技术（并且有完全不同的 DOM 模型）要早。该早期版本的分析器包含在 MSXML.dll 库中。从 MSDN XML 开发人员中心（英文）可将分析器升级到较新的一种。

我们极力建议您升级到新的分析器，因为它要强大得多。Internet Explorer 5.0 包括 MSXML 2.0 分析器，它包含 XSL 和 XML 架构的基本版本。MSXML2 是 SQL Server 2000 附带的分析器版本。MSXML2 包含了许多性能增强的功能，并且在总体上提高了性能和可伸缩性。MSXML3 是当前作为“技术预览”附带的版本。MSXML3 包括 XSLT 和 XPath 支持以及 SAX 接口。

XML 可以代替 HTML 吗？

XML 比 HTML 提供更大的灵活性，但是它不可能很快代替 HTML。实际上，XML 和 HTML 能够很好地在一起工作。Microsoft 希望许多作者和开发人员都能同时使用 XML 和 HTML，比如用 XSLT 来生成 HTML。

在 HTML 中增加 XML 的好处是什么？

在 Web 上使用 XML 的好处有：

它提供用于本地计算的数据。传递到桌面的数据可以进行本地计算。XML 分析器可以读取数据，并将它递交给本地应用程序（例如浏览器）进一步查看或处理。数据也可以由使用 XML 对象模型的脚本或其他编程语言来处理。

向用户提供正确的结构化数据视图。传递到桌面的数据可以以多种方式表示。本地数据集，可以根据用户喜好和配置等因素，以适当的形式，在视图中动态表现给用户。

允许集成不同来源的结构化数据。一般情况下，使用代理，在中间层服务器上集成来自后端数据库和其他应用程序的数据，使该数据能够传递给桌面或者其他服务器，做进一步聚合、处理和分布。

描述来自多种应用程序的数据。由于 XML 是可扩展的，因此它可以用于描述来自多种应用程序的数据，从描述 Web 页面集合到数据记录。由于数据是自描述的，因此不需要数据的内置描述，也能够接收和处理数据。

通过粒度更新来提高性能。XML 允许粒度更新。开发人员不必在每次有改动时都发送整个结构化数据集。有了粒度更新后，只有改变的元素才必须从服务器发送到客户机。改变的数据可以在不必刷新整个页面或表的情况下显示。
XML 只适用于核心开发人员吗？

不。和 HTML 文档一样，XML 文档可以由任何人创建 — 甚至是没有任何编程经验的人。XML 仅仅是一种描述信息的标准方式。此外，它还是一种语言，可以在没有任何软件的情况下用它来编写。您可以在文本编辑器中编写 XML 文档，并且直接放入 Web 站点，不需要编写传统方式下的任何代码。

开始使用 XML 时需要什么？

要使用 XML，您需要能够读取 XMl 文档的 XML 分析器，并且使它的内容能被处理。Microsoft 提供了一种分析器，可以从 MSDN XML 开发人员中心（英文）下载。

要使用 XML 文档，可以使用文本编辑器（例如记事本）或任何其他可以用于创建 HTML 页面的编辑器。要创建完整形式的 XML 应用程序，请使用诸如 Microsoft® Visual Studio® 的编程环境。

有如何使用 XML 的实际例子吗？

XML 正在数量惊人的应用程序中使用，范围从 Web 站点创建和文档化到数据库集成和分布式编程。在下面几个领域中，XML 有其用武之地：

业务对业务的传输。业务数据（发票、购买定单、会计和税务信息等等）是以 XML 格式在厂商之间电子传输的。与旧的电子数据交换 (EDI) 格式相比，XML 提供了许多优点，而不仅仅是可以在传输中从一种发票格式转换到另一种。

分布式编程。XML 是非常理想的复杂多平台应用程序构造方案，这样就使得 Windows 服务器和其他操作系统的集成成为可能。

Web 站点体系结构。由于 XML 的层次结构和分布式特性，Web 站点开发人员在他们 Web 站点的总体体系结构和导航结构中越来越多地使用它。此外，越来越多的目录表和索引表、跟踪用户信息及 Web 站点状态的 XML 结构、基于 HTML 的组件和处理数据流的渠道，都用 XML 和 XSLT 编写。

数据库操作。XML 正成为与数据库交互的流行工具 — 无论从 SQL 查询中检索 XML 数据集，还是用 XML 记录更新数据库。而且我们还有分离实现的优点。通过将数据压缩为 SML，就不需要对实际的数据库结构有任何了解。

文档管理。目前的大多数公司都陷在文书工作的海洋里，而且会越来越糟。XML 正在越来越多地用于将文档编码成 XML，使文档更易于检索或提供链接到文档的注释上下文，以便更有效地进行参考。
我可以忽略 XML 吗？

如果您想在 Internet 世界中竞争的话，那就不可以忽略 XML。XML 是导致以我们考虑编程本身的方式进行模式转移的一种语言。传统的专用客户机/服务器应用程序，正在给“随时随地访问”的 Internet 服务让位，XML 是处理任何事情（从数据访问处理到在该新环境中表现数据）的逻辑媒体。

Microsoft Internet Explorer 4.0 支持 XML 吗？

是的。Internet Explorer 4.0 支持 XML 下列功能：

通用的 XML 分析器，它读取 XML 文件并将它们传递到应用程序（例如查看器）进行处理。应用程序开发人员可以使用 Microsoft 的两个分析器：C++ 中的 Microsoft XML 分析和 Java 中的 Microsoft XML 分析器。

XML 对象模型 (XML OM) 使用 World Wide Web Consortium (W3C) 标准文档对象模型 (DOM) 允许程序通过 XML 分析器访问结构化数据，使开发人员拥有交互和计算数据的能力。有关详细信息，请参见 DOM 规范（英文）。

XML 数据源对象 (XML DSO) 允许开发人员连接到结构化 XML 数据，并用动态 HTML 的数据绑定机制将它提供给 HTML 页面。
Internet Explorer 5.0 对 XML 提供哪个级别的支持？

Internet Explorer 5 提供下列 XML 支持：

直接查看 XML。Microsoft XML 实现允许用户通过他们的 Web 浏览器使用 XSL 或者层叠样式表 (CSS) 查看 XML，就象查看 HTML 文档一样。

高性能、验证 XML 引擎。Internet Explorer 4.0 开发人员熟悉的 XML 引擎已经得到了很大的增强，并且完全支持 W3C XML 1.0 和 XML 名称空间，这样开发人员就可以在 Web 上统一限定元素名称，从而避免了相同名称的元素之间的冲突。Windows 中的本机 XML 支持意味着，当开发人员在应用程序和组件之间移动数据时，可以使用完整的 XML 处理功能来读取和处理数据。

可扩展样式转换语言 (XSLT) 支持。使用基于最新的 W3C Working Draft 的 Microsoft XSLT 处理器，开发人员可以对 XML 数据应用样式表，并以易于自定义的动态和灵活方式来显示数据。Microsoft XSLT 处理器的查询功能也允许开发人员用程序，在客户机或服务器上，在 XML 数据集内部查找和摘取信息。

XML 架构。架构（英文）定义 XML 文档规则，包括元素名称和丰富的数据类型，它们的元素可以表现为组合，并且每个元素的属性都可用。为了启用多层应用程序，Microsoft 将根据提交给 W3C XML 工作组的缩减 XML 数据架构 (XDR) 来发布 XML 架构的技术预览。

服务器端 XML。服务器端 XML 处理允许使用 XML 作为在多个分布式应用程序服务器（甚至是跨越操作系统边界）之间传送数据的标准方式。

XML 文档对象模型 (DOM)。XML DOM 是标准对象应用程序编程接口，它使开发人员能够用程序控制 XML 文档内容、结构、格式等等。Microsoft XML 实现包括对 W3C XML DOM 建议的完全支持，并且可以用脚本、Visual Basic 开发系统、C++ 和其他编程语言来访问。

C++ XML 数据源对象。XML DSO 允许将 HTML 元素直接绑定到 XML 数据岛。此外，它还提高了性能，有强大的能力可以绑定到不同 XML 节点上，而且利用了 Internet Explorer 5 beta 中所有的新的数据绑定功能。
HTML、动态 HTML 和 XML 之间的关系是什么？

HTML 可以和 CSS 一起用于格式化和表示超链接页面。动态 HTML，通过 DOM，使 HTML 中的所有元素，都可以通过与语言无关的脚本和其他编程语言来访问，从而在很大程度上提高了客户机端的交互能力，而且不需要对服务器的额外需求。页面的对象模型允许动态更改任何方面的内容（包括增加、删除和移动）。

通过为结构化数据添加 XML，为开发人员提供了构造下一代丰富、灵活 Web 应用程序的技术。使用 XML，他们可以为桌面提供结构化数据，并且用 XML 对象模型计算数据。现在的开发人员可以在浏览器（例如 Microsoft Internet Explorer 4.0 和 Microsoft Internet Explorer 5）或者其他应用程序中，通过脚本显示基于 XML 的数据。此外，他们也可以对数据应用格式化规则，而不需要使用 XSLT 样式表的复杂脚本（实际上是将基于 XML 的数据转换为显示）。这两种显示基于 XML 数据的方法，都使得生成复杂数据的多个视图成为可能。

为什么 XML 这么重要？

XML 将成为计算领域的未来。作为一种技术，它的影响力将渗透到编程的每个方面，从嵌入式系统到图形界面，到分布式系统以及数据库管理。它实际上已经成为软件工业之间数据通信的标准，并且迅速代替 EDI 系统成为全球几乎所有工业进行业务交换的主要媒体。它很有可能会成为创建和存储大多数文档的语言，不管是否在 Internet 上，并且有可能成为 Internet 应用程序服务器的基础，有些人相信它将代替许多目前生产的小包装产品。

Microsoft 提供什么 XML 产品？

Microsoft 正在努力为许多领域开发 XML 资源：

数据访问。最新的 ActiveX® 数据对象 (ADO) 的化身，已经支持 XML 的生成和消费将近一年了，并且 Microsoft SQL Server 2000 为基于 SQL 的信息和 XML 之间的互相转换提供了许多接口。

浏览器支持。Microsoft 是第一个生产能够阅读 XML 文件（无论是用原始结构形式，还是通过 XSL 或 CSS 样式表）的商业浏览器 (Internet Explorer 5) 的公司。

BizTalk Server 2000。Microsoft® BizTalk(TM) Server 2000 提供了在大量不同格式（包括 XML）之间通信的方式，来帮助推动业务对业务的应用程序。BizTalk Server 也包括了许多架构生成和映射工具，从而大大简化了业务或商业需要的 XML 结构的开发。
在 Web 上传输，必须压缩 XML 吗？

一般来说，压缩 XML 的需要是与应用程序有关的，并且很大程度上是服务器和客户机之间移动数据量的函数。用于描述数据结构的标记的反复特性，使 XML 能够非常好地压缩数据。值得注意的是 HTTP 1.1 服务器和客户机的压缩都是标准的，XML 可以自动从中受益。

XML 作为数据格式有多安全？有没有增加 XML 安全性的计划？

XML 和 HTML 一样安全。正因为安全的 HTTP (HTTPS) 可以用于对 HTTP 添加密码技术，从而保护了 HTML，因此它也可以用于保护 XML。XML 是表示结构化数据的基于文本格式。这可以使数据的简单性和互操作性最大化。对 XML 格式增加安全性和验证能力时可以采取许多步骤。首先，XML 可以在传输到客户之前在服务器上加密，然后在客户机上解密。应用于数据本身的数字签名也可以验证 XML。

确认

什么是 DTD 及其用途？

文档类型定义 (DTD) 定义了一类 XML 文档的正确语法。也就是说，它列出了许多元素名称，什么元素可以和其他元素一起显示，什么属性可以用于每种元素类型等等。DTD 使用 XML 文档使用的不同语法形式。

Web 开发人员在使用 XML 描述数据时必须包括 DTD 吗？

不。XML 可以用于描述有或没有 DTD 的数据。术语“有效”XML 指代引用 DTD 的 XML 数据，而“良好形成的”XML 是未使用 DTD 的 XML。此外，“良好形成的”XML 还是 XML 和标准统一标记语言 (SGML) 的基本区别之一。很明显，在这两种情况下，XML 本身都必须遵守语言的标准（例如，所有标记都必须是闭合的，并且标记不能重叠）。

什么是 XML 架构？它们与 DTD 的区别是什么？

虽然 XML 1.0 提供了定义 XML 文档的内容模型的机制 — DTD — 但是很明显还需要定义内容模型的更全面更有效的方法。XML 架构是特殊的 XML 结构的定义（从其组织和数据类型两个方面）。XML 架构使用“XML 架构”语言来指定在架构中如何定义元素的每种类型，以及与元素关联的数据类型。与 DTD 相比，架构的最鲜明的特点，便是架构本身就是 XML 文档。这意味着阅读它所描述的 XML 的工具也可以阅读它。

Microsoft 的 XML 服务目前支持 XML 数据架构，它代表了在 1999 年 3 月 Internet Explorer 5 装运时 “W3C 架构”活动的快照。XML 数据架构允许开发人员在他们的 XML 文档中添加数据类型，以及定义开放的内容模型。这种对 DTD 功能的扩展对 XML 编程很关键。

但是 W3C 正在准备“XML 架构定义 (XSD)”，它将成为“XML 架构标准”。Microsoft 计划在此规范成为建议后，立即使对“XML 架构定义 (XSD)”的支持成为它核心 XML 服务的一部分。

什么是名称空间，它们为何重要？

名称空间是 XML 的另一个高级功能，并作为 XML 1.0 规范的一部分，在 W3C 笔记中作了概述。它们允许开发人员限定元素名称和关系。名称空间使元素名称唯一可识别，从而避免了名称相同，但是在不同词典中定义的元素之间发生名称冲突。它们允许混合来自不同名称空间的标记，这一点对多个来源的数据很重要。

例如，书店可以定义标记代表书名，它只包含在 <BOOK> 元素中。但是，个人目录可以定义 <TITLE> 代表个人的职位，例如：</P> <P> <TITLE>President

名称空间有助于清晰地定义这种差别。

XSLT 和 XPATH

什么是 XSLT？

XSLT（英文），或者用于转换的可扩展样式表语言，它是在 1999 年 11 月 6 日获得批准的 W3C 建议。从标记和编程两重意义上说，这种语言提供了将 XML 结构转换到其他 XML 结构、HTML 或者任何数量的其他文本格式（例如 SQL）的机制。虽然它可以用于创建 Web 页面的显示输出，但是 XSLT 的实际功能在于能够改变底层结构，而不是简单地改变这些结构的媒体表示，就像在层叠样式表 (CSS) 中一样。

XSL、XQL、XSL 模式和 XSLT 之间的区别是什么？

XSLT 源自 CSS 在对 XML 文档结构改动上的局限性，当时创建 XML 的原因更倾向于代替 HTML 而不是提供通用数据描述语言。因此可扩展样式表语言 (XSL) 成为构造格式化 XML 新方法的成果。

但是，“W3C 样式工作”组的成员和早期 XML 采用者很快就发现，能够将 XML 从一种格式转换到另一个格式的语言，可以极大地简化生成的大量代码。Microsoft 向 W3C 提交了一个建议，最初名称为 XML 查询语言（或 XQL），它随之被 W3C 采纳为 XSL 模式语言。该语言的大多数功能最终都被纳入了 XSLT 规范中。

最终标准结合了为不同初始条件而修改的 XSLT 参数，创建代码功能块的命名模板，以及大量用于数值和字符串处理的增强功能。XSLT 还为在语言中添加内置功能提供方便，提供了 Microsoft 可在自己的实现中用来添加许多极其有用功能（包括访问 COM 对象和脚本）的产品。

什么是 XPath？

XPath（英文）是为 XML 定义的查询语言，它提供在文档中选择节点子集的简单语法。通过 XPath，通过指定类似于目录的路径（即名称）以及路径中的条件，可以检索元素集合。XPath 对 XSLT 和 XML DOM 都很重要，并与 XPointer 规范（允许根据统一资源定位符 [URL] 和 XPath 表达式的组合来选择文档片断）有联系。

为什么 XSLT 对 XML 很重要？

XSLT 是将一种 XML 文档转换为另一种的语言。这意味着它提供了单源 XML 数据的机制，可以在 Web 页面中创建由用户动态更改的丰富视图，可以为目标通信过滤数据。XSLT 对于业务规则编码已经足够强大。它可以从数据生成图形（不仅仅是 Web 页面）。它甚至可以处理与其他服务器的通信 — 特别是和能够集成到 XSLT 中的脚本模块协作 — 以及在 XSLT 自身内部生成适当的消息。虽然它不可能代替桌面系统中的大多数交互（出于性能和使用方便性两方面分原因），但是在未来的几年中，XSLT 很有可能最终成为系统之间进行通信的主要“编程”语言。

XSLT 和 CSS 之间的区别是什么？它们不是样式表吗？

层叠样式表 (CSS) 的任务是对 HTML 元素指定一组显示属性。CSS 决定了页面的视觉外观，但是不会改变源文档的结构。

另一方面，XSLT 也称为基于模板的语言，它允许将某种模式映射到源文档中，该源文档的输出是用 XML、HTML 或纯文本书写的。使用 XSLT，可以将 XML 文档的结构转换为不同的 XML 文档。例如，您可以更改 XML 文档的顺序、添加或删除元素、执行条件测试或者用元素的集合进行迭代。

XSLT 和 CSS 不是兼容标准。一种在 XML 中创建 Web 页面的有用技术，是用 XSLT 将 XML 转换为诸如列表或表的结构，然后将 CSS 应用于结果，控制这些结构在适当媒体中的显示。您甚至可以从 XSLT 创建 CSS。

标准

Microsoft 如何与 XML 标准兼容？

从 XML 语言开始产生起，Microsoft 就站在了 XML 的最前沿，而且很值得注意的是，W3C 在过去几年中所生成的大多数 XML 建议和工作草案，都包括来自至少一个（在某些情况下可能是数个）Microsoft 职员的输入和参与。Microsoft 已经多次被委以重任，与 W3C 标准组织一起，确保 XML 的开发能使所有用户受益，并且在许多不同领域的开发中都作出了重要贡献，包括 XML 规范、DOM、XSLT 和架构定义语言。Microsoft 承诺将与最新规范和标准保持一致。

XML 和 World Wide Web Consortium (W3C) 之间的关系是什么？

W3C 有一活跃的 XML 工作组。Microsoft 从 1996 年 6 月起就是该组织的共同发起者之一，从那时起许多业界企业都开始加入，包括 Netscape Communications Corp.、IBM 和 Oracle。有关 XML 标准过程的详细信息，请访问 W3C Web 站点（英文）。

XML 和 W3C 的地位关系如何？

XML 1.0 是在 1998 年 12 月被正式批准的，现在仍是个稳定的标准。有关当前 XML 规范的详细信息以及 W3C 内部的提交和审阅过程，请参见 W3C Web 站点（英文）。

DOM 在 W3C 中的地位如何？

DOM Level 1 的 W3C 文档状态为“推荐”。这说明 W3C 目前正在提议将它作为 World Wide Web 上的标准。有关 DOM 和在 W3C 内部提交和审阅过程的详细信息，请参见 DOM 规范（英文）。

工具支持

SQL Server 和 ADO 支持 XML 吗？

Microsoft ActiveX 数据对象 (ADO) 技术，提供许多将数据库记录集（数据记录集合）转换为 XML 格式的方法，以及从给定结构中获取 XML 并将其转换回 ADO 所支持数据库（包括 SQL Server 和 Oracle 数据库）的工具。此外，通过 MSXML2 和 MSXML3 中的 XML 数据源对象，还可以将任意 XML 直接加载到 ADO 中以生成记录集。

SQL Server 2000 还允许通过 URL 直接设置和检索 XML，方式和调用 Web 页面非常相似。这是处理数据的强大机制，因为它基本上意味着可以将 SQL Server 数据直接集成到 XML 过滤器和 Web 页面，基本上凡是有 XML 文档的地方都可以集成 SQL Server 数据。此外，还可以设置自定义模板，来控制如何从 SQL Server 数据中产生 XML，使数据库成为生成 XHTML 页面的强大工具。

最后，诸如 BizTalk Server 这样的应用程序还允许在任意数量的不同数据源（从 XML 文档到数据库到 Excel 和 Word 文档）之间进行映射、为 Web 体系结构创建复杂数据管道以及根据 XML 数据库需求构造有效的架构。

目前有 Microsoft 工具可以帮助我快速沿用 XML 吗？

Microsoft BizTalk Server 2000 是用于数据交换的、基于 XML 的服务器，它提供启用电子商务业务社会的基本结构和工具。BizTalk Server 的基础是基于规则的业务文档路由、转换和跟踪基本结构。该基本结构允许公司通过在组织边界之内或之间的应用程序中间交换业务文档，例如购买定单和发票，来集成、管理和自动化业务过程。有关详细信息，请参见Microsoft BizTalk Server 2000（英文）。

什么是 SOAP？

SOAP 是简单对象访问协议，是创建大范围分布式、复杂计算环境的工具，该计算环境可使用现有的 Internet 基本结构运行在 Internet 上。SOAP 可以使应用程序用许许多多方法在 Internet 上互相直接通信。有关 SOAP 的详细信息，请参见 SOAP 规范（英文）。

XML 如何适用于 Microsoft Windows® Distributed InterNet Applications (Windows DNA) 策略来构造三层并具有 Web 功能的应用程序？

XML 正在快速成为将结构化数据从中间层传送到桌面的工具。基于 XML 的数据可以通过中间层代理与多种后端（数据库）源集成。架构（参见“XML 数据”一节）可以改进该过程，并且开发人员可以更精确地描述和交换数据。

问题和解决方案

为什么在调用了 Load() 方法后，我的文档对象仍然为空？

默认情况下操作是异步加载的。这意味着如果提供 http URL 地址，那么 load() 方法将直接返回，并且文档对象仍然为空，因为数据还没有从服务器返回。为了纠正这个问题，请在代码中添加下面的行：

xmldoc.async = false;

同时，如果是从独立的 C++ 应用程序加载 http XML 文档，那么必须查询消息队列才能继续加载。

如何加载有外国和特殊字符的文档？

文档可以包含外国字符，例如：

foreign characters (úóíÿ)

例如 磲的外国字符必须在前面加上 escape 序列。外国字符可以是 UTF-8 编码或用不同编码指定，如下所示：

foreign characters (磲)

现在可以正确加载 XML 了。

其他字符是保留在 XML 中的，并且需要以不同的方式处理。下面的 XML：

This & that
产生如下错误：
此处不允许有空格。
行 0000001: This & that
位置 0000012: ----------^

此处 & 是 XML 句法结构的一部分，如果它仅仅放在 XML 数据源内部，那么不能解释为 &。您需要替换称为“实体”的特殊字符序列。

This & that
下面的字符需要相应的实体：

< <
& &
> >
" "
' '

引号字符被用作标记中属性值的定界符，因此通常不能在属性值的内部使用。例如，下面的内容将返回错误：

此处的单引号既用作属性定界符，又在属性值自身中。为了纠正这个问题，可以将属性定界符换成双引号：

或者可以将单引号转义为实体 '

上述两种方式都将通过 XML 对象模型中的 getAttribute 方法返回属性值 John's Stuff。同样，对于双引号，您可以使用实体
"。
也可以通过将文本放在 CDATA 节中来处理元素内容中的特殊字符。下面的内容是正确的：

is just "text" content。 ]]>

在本例子中，XML 对象模型将 CDATA 节点显示 xml 节点的子节点，它将返回字符串

This & that is just "text" content.
作为 nodevalue。

如何在 Visual Studio 6.0 C++ 中使用 MSXML COM 组件？

在 Visual C++ 6.0 中使用 MSXML COM 组件的最简便方式是使用 #import 指令：

#import "msxml.dll" named_guids no_namespace#import "msxml.dll" named_guids no_namespace
它定义了所有 IXML* 接口和接口 ID，从而可以在应用程序中使用它们了。也可以从 INETSDK 获取 MSXML 类型库和头文件（英文），以及包含类 IIDs 的 uuid.lib。

如何在 XML 中使用 HTML 实体？

下面的 XML 包含 HTML 实体：

它产生下列错误：

这是因为 XML 只有五个内置实体。关于内置实体的详细信息，请参阅如何加载有外国和特殊字符的文档？。

要使用 HTML 实体，需要用 DTD 定义它们。有关 DTD 的详细信息，请参阅 W3C XML 建议（英文）。要使用该 DTD，请将它直接包括在 DOCTYPE 标记中，如下所示：
' target=_blank>http://msdn.microsoft.com/xml/general/htmlentities.dtd">
Copyright © 2000, Microsoft Inc, All rights reserved.
要加载它，需要关闭 IXMLDOMDocument 接口的 validateOnParse 属性。请尝试将它粘贴到“Validator 测试页”中，关闭 DTD 验证，然后单击“验证”。请注意文档将加载，并且版权字符将显示在 validator 页面的末尾的 DOM 树中。

如果已经完成了 DTD 验证，那么必须将作为参数实体的 HTML 实体包括在现有的 DTD 中，如下所示：
' target=_blank>http://msdn.microsoft.com/xml/general/htmlentities.dtd">
%HTMLENT;' target=_blank>http://msdn.microsoft.com/xml/general/htmlentities.dtd">
%HTMLENT;
它将定义所有 HTML 实体，以便在 XML 文档中使用它们。

在元素内容中如何处理空白字符？

XML DOM 有三种访问元素文本内容的方式：

属性行为
nodevalue 按照原始的 XML 源中指定的那样，返回 TEXT、CDATA、COMMENT 和 PI 节点上的原始文本内容（包括空白字符）。对于 ELEMENT 节点和 DOCUMENT 本身，则返回空值。
数据与 nodevalue 相同
文本重复连接指定子树中的多个 TEXT 和 CDATA 节点并返回组合结果。

注意：空白字符包括新行、tab 和空格。

nodevalue 属性通常返回原始文档中的内容，与文档如何加载和当前 xml:space 范围无关。

文本属性连接指定子树中的所有文本并扩展实体。这与文档如何加载、preserveWhiteSpace 开关的当前状态和当前 xml:space 范围有关，请看如下所示：

preserveWhiteSpace = true when the document is loaded preserveWhiteSpace=true preserveWhiteSpace=true preserveWhiteSpace=false preserveWhiteSpace=false
xml:space=preserve xml:space=default xml:space=preserve xml:space=default
保留保留保留保留并截断

preserveWhiteSpace = false when the document is loaded preserveWhiteSpace=true preserveWhiteSpace=true preserveWhiteSpace=false preserveWhiteSpace=false
xml:space=preserve xml:space=default xml:space=preserve xml:space=default
半保留半保留并截断半保留半保留并截断

此处的保留表示和原始 XML 文档中完全相同的原始文本内容，截断意味着前导和尾部空格已经删除，半保留意味着保留了“重要的空白字符”并规范化了“不重要的空白字符”。重要的空白字符是文本内容内部的空白字符。不重要的空白字符是标记之间的空白字符，请看如下所示：

\n
\t Jane\n
\tSmith \n

在本示例中，红色是可以忽略的不重要的空白字符，而绿色是重要的空白字符，因为它是文本内容的一部分，因此有不可忽略的重要含义。所以在本例中，文本属性返回下列结果：

状态返回值
保留 "\n\t Jane\n\tSmith \n"

保留并截断 "Jane\n\tSmith"

半保留 " Jane Smith "

半保留并截断 "Jane Smith"

请注意“半保留”将规范化不重要的空白字符，例如，新行和 tab 字符将退化为单个空格。如果更改 xml:space 属性和 preserveWhiteSpace 开关，那么文本属性将返回相应的不同值。

CDATA and xml:space="preserve" subtree boundaries
在下面的例子中，CDATA 节点或“保留”节点的内容将得到连接，原因是它们不参与不重要的空白字符规范化。例如：

\n
\t Jane \n
\t\n

在这种情况下，CDATA 节点内部的空白字符不再与“不重要”空白字符“合并”，并且不会截断。因此“半保留并截断”情况将返回下列内容：

"Jane Smith "
在此，和标记之间的不重要的空白字符将包括在内，与 CDATA 节点的内容无关。如果用下列内容代替 CDATA，那么将返回相同结果：

Smith
实体是特殊的

实体是作为 DTD 的一部分加载和分析的，并且显示在 DOCTYPE 节点下。它们不一定要有任何 xml:space 范围。例如：

\n
\t Jane \n
\tSoftware Design Engineer\n
">
]>
&Jane;
假定 preserveWhiteSpace=false（在 DOCTYPE 标记范围内），在分析实体时不重要的空白字符丢失。实体将不会有空白字符节点。树将类似于：

DOCTYPE foo
    ENTITY: Jane
        ELEMENT: employee
            ELEMENT: name
                TEXT: Jane
            ELEMENT: title
                TEXT>:Software Design Engineer
    ELEMENT: foo
       ATTRIBUTE: xml:space="preserve"
       ENTITYREF: Jane

请注意，在 DOCTYPE 内部 ENTITY 节点下显露的 DOM 树不包含任何 WHITESPACE 节点。这意味着 ENTITYREF 节点的子节点也没有 WHITESPACE 节点，即使实体引用在 xml:space="preserve" 的范围内也是这样。

给定文档中引用的每个 ENTITY 的实例通常都有相同的树。

如果实体必须绝对保留空白字符，那么它必须在自己内部指定自己的 xml:space 属性，或者文档 preserveWhiteSpace 开关必须设置为 true。

如何处理属性中的空白字符？

有几种方式可以访问属性值。IXMLDOMAttribute 接口有 nodevalue 属性，它等价于作为 Microsoft 扩展的 nodevalue 和 text 属性。这些属性返回：属性返回的文本
attrNode.nodevalue
attrNode.value
getAttribute("name") 返回和原始文档中完全相同的内容（和扩展的实体）。
attrNode.nodeTypedvalue Null
attrNode.text 除了前导和尾部的空白字符已经截断之外，其他与 nodevalue 相同。

“XML 语言”规范为 XML 应用程序定义了下列行为：属性类型返回的文本
CDATA ID、IDREF、IDREFS、ENTITY、ENTITIES、NOTATION、枚举
半规范化全规范化
在此半规范化代表将新行和 tab 字符转换为空格，但是多个空格不会退化为一个空格。

在 XML 对象模型中如何处理空白字符？

有些时候，XML 对象模型将显示包含空白字符的 TEXT 节点。空白字符被截断后，多半会带来一些混乱。例如下面的 XML 例子：

]>

  Smith
  John

生成下列树：

Processing Instruction: xml
DocType: person
ELEMENT: person
TEXT:
ELEMENT: lastname
TEXT:
ELEMENT: firstname
TEXT:

名字和姓氏两边是只包含空白字符的 TEXT 节点，因为“person”元素的内容模型是 MIXED；它包含 #PCDATA 关键字。MIXED 内容模型指定元素之间可以有文本存在。因此，下面的内容也是正确的：

My last name is Smith and my first name is
John

结果是类似于下面的树：

ELEMENT: person
TEXT: My last name is
ELEMENT: lastname
TEXT: and my first name is
ELEMENT: firstname
TEXT:

如果没有单词“is”之后和之前的空白字符，以及之后和单词“and”之前的空白字符，那么句子便无法理解。因此，对于 MIXED 内容模型来说，文字组合、空白字符和元素都是相关的。对于非 MIXED 内容模型来说则不是这样。

要使只有空白字符的 TEXT 节点消失，请从“person”元素声明中删除 #PCDATA 关键字：

结果是下面清晰的树：

Processing Instruction: xml
DocType: person
ELEMENT: person
ELEMENT: lastname
ELEMENT: firstname

XML 声明做什么？

XML 声明必须列在 XML 文档的顶部：

它指定下面的项目：

该文档是 XML 文档。在丢失或者还没有指定 MIME 类型时 MIME 探测器可以用它来检测文件是否为类型 text/xml。
文档符合 XML 1.0 规范。在以后 XML 有其他版本时这一点很重要。
文档字符编码。编码属性是可选的，默认为 UTF-8。
注意：XML 声明必须在 XML 文档的第一行，因此下面的 XML 文件：

产生下面的分析错误：

无效的 xml 声明。
行 0000002:
位置 0000007: ------^
注意：XML 声明是可选的。如果需要在顶部指定注释或者处理指令，那么请不要放入 XML 声明。但是，默认的编码将为 UTF-8。

如何以可读格式打印我的 XML 文档？

在用 DOM 从零开始构造文档以产生 XML 文件时，任何内容都在一行上，相互之间没有空格。这是默认的行为。

构造在 Internet Explorer 5 中的默认 XSL 样式表，以可读格式显示和打印 XML 文档。例如，如果已经安装了 IE5，请尝试查看 nospace.xml 文件。浏览器中应该显示下面的树：

-
-
    XYZ
    12.56


在 XML 中没有插入空白字符。

打印可读 XML 是非常有趣的，特别是有定义不同类型内容模型的 DTD 时。例如，在混合内容模型 (#PCDATA) 下不能插入空格，因为它可能改变内容的含义。比如请考虑下面的 XML：

Elephant
这最好不输出为：

E
lephant
因为单词边界不再正确。

所有这些都使自动化打印成为问题。如果不需要打印可读 XML，那么可以使用 DOM 在适当的位置插入空白字符作为文本节点。

如何在 DTD 中使用名称空间？要在 DTD 中使用名称空间，请在使用它的元素的 ATTLIST 声明中声明它，如下所示：

名称空间类型必须为 #FIXED。属性的名称空间也是这样：

x:value CDATA #IMPLIED
xmlns:x CDATA #FIXED "urn:...">

名称空间和 XML 架构
DTD 和 XML 架构不能混合。例如，下面的

xmlns:x CDATA #FIXED "x-schema:myschema.xml"

将不导致使用在 myschema.xml 中定义的架构定义。对 DTD 和 XML 架构的使用是互斥的。

如何在 Visual Basic 中使用 XMLDSO？

使用下面的 XML 作为例子：

  Mark Hanson
  206 765 4583

  Jane Smith
  425 808 1111

可以按如下方式绑定到 ADO 记录集：

创建新的 VB 6.0 项目。
添加对 Microsoft ActiveX Data Objects 2.1 或更高版本、Microsoft Data Adapter Library 和 Microsoft XML 2.0 版的引用。
用下面的代码将 XML 数据加载到 XML DSO 控件中：
Dim dso As New XMLDSOControl
Dim doc As IXMLDOMDocument
Set doc = dso.XMLDocument
doc.Load ("d:\test.xml")

用下面的代码将 DSO 映射到使用 DataAdapter 的新记录集对象中：
Dim da As New DataAdapter
Set da.Object = dso
Dim rs As New ADODB.Recordset
Set rs.DataSource = da
访问数据：
MsgBox rs.Fields("name").value

结果显示字符串“Mark Hanson”
如何在 Java 中使用 XML DOM？

必须已经安装 MSXML.DLL 的 IE5 版本。在 Visual J++ 6.0 中，从项目菜单选择添加 COM 包装程序，然后从 COM 对象列表中选择“Microsoft XML 1.0”。该操作将把所需的 Java 包装程序构造到称为“msxml”的新软件包中。这些预先构造的 Java 包装程序也可以下载。类可以按如下方法使用：

import com.ms.com.*;
import msxml.*;
public class Class1
{
  public static void main (String[] args)
  {
    DOMDocument doc = new DOMDocument();
    doc.load(new Variant("file://d:/samples/ot.xml"));
    System.out.println("Loaded " + doc.getDocumentElement().getNodeName());
  }
}
代码示例将从 sun religion 示例中加载 3.8MB 测试文件“ot.xml”。Variant 类用于包装 Win32 VARIANT 基本类型。

因为在每次检索节点时实际上都获得了新的包装程序，因此不能在节点上使用指针比较。因此，不要使用下面的代码，

IXMLDOMNode root1 = doc.getDocumentElement();
IXMLDOMNode root2 = doc.getDocumentElement();
if (root1 == root2)...
而要使用下面的代码：

if (ComLib.isEqualUnknown(root1, root2)) ....
.class 包装程序的总大小大约为 160KB。但是，为了与 W3C 规范完全符合，应该只使用 IXMLDOM* 包装程序。下面的类是旧的 IE 4.0 XML 接口，可以从 msxml 文件夹中删除它们：

IXMLAttribute*,
IXMLDocument*, XMLDocument*
IXMLElement*,
IXMLError*,
IXMLElementCollection*,
tagXMLEMEM_TYPE*
_xml_error*
这使大小减少为 147KB。同时还可以删除下面的项目：

DOMFreeThreadedDocument
在 Java 应用程序中从多个线程访问 XML 文档。
XMLHttpRequest
用 XML DAV HTTP 扩展与服务器通信。
IXTLRuntime
定义 XSL 样式表脚本对象。
XMLDSOControl
绑定到 HTML 页面中的 XML 数据。
XMLDOMDocumentEvents
在分析过程中返回回调。
这可以将大小减少到 116KB。要使它更小，请考虑 DOM 本身有两层的事实：核心层包括：

DOMDocument, IXMLDOMDocument
IXMLDOMNode*
IXMLDOMNodeList*
IXMLDOMNamedNodeMap*
IXMLDOMDocumentFragment*
IXMLDOMImplementation
IXMLDOMParseError
和用户可能需要保留的 DTD 信息：

IXMLDOMDocumentType
IXMLDOMEntity
IXMLDOMNotation
XML 文档中的所有节点类型都是 IXMLDOMNode，它提供全部功能，但是存在每种节点类型的更高级别的包装程序。因此，如果修改 DOMDocument 包装程序并将这些特定类型更改为使用 IXMLDOMNode，那么所有下面的接口都可以删除：

IXMLDOMAttribute
IXMLDOMCDATASection
IXMLDOMCharacterData
IXMLDOMComment
IXMLDOMElement
IXMLDOMProcessingInstruction
IXMLDOMEntityReference
IXMLDOMText
删除这些将使大小减少到 61KB。但是，对 IXMLDOMElement 来说，getAttribute 和 setAttribute 方法都是有用的。否则需要使用：

IXMLDOMNode.getAttributes().setNamedItem(...)

haogj 2006-03-05 20:34 发表评论