BlogJava-无为-随笔分类-Web Data Mining

我的blog访问者分析

草儿 — Fri, 31 Aug 2007 01:04:00 GMT

最近本人使用google的网站访问分析工具对本博客在2007年8月29日-8月30日24小时的用户访
问做了一下分析：

中国区访问者分布如下：

草儿 2007-08-31 09:04 发表评论

JAVA组件过滤器Filter

草儿 — Wed, 25 Jul 2007 05:56:00 GMT

同servlet非常类似，Filter就是JAVA组件，请求发送到servlet前，可以使用过滤器Filter截获和处理请求，同时servlet结束以后，响应发回以前同样可以使用过滤器Filter处理响应。WEB容器可以用web.xml部署文件声明何时调用过滤器Filter。

过滤器Filter主要功能是：1、完成安全检查；2、重新格式化请求首部或体；3、建立请求审计或记录日志---请求过滤器Filter

1、压缩响应流；2、追加或者修改响应流；3、创建一个定制响应---响应过滤器Filter

同servlet一样，过滤器Filter也具有生命周期：init()->doFilter()->destroy().要实现模块化，FilterChain功不可末，它可以采用不同的方式组合过滤器，协调完成一些事情，它由部署文件中的filter元素驱动，和Filter都在javax.servlet包中。在servlet2.4中，过滤器同样可以用于请求分派器，但须在web.xml中声明，INCLUDE或FORWARD或REQUEST或ERROR该元素位于filter-mapping中。

1、实现一個Filter，代码如下：

public class MyFilter implements Filter {

public void init(FilterConfig arg0) throws ServletException {

}

public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain) throws IOException, ServletException{

HttpServletRequest httpRequest = (HttpServletRequest) request; HttpServletResponse httpResponse = (HttpServletResponse)response; CachedResponseWrapper wrapper = new CachedResponseWrapper(httpResponse); // 写入wrapper: chain.doFilter(request, wrapper); // 首先判断status, 只对200状态处理： if(wrapper.getStatus()==HttpServletResponse.SC_OK) { // 对响应进行处理，这里是进行GZip压缩: byte[] data = GZipUtil.gzip(wrapper.getResponseData()); httpResponse.setContentType(getContentType()); httpResponse.setContentLength(data.length); httpResponse.setHeader("Content-Encoding", "gzip");ServletOutputStream output = response.getOutputStream(); output.write(data); output.flush(); } }

public void destroy() {

}

2、实现一个HttpServletResponseWrapper

public class CheckFrameHttpServletResponseWrapper extends HttpServletResponseWrapper {

public CheckFrameHttpServletResponseWrapper(HttpServletResponse response) {

super(response); }

public PrintWriter getWriter() throws IOException{ return new CheckFrameWriter(super.getWriter()); }

}

3、实现一个Writer

public class CheckFrameWriter extends PrintWriter { String checkString = "\n";

public CheckFrameWriter(Writer out) { super(out); }

public void write(int c) { super.write((char) c); }

public void write(char buf[], int off, int len) { StringBuffer sb = new StringBuffer(len); for (int i = 0; i < len; i++) { sb.append(buf[off + i]); } String s = sb.toString(); int bodyIndex = s.indexOf(""); if (bodyIndex > -1) { String part1 = s.substring(0, bodyIndex); String part2 = s.substring(bodyIndex ); s = part1 + checkString + part2; } for (int i = 0; i < s.length(); i++) { write(s.charAt(i)); } }

public void write(String s, int off, int len) { for (int i = 0; i < len; i++) { write(s.charAt(off + i)); } } }

在Writer中，你便可以随心所欲的修改Response的內容了。

4、在Web.xml中加入相应的配置元素，对JSP进行拦截。

草儿 2007-07-25 13:56 发表评论

一个Servlet生命周期（Tomcat处理请求中）

草儿 — Sat, 07 Jul 2007 08:04:00 GMT

从Tomcat处理用户请求，我们可以清晰的看到容器Servlet的生命周期管理过程：
1、客户发出请求—>Web 服务器转发到Web容器Tomcat；
2、Tomcat主线程对转发来用户的请求做出响应创建两个对象：HttpServletRequest和HttpServletResponse；
3、从请求中的URL中找到正确Servlet，Tomcat为其创建或者分配一个线程，同时把2创建的两个对象传递给该线程；
4、Tomcat调用Servlet的servic()方法，根据请求参数的不同调用doGet()或者doPost()方法；
5、假设是HTTP GET请求，doGet()方法生成静态页面，并组合到响应对象里；
6、Servlet线程结束，Tomcat将响应对象转换为HTTP响应发回给客户，同时删除请求和响应对象。
从该过程中，我们可以理解Servlet的生命周期：Servlet类加载（对应3步）；Servlet实例化（对应3步）；调用init方法（对应3步）；调用service()方法（对应4、5步）；；调用destroy()方法（对应6步）。

草儿 2007-07-07 16:04 发表评论

JDOM简介

草儿 — Mon, 25 Jun 2007 10:33:00 GMT

JDOM是一种使用 XML 的独特 Java 工具包，用于快速开发 XML 应用程序。它的设计包含 Java 语言的语法乃至语义。

JDOM是两位著名的 Java 开发人员兼作者，Brett Mclaughlin 和 Jason Hunter 的创作成果， 2000 年初在类似于 Apache 协议的许可下，JDOM 作为一个开放源代码项目正式开始研发，JDOM 作为一个开放源代码项目正式开始了。它已成长为包含来自广泛的 Java 开发人员的投稿、集中反馈及错误修复的系统，并致力于建立一个完整的基于 Java 平台的解决方案，通过 Java 代码来访问、操作并输出 XML 数据。

虽然许多Java 开发人员每天都在使用 XML，Sun 却在将 XML 整合进 Java 平台方面落后了。因为在 XML 成为从商家对商家集成到 Web 站点内容流水化等方面的关键技术之前，Java 2 平台就已经非常流行了。Sun 已经使用 JSR 过程使之成为现存 XML API 的鼻祖，这一点已被广泛接受。目前最显著的是加入了 JAXP （用于 XML 语法分析的 Java API），其中包含了三个软件包：

      ·org.w3c.dom ，W3C 推荐的用于 XML 标准规划文档对象模型的 Java 工具
      ·org.xml.sax ，用于对 XML 进行语法分析的事件驱动的简单 API
      ·javax.xml.parsers ，工厂化工具，允许应用程序开发人员获得并配置特殊的语法分析器工具 JDOM 能够替换 org.w3c.dom 软件包来有计划地操作 XML 文档

JDOM是一个开源项目，它基于树型结构，利用纯JAVA的技术对XML文档实现解析、生成、序列化以及多种操作。

JDOM 直接为JAVA编程服务。它利用更为强有力的JAVA语言的诸多特性（方法重载、集合概念以及映射），把SAX和DOM的功能有效地结合起来。

Jdom是用Java语言读、写、操作XML的新API函数。Jason Hunter 和 Brett McLaughlin公开发布了它的1.0版本。在直觉、简单和高效的前提下，这些API函数被最大限度的优化。在接下来的篇幅里将介绍怎么用Jdom去读写一个已经存在的XML文档。

在使用设计上尽可能地隐藏原来使用XML过程中的复杂性。利用JDOM处理XML文档将是一件轻松、简单的事。

JDOM 在2000年的春天被Brett McLaughlin和Jason Hunter开发出来，以弥补DOM及SAX在实际应用当中的不足之处。

这些不足之处主要在于SAX没有文档修改、随机访问以及输出的功能，而对于DOM来说，JAVA程序员在使用时来用起来总觉得不太方便。

DOM的缺点主要是来自于由于Dom是一个接口定义语言（IDL）,它的任务是在不同语言实现中的一个最低的通用标准，并不是为JAVA特别设计的。JDOM的最新版本为JDOM Beta 9。最近JDOM被收录到JSR-102内，这标志着JDOM成为了JAVA平台组成的一部分。

在 JDOM 中，XML 元素就是 Element 的实例，XML 属性就是 Attribute 的实例，XML 文档本身就是 Document 的实例。

因为 JDOM 对象就是像 Document、Element 和 Attribute 这些类的直接实例，因此创建一个新 JDOM 对象就如在 Java 语言中使用 new 操作符一样容易。JDOM 的使用是直截了当的。

JDOM 使用标准的 Java 编码模式。只要有可能，它使用 Java new 操作符而不故弄玄虚使用复杂的工厂化模式，使对象操作即便对于初学用户也很方便。

一、JDOM包概览

JDOM是由以下几个包组成的

org.jdom包含了所有的xml文档要素的java类
org.jdom.adapters包含了与dom适配的java类
org.jdom.filter包含了xml文档的过滤器类
org.jdom.input包含了读取xml文档的类
org.jdom.output包含了写入xml文档的类
org.jdom.transform包含了将jdomxml文档接口转换为其他xml文档接口
org.jdom.xpath包含了对xml文档xpath操作的类

二、JDOM类说明

1、org.JDOM这个包里的类是你J解析xml文件后所要用到的所有数据类型。

Attribute
CDATA
Coment
DocType
Document
Element
EntityRef
Namespace
ProscessingInstruction
Text

2、org.JDOM.transform在涉及xslt格式转换时应使用下面的2个类

JDOMSource
JDOMResult
org.JDOM.input

3、输入类，一般用于文档的创建工作

SAXBuilder
DOMBuilder
ResultSetBuilder

4、org.JDOM.output输出类，用于文档转换输出

XMLOutputter
SAXOutputter
DomOutputter
JTreeOutputter

使用前注意事项：

1.JDOM对于JAXP以及TRax的支持

JDOM支持JAXP1.1：你可以在程序中使用任何的parser工具类,默认情况下是JAXP的parser。
制定特别的parser可用如下形式
SAXBuilderparser
=newSAXBuilder("org.apache.crimson.parser.XMLReaderImpl");
Documentdoc=parser.build("http://www.cafeconleche.org/");
//workwiththedocument...
JDOM也支持TRaX：XSLT可通过JDOMSource以及JDOMResult类来转换（参见以后章节）

2.注意在JDOM里文档（Document）类由org.JDOM.Document来表示。这要与org.w3c.dom中的Document区别开，这2种格式如何转换在后面会说明。
以下如无特指均指JDOM里的Document。

三、JDOM主要使用方法

1.Ducument类

(1)Document的操作方法：

Elementroot=newElement("GREETING");
Documentdoc=newDocument(root);
root.setText("HelloJDOM!");
或者简单的使用Documentdoc=newDocument(newElement("GREETING").setText("HelloJDOM!t"));
这点和DOM不同。Dom则需要更为复杂的代码，如下：
DocumentBuilderFactoryfactory=DocumentBuilderFactory.newInstance();
DocumentBuilderbuilder=factory.newDocumentBuilder();
Documentdoc=builder.newDocument();
Elementroot=doc.createElement("root");
Texttext=doc.createText("Thisistheroot");
root.appendChild(text);
doc.appendChild(root);
注意事项：JDOM不允许同一个节点同时被2个或多个文档相关联，要在第2个文档中使用原来老文档中的节点的话。首先需要使用detach()把这个节点分开来。

(2)从文件、流、系统ID、URL得到Document对象：

DOMBuilderbuilder=newDOMBuilder();
Documentdoc=builder.build(newFile("jdom_test.xml"));
SAXBuilderbuilder=newSAXBuilder();
Documentdoc=builder.build(url);
在新版本中DOMBuilder已经Deprecated掉DOMBuilder.builder(url)，用SAX效率会比较快。
这里举一个小例子，为了简单起见，使用String对象直接作为xml数据源：
PublicjdomTest(){
StringtextXml=null;
textXml="";
textXml=textXml+
"aaabbbcccddd";
textXml=textXml+"";
SAXBuilderbuilder=newSAXBuilder();
Documentdoc=null;
Readerin=newStringReader(textXml);
try{
doc=builder.build(in);
Elementroot=doc.getRootElement();
Listls=root.getChildren();//注意此处取出的是root节点下面的一层的Element集合
for(Iteratoriter=ls.iterator();iter.hasNext();){
Elementel=(Element)iter.next();
if(el.getName().equals("to")){
System.out.println(el.getText());
}
}
}
catch(IOExceptionex){
ex.printStackTrace();
}
catch(JDOMExceptionex){
ex.printStackTrace();
}
}
(3)DOM的document和JDOM的Document之间的相互转换使用方法，简单！
DOMBuilderbuilder=newDOMBuilder();
org.jdom.DocumentjdomDocument=builder.build(domDocument);
DOMOutputterconverter=newDOMOutputter();//workwiththeJDOMdocument…
org.w3c.dom.DocumentdomDocument=converter.output(jdomDocument);
//workwiththeDOMdocument…

2.XML文档输出

XMLOutPutter类：
JDOM的输出非常灵活,支持很多种io格式以及风格的输出
Documentdoc=newDocument(...);
XMLOutputteroutp=newXMLOutputter();
outp.output(doc,fileOutputStream);//Rawoutput
outp.setTextTrim(true);//Compressedoutput
outp.output(doc,socket.getOutputStream());
outp.setIndent("");//Prettyoutput
outp.setNewlines(true);
outp.output(doc,System.out);
详细请参阅最新的JDOMAPI手册

3.Element类：

(1)浏览Element树
Elementroot=doc.getRootElement();//获得根元素element
ListallChildren=root.getChildren();//获得所有子元素的一个list
ListnamedChildren=root.getChildren("name");//获得指定名称子元素的list
Elementchild=root.getChild("name");//获得指定名称的第一个子元素
JDOM给了我们很多很灵活的使用方法来管理子元素（这里的List是java.util.List）
ListallChildren=root.getChildren();
allChildren.remove(3);//删除第四个子元素
allChildren.removeAll(root.getChildren("jack"));//删除叫“jack”的子元素
root.removeChildren("jack");//便捷写法
allChildren.add(newElement("jane"));//加入
root.addContent(newElement("jane"));//便捷写法
allChildren.add(0,newElement("first"));

(2)移动Elements:
在JDOM里很简单
Elementmovable=newElement("movable");
parent1.addContent(movable);//place
parent1.removeContent(movable);//remove
parent2.addContent(movable);//add
在Dom里
Elementmovable=doc1.createElement("movable");
parent1.appendChild(movable);//place
parent1.removeChild(movable);//remove
parent2.appendChild(movable);//出错!
补充：纠错性
JDOM的Element构造函数（以及它的其他函数）会检查element是否合法。
而它的add/remove方法会检查树结构，检查内容如下：
1.在任何树中是否有回环节点
2.是否只有一个根节点
3.是否有一致的命名空间（Namespaces）

(3)Element的text内容读取

Acooldemo

//Thetextisdirectlyavailable
//Returns"\nAcooldemo\n"
Stringdesc=element.getText();
//There'saconvenientshortcut
//Returns"Acooldemo"
Stringdesc=element.getTextTrim();
(4)Elment内容修改
element.setText("Anewdescription");
3.可正确解释特殊字符
element.setText("

四、JDOM的应用

（一）、XML文档创建

我们由零开始利用JDOM生成一个XML文档。最后的结果(样本文档)看起来象这样：

kingwong

87654321

1.以 MyInfo 为根元素创建文档

Element rootElement = new Element("MyInfo");//所有的XML元素都是 Element 的实例。根元素也不例外：）
Document myDocument = new Document(rootElement);//以根元素作为参数创建Document对象。一个Document只有一个根，即root元素。

2.给根元素添加属性

Attribute rootAttri = new Attribute("comment","introduce myself");//创建名为 commnet,值为 introduce myself 的属性。
rootElement.setAttribute(rootAttri);//将刚创建的属性添加到根元素。
这两行代码你也可以合成一行来写，象这样：
rootElement.setAttribute(new Attribute("comment","introduce myself"));
或者
rootElement.setAttribute("comment","introduce myself");

3.添加元素和子元素

JDOM里子元素是作为 content（内容）添加到父元素里面去的,所谓content就是类似上面样本文档中之间的东东，即kingwong。罗嗦了点是吧：）
Element nameElement = new Element("name");//创建 name 元素
nameElement.addContent("kingwong");//将kingwong作为content添加到name元素
rootElement.addContent(nameElement);//将name元素作为content添加到根元素

这三行你也可以合为一句，象这样：
rootElement.addContent((Content)(new Element("name").addContent("kingwong")));//因为addContent(Content child)方法返回的是一个Parent接口，而Element类同时继承了Content类和实现了Parent接口，所以我们把它造型成Content。

我们用同样的方法添加带属性的子元素
rootElement.addContent(new Element("sex").setAttribute("value","male"));//注意这里不需要转型，因为addAttribute(String name,String value)返回值就是一个 Element。

同样的，我们添加元素到根元素下，用法上一样，只是稍微复杂了一些：
rootElement.addContent((Content)(new Element("contact").addContent((Content)(new Element("telephone").addContent("87654321")))));
如果你对这种简写形式还不太习惯，你完全可以分步来做，就象本节刚开始的时候一样。事实上如果层次比较多，写成分步的形式更清晰些，也不容易出错。

4.删除子元素

这个操作比较简单：
rootElement.removeChild("sex");//该方法返回一个布尔值

到目前为止，我们学习了一下JDOM文档生成操作。上面建立了一个样本文档，可是我们怎么知道对不对呢？因此需要输出来看一下。我们将JDOM生成的文档输出到控制台，使用 JDOM 的 XMLOutputter 类。

5. 将 JDOM 转化为 XML 文本

XMLOutputter xmlOut = new XMLOutputter(" ",true);
try {
xmlOut.output(myDocument,System.out);
} catch (IOException e) {
e.printStackTrace();
}
XMLOutputter 有几个格式选项。这里我们已指定希望子元素从父元素缩进两个空格，并且希望元素间有空行。
new XMLOutputter(java.lang.String indent, boolean newlines)这个方法在最新版本中已经不建议使用。JDOM有一个专门的用来定义格式化输出的类：org.jdom.output.Format，如果你没有特殊的要求，有时候使用里面的几个静态方法（应该可以说是预定义格式）如 getPrettyFormat()就可以了。我们把上面的输出格式稍微改一下，就象这样：
XMLOutputter xmlOut = new XMLOutputter(Format.getPrettyFormat());

6.将JDOM文档转化为其他形式

XMLOutputter 还可输出到 Writer 或 OutputStream。为了输出JDOM文档到一个文本文件，我们可以这样做：
FileWriter writer = new FileWriter("/some/directory/myFile.xml");
outputter.output(myDocument, writer);
writer.close();

XMLOutputter 还可输出到字符串,以便程序后面进行再处理:
Strng outString = xmlOut.outputString(myDocument);

当然，在输出的时候你不一定要输出所有的整个文档，你可以选择元素进行输出：
xmlOut.output(rootElement.getChild("name"),System.out);
一句话，JDOM非常灵活方便！如果你想进一步研究JDOM，请到官方网站去看一看：http://www.jdom.org

本节示例源码：
package com.cyberobject.study;

import java.io.IOException;

import org.jdom.Attribute;
import org.jdom.Content;
import org.jdom.Document;
import org.jdom.Element;
import org.jdom.output.Format;
import org.jdom.output.XMLOutputter;

/**
* @author kingwong
*
* TODO To change the template for this generated type comment go to
* Window - Preferences - Java - Code Style - Code Templates
*/
public class TestJDOM {

public static void main(String[] args)
{
Element rootElement = new Element("MyInfo");
Document myDocument = new Document(rootElement);

// Attribute rootAttri = new Attribute("comment","introduce myself");
// rootElement.setAttribute(rootAttri);

rootElement.setAttribute("comment","introduce myself");
//rootElement.setAttribute(new Attribute("comment","introduce myself"));
// Element sexElement = new Element("sex");
// rootElement.addContent(sexElement);

// Element nameElement = new Element("name");
// nameElement.addContent("kingwong");
// rootElement.addContent(nameElement);

rootElement.addContent((Content)(new Element("name").addContent("kingwong")));
rootElement.addContent(new Element("sex").setAttribute("value","male"));
rootElement.addContent((Content)(new Element("contract").addContent((Content)(new Element("telephone").addContent("87654321")))));

rootElement.removeChild("sex");

XMLOutputter xmlOut = new XMLOutputter(Format.getPrettyFormat());
try {
xmlOut.output(myDocument,System.out);
//xmlOut.output(rootElement.getChild("name"),System.out);
//String outString = xmlOut.outputString(myDocument);
} catch (IOException e) {
e.printStackTrace();
}
}
}

（二）、XML文档解析

JDOM 不光可以很方便的建立XML文档，它的另一个用处是它能够读取并操作现有的 XML 数据。
JDOM的解析器在org.jdom.input.*这个包里，其中的DOMBuilder的功能是将DOM模型的Document解析成JDOM模型的Document；SAXBuilder的功能是从文件或流中解析出符合JDOM模型的XML树。由于我们经常要从一个文件里读取数据，因此我们应该采用后者作为解析工具。
解析一个xml文档，基本可以看成以下几个步骤：

1.实例化一个合适的解析器对象

本例中我们使用SAXBuilder:
SAXBuilder sb = new SAXBuilder();

2.以包含XML数据的文件为参数，构建一个文档对象myDocument

Document myDocument = sb.build(/some/directory/myFile.xml);

3.获到根元素

Element rootElement = myDocument.getRootElement();

一旦你获取了根元素，你就可以很方便地对它下面的子元素进行操作了，下面对Element对象的一些常用方法作一下简单说明：
getChild("childname") 返回指定名字的子节点,如果同一级有多个同名子节点，则只返回第一个；如果没有返回null值。
getChildren("childname") 返回指定名字的子节点List集合。这样你就可以遍历所有的同一级同名子节点。
getAttributeValue("name") 返回指定属性名字的值。如果没有该属性则返回null,有该属性但是值为空，则返回空字符串。
getChildText("childname") 返回指定子节点的内容文本值。
getText() 返回该元素的内容文本值。

还有其他没有罗列出来的方法，如果需要的话，可以随时查阅JDOM的在线文档：http://www.jdom.org/docs/apidocs/index.html。当然你可以在你需要的地方添加、删除元素操作，还记得上面的创建XML的方法吗？呵呵~~~

学习新东东还是从实例学起最为快捷，下面简单举个例子，就以上面的XML样本代码来学习JDOM的XML解析。本例中读取了样本XML文件里一些属性和content，最后我们还在contact元素里插入了一个新元素wanghua@cyberobject.com" />。尽管我们实现了对于XML的基本操作，细心的朋友可能会
有疑问：如果XML文档的层次稍微复杂一些，如果嵌套多达几十上百层的话（开个玩笑），如果靠这样从根元素一级一级地通过getChild("childname")来访问子元素的话，将会非常痛苦！是的，的确是这样，但是我们有另一个有力的工具XPath，为什么不用呢？这是后话！先卖个关子（手敲累啦，下回吧，呵呵）。

/*
* Created on 2004-8-21
*
* TODO To change the template for this generated file go to
* Window - Preferences - Java - Code Style - Code Templates
*/
package com.cyberobject.study;

import org.jdom.Document;
import org.jdom.Element;
import org.jdom.input.SAXBuilder;
import org.jdom.output.Format;
import org.jdom.output.XMLOutputter;

/**
* @author kingwong
*
* TODO To change the template for this generated type comment go to
* Window - Preferences - Java - Code Style - Code Templates
*/
public class TestJDOM2 {
public static void main(String[] args){
SAXBuilder sb = new SAXBuilder();
try
{
Document doc = sb.build("myFile.xml");
Element root = doc.getRootElement();

String str1 = root.getAttributeValue("comment");
System.out.println("Root Element's comment attribute is : " + str1);
String str2 = root.getChild("sex").getAttributeValue("value");
System.out.println("sex Element's value attribute is : " + str2);
String str3 = root.getChildText("name");
System.out.println("name Element's content is :" + str3);
String str4 = root.getChild("contact").getChildText("telephone");
System.out.println("contact Element's telephone subelement content is : " + str4 + "\n");
Element inputElement = root.getChild("contact");
inputElement.addContent(new Element("email").setAttribute("value","wanghua@cyberobject.com"));

XMLOutputter xmlOut = new XMLOutputter(Format.getPrettyFormat());
String outStr = xmlOut.outputString(root);
System.out.println(outStr);
}
catch(Exception e)
{
e.printStackTrace();
}
}
}

草儿 2007-06-25 18:33 发表评论

MySQL DB学习笔记A

草儿 — Sat, 07 Apr 2007 07:28:00 GMT

MySQL DB是当今开源世界上最流行的free数据库，它的蓬勃发展和广泛的应用，奠定了当今主流数据库市场的一席。

一、数据库简介
MySQL 是一个快速、多线程、多用户和强壮的SQL数据库服务器。

对Unix和 OS/2 平台，MySQL基本上是免费的；但对微软平台，你在30 天的试用期后必须获得一个MySQL 许可证。详见第三节 MySQL许可证和技术支持。

MySQL是一个真正的多用户、多线程SQL数据库服务器。SQL（结构化查询语言）是世界上最流行的和标准化的数据库语言。MySQL是以一个客户机/服务器结构的实现，它由一个服务器守护程序mysqld和很多不同的客户程序和库组成。

SQL是一种标准化的语言，它使得存储、更新和存取信息更容易。例如，你能用SQL语言为一个网站检索产品信息及存储顾客信息，同时MySQL也足够快和灵活以允许你存储记录文件和图像。

MySQL 主要目标是快速、健壮和易用。最初是因为我们需要这样一个SQL服务器，它能处理与任何可不昂贵硬件平台上提供数据库的厂家在一个数量级上的大型数据库，但速度更快，MySQL就开发出来。自1996年以来，我们一直都在使用MySQL，其环境有超过 40 个数据库，包含 10,000个表，其中500多个表超过7百万行，这大约有100 个吉字节(GB)的关键应用数据。

MySQL建立的基础是业已用在高要求的生产环境多年的一套实用例程。尽管MySQL仍在开发中，但它已经提供一个丰富和极其有用的功能集。

二、MySQL 的主要特征

下表描述MySQL一些重要的特征：

使用核心线程的完全多线程。这意味着它能很容易地利用多CPU（如果有）。
C 、C++、 Eiffel 、 Java、 Perl、 PHP、Python、和 TCL API。见20 MySQL 客户工具和 API。
可运行在不同的平台上，见4.2 MySQL支持的操作系统。
多种列类型：1、 2、 3、4、和 8 字节长度的有符号/无符号整数、FLOAT、DOUBLE、CHAR、VARCHAR、TEXT、BLOB、DATE、TIME、DATETIME、 TIMESTAMP、YEAR、SET和ENUM类型。见7.3 列类型。
利用一个优化的一遍扫描多重联结（one-sweep multi-join）非常快速地进行联结(join)。

在查询的SELECT和WHERE部分支持全部运算符和函数，例如：

mysql> SELECT CONCAT(first_name, " ", last_name) FROM tbl_name
    WHERE income/dependents > 10000 AND age > 30;

通过一个高度优化的类库实现SQL函数库并且像他们能达到的一样快速，通常在查询初始化后不应该有任何内存分配。
全面支持SQL的GROUP BY和ORDER BY子句，支持聚合函数( COUNT()、COUNT(DISTINCT)、AVG()、STD()、SUM()、 MAX()和MIN() )。
支持ANSI SQL的LEFT OUTER JOIN和ODBC语法。
你可以在同一查询中混用来自不同数据库的表。(与版本 3.22一样 )。
一个非常灵活且安全的权限和口令系统，并且它允许基于主机的认证。口令是安全的，因为当与一个服务器连接时，所有的口令传送被加密。
ODBC for Windiws 95。所有的 ODBC 2 . 5 函数和其他许多函数。例如，你可以用Access连接你的 MySQL服务器。见16 MySQL ODBC 支持。
具备索引压缩的快速B树磁盘表。
每个表允许有16个索引。每个索引可以由1～16个列或列的一部分组成。最大索引长度是 256 个字节(在编译MySQL时，它可以改变)。一个索引可以使用一个CHAR或VARCHAR字段的前缀。
定长和变长记录。
用作临时表的内存散列表。
大数据库处理。我们正在对某些包含 50,000,000 个记录的数据库使用MySQL。
所有列都有缺省值，你可以用INSERT插入一个表列的子集，那些没用明确给定值的列设置为他们的缺省值。
为了可移植性使用 GNU Automake , Autoconf 和libtool。
用C和C++编写，并用大量不同的编译器测试。
一个非常快速的基于线程的内存分配系统。
没有内存漏洞。用一个商用内存漏洞监测程序测试过(purify)。
包括myisamchk，一个检查、优化和修复数据库表的快速实用程序，详见13 维护 MySQL安装。
全面支持ISO-8859-1 Latin1 字符集。例如，斯堪的纳维亚的字符 @ringaccent{a}, @"a and @"o 在表和列名字被允许。
所有数据以 ISO-8859-1 Latin1 格式保存。所有正常的字符串比较是忽略大小写的。
根据 ISO-8859-1 Latin1 字符集进行排序(目前瑞典语的方式)。通过在源代码中增加排序顺序数组可以改变它。为了理解一个更高级的排序例子，看一看捷克语的排序代码。MySQL支持可在编译时指定的很多不同的字符集。
表和列的别名符合 SQL92 标准。
DELETE、INSERT、REPLACE和UPDATE 返回有多少行被改变(受影响)。
函数名不会与表或列名冲突。例如ABS是一个有效的列名字。对函数调用的唯一限制是函数名与随后的“(”不能有空格。详见7.31 MySQL对保留字很挑剔吗？。
所有MySQL程序可以用选项--help或-?获得联机帮助。
服务器能为客户提供多种语言的出错消息，详见9.1 MySQL支持哪些语言？。
客户端使用TCP/IP 连接或Unix套接字（socket）或NT下的命名管道连接MySQL。
MySQL特有的SHOW命令可用来检索数据库、表和索引的信息，EXPLAIN命令可用来确定优化器如何解决一个查询。

三、SQL语法

      登录MySQL服务器语法：mysql -h host_name -u user_name -p [password];
    1、创建、删除数据库
             CREATE DATABASE [IF NOT EXISTS] db_name
             例如：create DATABASE Samp_db;
             DROP DATABASE [IF EXISTS] db_name
            例如：drop DATABASE Samp_db;

    2、创建表格
              CREATE [TEMPORARY] TABLE [IF NOT EXISTS] tbl_name [(create_definition,...)][table_options]               [select_statement]；
           例如：mysql> CREATE TABLE test (a INT NOT NULL AUTO_INCREMENT,
                               ->        PRIMARY KEY (a), KEY(b))
                               ->        TYPE=MyISAM SELECT b,c FROM test2;

    3、插入数据
           INSERT [LOW_PRIORITY | DELAYED] [IGNORE]
                   [INTO] tbl_name [(col_name,...)]
                  VALUES ((expression | DEFAULT),...),(...),...
                   [ ON DUPLICATE KEY UPDATE col_name=expression, ... ]
         or INSERT [LOW_PRIORITY | DELAYED] [IGNORE]
                  [INTO] tbl_name [(col_name,...)]
                  SELECT ...
        or INSERT [LOW_PRIORITY | DELAYED] [IGNORE]
                   [INTO] tbl_name
        SET col_name=(expression | DEFAULT), ...
                    [ ON DUPLICATE KEY UPDATE col_name=expression, ... ]
        例如：mysql> INSERT INTO tbl_name (col1,col2) VALUES(15,col1*2);

草儿 2007-04-07 15:28 发表评论

数据挖掘与统计学

草儿 — Fri, 12 Jan 2007 13:57:00 GMT

摘要: Data Mining from a Statistical Perspective John Maindonald Statistical Consulting Unit of the Graduate School， Australian National University ... 阅读全文

草儿 2007-01-12 21:57 发表评论

SDO2.0：创建和读取 XML 文档

草儿 — Fri, 12 Jan 2007 01:42:00 GMT

引言：什么是 SDO？

Service Data Object (SDO) 2.0 是一个开放标准数据模型编程 API，允许开发人员在较高的级别方便地操作数据。尽管 SDO 1.0 以相同的数据抽象为目标，但有几个大的缺点，其中主要的一点是缺少 Helper 类，如 XSDHelper, XMLHelper 等。而最终结果是，开发人员被迫使用 SDO 1.0 实现 API（来自 Eclipse Modeling Framework (EMF) SDK）。

当前的实现 (SDO 2.0) 使用 EMF 2.2 SDK，但这个 SDO 2.0 实现细节并不会影响开发人员根据新 API 编写程序。将来，开放源代码社区（通过 Apache Software Foundation）可能会决定提供不同的 SDO 2.0 实现，但这不应影响基于 SDO 2.0 API 构建的应用程序。

了解这个新 API 的优势的最基本方法是使用 SDO 2.0 来创建符合 XML 模式 (XSD) 的 XML 文档并对其进行读取操作。要在不使用 SDO 2.0 的情况下完成相同的工作，开发人员需要理解 XML 解析器如何工作，并将数据解析逻辑与应用程序紧密集成。如果以后 XSD 需要更改，将需要对应用程序的各处进行调整，从而可能对代码的质量带来灾难性的影响。

SDO 2.0 API 的新用户很难直接通过学习规范来理解相关概念。为了提供一定的帮助，我们从 XML Schema Primer（请参阅参考资料）创建了一个示例，以说明如何使用 SDO 2.0 API 进行以下任务：

将 XML 文档写入到磁盘

从磁盘读取该文档。

场景：购买订单信息收集和配送

以下是我们将尝试通过我们的示例实现的使用场景。首先，公司确定购买订单（purchase order，PO）信息的要求。完成此任务后，我们就开始创建静态表单，以设计信息的结构。在数据库中，此静态表单即表模式。在 XML，此静态表单即 XML 模式 (XSD)。如果以后需要收集更多的客户信息，我们将需要重新设计表单/表模式/XSD。

下订单时，客户需要填写 PO 表单，或向操作员提供相同的信息，以便填写此表单。表单中的信息将随后由公司用于对订单进行配送。

公司接收到 PO 信息后，很有可能会将其进行保存，并在以后对其进行读取以用于各种目的（如提供客户支持）。在此示例中，我们可以将信息以 XML 格式保存，然后使用 SDO API 进行读取。

图 1 显示了从客户 Robert Smith 收集的 PO 信息示例。将创建 XSD 文件，以采用结构化的方式存储此示例购买订单。将用一个名为 CreatePurchaseOrder.java 的示例程序来采用 XML 格式创建示例 PO（名为 po.xml）。最后，将使用 ReadPurchaseOrder.java 来演示如何从 po.xml 读取订单信息。

图 1. 来自 Rober Smith 的示例购买订单信息

Order date: 1999-10-20
Shipping information:
Name:Alice Smith
Street:123 Maple Street
City:Mill Valley
State:CA
Zip code: 90952
Country:US
Billing information:
Name:Robert Smith
Street:8 Oak Avenue
City:Mill Valley
State:PA
Zip code: 95819
Country:US
Order Items:
1. Part number:872-AA
Product name:Lawnmower
Quantity: 1
Price: 148.95
Comment:Confirm this is electric
2. Part number:926-AA
Product name:Baby Monitor
Quantity: 1
Price: 39.98
Ship date: 1999-05-21
Comment: Hurry, my lawn is going wild!

回页首

购买订单的 XML 模式

基于图 1 所示的示例购买订单，可以使用一个 PO 类型来表示订单。我们将其命名为 PurchaseOrderType。PurchaseOrderType 的实例可以包含四个主要数据，如下所示：

shipping information

billing information

order items information

comment

shipping information 和 billing information 可包含更多的数据，如 name、street、city、state、zip 和 country。Order items information 可以包含客户所购买的物品的很多信息。每个物品可能包含 part number、product name、quantity, price、ship date 和 comment。PO 的 comment 区域包含一个字符串值，并不要求采用更结构化的信息。

清单 1 显示了结构化为 XSD 格式的文件中包含的所有购买订单信息。

清单 1. PO.xsd

还可以使用统一建模语言（Unified Modeling Language，UML）类关系图来对购买订单信息进行结构化，如图 2 中所示。

图 2. 购买订单的 UML 类关系图

XSD po.xsd 文件和该 UML 类关系图具有以下区别：

类关系图定义了 ItemType，而并未在 po.xsd.diagram 中定义此项。尽管 po.xsd 并不具体定义 ItemType，XSD 规范仍可将 ItemType 作为匿名类型处理。

XSD 中所有 xsd: 在类关系图中都缩写为了。在 XSD 中，xsd: 模式中的 xsd 用于指示类型所属的命名空间。在类关系图中，为了简单起见而将其省略了。

SKU type 未在类关系图中定义。SKU type 事实上是在 po 命名空间中定义的规范化字符串类型。在类关系图中，它由 string type 加以表示。

回页首

创建 XML 格式的示例 PO

清单 2 中所示的示例 CreatePurchaseOrder.java 程序用于创建一个 PO，该 PO 采用名为 po.xml 的 XML 格式（如清单 3 所示）。

清单 2. CreatePurchaseOrder.java

/** * Author: Fuhwei Lwo */ import java.io.FileOutputStream; import java.io.FileInputStream; import java.io.OutputStream; import commonj.sdo.DataObject; import commonj.sdo.helper.DataFactory; import commonj.sdo.helper.XMLHelper; import commonj.sdo.helper.XSDHelper; public class CreatePurchaseOrder { private static final String PO_MODEL = "po.xsd"; private static final String PO_NAMESPACE = "http://www.example.com/PO"; private static final String PO_XML = "po.xml"; private static void definePOTypes() throws Exception { FileInputStream fis = new FileInputStream(PO_MODEL); XSDHelper.INSTANCE.define(fis, null); fis.close(); } public static void main(String[] args) throws Exception { definePOTypes(); DataObject purchaseOrder = DataFactory.INSTANCE.create(PO_NAMESPACE, "PurchaseOrderType"); purchaseOrder.setString("orderDate", "1999-10-20"); DataObject shipTo = purchaseOrder.createDataObject("shipTo"); shipTo.set("country", "US"); shipTo.set("name", "Alice Smith"); shipTo.set("street", "123 Maple Street"); shipTo.set("city", "Mill Valley"); shipTo.set("state", "CA"); shipTo.setString("zip", "90952"); DataObject billTo = purchaseOrder.createDataObject("billTo"); billTo.set("country", "US"); billTo.set("name", "Robert Smith"); billTo.set("street", "8 Oak Avenue"); billTo.set("city", "Mill Valley"); billTo.set("state", "PA"); billTo.setString("zip", "95819"); purchaseOrder.set("comment", "Hurry, my lawn is going wild!"); DataObject items = purchaseOrder.createDataObject("items"); DataObject item1 = items.createDataObject("item"); item1.set("partNum", "872-AA"); item1.set("productName", "Lawnmower"); item1.setInt("quantity", 1); item1.setString("USPrice", "148.95"); item1.set("comment", "Confirm this is electric"); DataObject item2 = items.createDataObject("item"); item2.set("partNum", "926-AA"); item2.set("productName", "Baby Monitor"); iteim2.setInt("quantity", 1); item2.setString("USPrice", "39.98"); item2.setString("shipDate", "1999-05-21"); OutputStream stream = new FileOutputStream(PO_XML); XMLHelper.INSTANCE.save(purchaseOrder, PO_NAMESPACE, "purchaseOrder", stream); } }

清单 3. Po.xml

Alice Smith 123 Maple Street Mill Valley CA 90952 Robert Smith 8 Oak Avenue Mill Valley PA 95819 Hurry, my lawn is going wild! Lawnmower 1 148.95 Confirm this is electric Baby Monitor 1 39.98 1999-05-21

该示例 Java 程序首先通过调用 XSDHelper.INSTANCE.define() 方法向 SDO 运行时注册 po.xsd 中描述的所有类型。然后，它从 PurchaseOrderType 创建一个根 DataObject。该程序将从该处使用 DataObject API 来构建 DataObject 树，以表示购买订单信息，如图 3 中所示。

图 3. DataObject 树

在图 3 中，每个矩形都划分为两个隔间。顶部间隔（灰色）指示 DataObject 实例名称及其实际类型；底部间隔指示所包含的属性。例如，树的根元素为 purchaseOrder DataObject 实例；其实际类型为 PurchaseOrderType，在清单 1 中的 PO.xsd 中定义。在此 DataObject 实例中，包含两个属性值——orderDate 和 comment。

创建 DataObject 树后，该程序调用 XMLHelper.INSTANCE.save() 方法来将从 purchaseOrder DataObject 实例开始的树内容保存到 XML 文档中（此例中为 po.xml）。事实上，可以将树中任何 DataObject 实例指定为 XMLHelper.INSTANCE.save() 方法的第一个参数，save() 方法将保存从所指定的实例开始的所有 DataObject 实例。

回页首

读取示例 PO

CreatePurchaseOrder.java 创建了 po.xml 后，我们可以编译并运行清单 4 中所示的 ReadPurchaseOrder.java，以演示如何使用 SDO API 来遍历 po.xml 的内容。该应用程序将执行以下操作：

进行检查，以确保已向 SDO 运行时注册了 po.xsd 中定义的类型

调用 XMLHelper.load() 方法来将 po.xml 加载到内存中（使用 XMLDocument 实例 xmlDoc 加以表示）

调用 xmlDoc.getRootObject() 方法来检索名为 purchaseOrder 的 DataObject 树的根对象，该对象与图 3 中所示的 DataObject 树关系图中的 purchaseOrder DataObject 对应

purchaseOrder DataObject 返回后，遍历 DataObject 树，以检索关于此 PO 的所有信息

清单 4. ReadPurchaseOrder.java

/** /** * Author: Fuhwei Lwo */ import java.io.FileInputStream; import java.util.List; import commonj.sdo.DataObject; import commonj.sdo.helper.XMLDocument; import commonj.sdo.helper.XMLHelper; import commonj.sdo.helper.XSDHelper; public class ReadPurchaseOrder { private static final String PO_MODEL = "po.xsd"; private static final String PO_XML = "po.xml"; private static void definePOTypes() throws Exception { FileInputStream fis = new FileInputStream(PO_MODEL); XSDHelper.INSTANCE.define(fis, null); fis.close(); } public static void main(String[] args) throws Exception { definePOTypes(); FileInputStream fis = new FileInputStream(PO_XML); XMLDocument xmlDoc = XMLHelper.INSTANCE.load(fis); DataObject purchaseOrder = xmlDoc.getRootObject(); System.out.println("Order date: " + purchaseOrder.get("orderDate")); System.out.println("Comment: " + purchaseOrder.get("comment")); DataObject shipTo = purchaseOrder.getDataObject("shipTo"); System.out.println("Ship to name: " + shipTo.get("name")); DataObject billTo = purchaseOrder.getDataObject("billTo"); System.out.println("Bill to name: " + billTo.get("name")); System.out.println(); DataObject items = purchaseOrder.getDataObject("items"); List itemList = items.getList("item"); for (int i=0; i

清单 4 中以黑体显示的 System.out.println() 显示各种数据对象的属性值，包括：

purchaseOrder DataObject 的 orderDate 和 comment 属性

shipTo DataObject 的 name 属性

billTo DataObject 的 name 属性

各种数据对象的 partNum 和 productName 属性

图 4. 运行 ReadPurchaseOrder 的控制台输出

Order date: 1999-10-20
Comment:Hurry, my lawn is going wild!
Ship to name:Alice Smith
Bill to name:Robert Smith
Part num:872-AA
Product name:Lawnmower
Part num:926-AA
Product name:Baby monitor

在图 4 中，我们可以看到运行 ReadPurchaseOrder Java 代码的输出。

回页首

结束语：SDO 将成为事实上的数据模型编程 API

SDO 2.0 API 提供了创建和访问数据的一致方式，使开发人员不必了解分析和维护数据完整性的底层实现细节。SDO 2.0 目前是 Apache Software Foundation 下的一个试验性子项目（称为 Tuscany），预期将成为 SOA 开发的数据模型编程 API 的事实标准。请参阅参考资料部分，以获得一个相关链接。

可以从上面的示例中看出，SDO 2.0 API 使您完全不必知道和使用 XML 解析器 API 来读取、写入和操作数据。如果使用 Java 创建了 DataObject 来表示符合您所定义的 XML 模式的 XML 数据，SDO 2.0 将提供足够的方便性和灵活性，让您将精力放在如何使用数据上。因此，它可为您带来极大的好处，从而提高开发工作效率和产品质量。

总之，通过使用 SDO 2.0 提供的数据抽象技术，您可以根据所定义的业务逻辑来处理数据，以满足您的业务需求。这可以帮助您简化业务应用程序开发，也能提高团队的工作效率和工作质量。

回页首

参考资料
学习

您可以参阅本文在 developerWorks 全球站点上的英文原文。

请参阅 W3 网站上的 XML Schema Part 0:Primer Second Edition，以了解 XML 模式机制的说明，并了解如何使用 XML 模式语言创建模式。

请参阅 Service Data Objects 规范。

在 Apache Software Foundation 网站了解有关 Tuscany/SDO 2.0 project 的更多信息。

请访问 SOA and Web services 专区，以获得数百篇关于如何开发 Web 服务应用程序的文章以及入门级、中级和高级教程，您将大开眼界。

讨论

developerWorks 博客 ——参加 developerWorks 社区。

回页首

关于作者

Fuhwei Lwo 目前是 WebSphere Service Data Objects (SDO) 的团队负责人。他主要的工作重点是推动在面向服务的体系结构（Service Oriented Architecture，SOA）中将 SDO 作为数据数据模型编程 API 成功采用。

草儿 2007-01-12 09:42 发表评论

基于WEB 的数据挖掘综述

草儿 — Wed, 03 Jan 2007 13:20:00 GMT

                                                            周竞扬
                             MG0133041
                            南京大学计算机科学与技术系分布式与并行系统实验室
                             江苏南京 210093
摘要基于WEB 的数据挖掘是当前相当热门的方向之一本文对此作了一个比较全面的
综述概括了基于WEB 的数据挖掘的主要概念和特点说明各类WEB 挖掘尤其
是基于WEB 使用的挖掘所常用的技术最后简单介绍了XML 在基于WEB 数据
挖掘中的应用
关键字基于WEB 的数据挖掘基于WEB 使用的数据挖掘半结构化 XML

Abstract: As web mining is one of the hottest research fields presently, this survey introduces itsbasic concepts and characteristics, including semi-structured data model. Three types ofweb mining and their applications are discussed in this paper, especially the web usagemining. Using XML in web mining is also stated in the last of the article.
Keywords: Web Mining Web Usage Mining Semi-structured XML

       我们现在已经生活在一个相当数字化的时代中,通信、计算机和网络技术正极大地影响着整个人类社会。然而，海量信息既给人们带来方便也带来了许多问题使我们惊叹信息爆炸的同时，又不得不面对知识贫乏的苦恼信息过量难以消化信息真假难以辨别，信息安全难以保证，信息形式相异难以统一处理。人们开始考虑：“如何才能不被信息淹没，而是从中及时发现有用的知识、提高信息利用率。”面对这一挑战，数据挖掘技术应运而生，并得到长足的发展，显示出了强大的生命力.
        所谓数据挖掘Data Mining 就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息和知识的过程[1] 。数据挖掘的诞生是人们对数据库技术进行长期研究和开发的结果，而数据挖掘技术发展的同时它又反过来促使数据库技术进入了一个更高级的阶段：传统的数据环境基本上是数据操作型的传统的信息系统只负责数据的增删及修改操作而在数据库的基础上可实现的工作就是OLTP （OnLine Transaction Process 联机事务处理）。现在由于数据积累的不断增多，人们需要分析型的数据环境，于是就出现了由数据库导出的数据仓库，以此为基础则可以实现OLAP （OnLine Analysis Process 联机分析处理）：随着海量数据搜集的可能计算机处理技术的增强和先进数据挖掘算法的提出，数据挖掘技术不仅能对过去的数据进行查询和遍历，而且能够找出过去数据之间潜在有价值的联系并以一定的形式表现出来，从而极大的满足了人们对知识的迫切需求。
        数据挖掘基于的原始数据是形成知识的源泉，它既可以是结构化的如关系数据库中的数据，也可以是半结构化的，如文本、图形、图像数据，甚至是分布在网络上的异构型数据。本文将着重讨论一种针对半结构化数据的挖掘—基于WEB 的数据挖掘，主要介绍了它的基本概念以及经常采用的技术最后简单说明了XML 在其中的应用。
一、基于WEB 的数据挖掘的主要概念
1、什么是基于WEB 的数据挖掘
        当前网络发展迅速，各种网站比比皆是。但在竞争日益激烈的网络经济中，只有赢得用户，才能最终赢得竞争的优势。作为一个网站的管理员或拥有者，应该知道用户都在他的网站上干什么，知道网站哪些部分最为用户喜爱，哪些让用户感到厌烦，什么地方出了安全漏洞，什么样的改动带来了显著的用户满意度，提高什么样的改动反而丢失了用户等等。“知己知彼”，才能“百战不殆”。而基于WEB 数据挖掘技术正能满足这些需求。
        就基于WEB 数据挖掘的确切定义，到目前为止还没有很明确而权威的说法。国外有认为：基于WEB 数据挖掘，就是利用数据挖掘技术自动地从网络文档以及服务中发现和抽取信息的过程。国内则众说纷纭，有认为是在大量已知数据样本的基础上得到数据对象间的内在特性，并以此为依据在WEB 中进行有目的的信息提取过程。同时，也有学者将网络环境下的数据挖掘归入网络信息检索与网络信息内容的开发等等。总之，基于WEB 的数据挖掘（Web Mining）正是从万维网（World Wide Web ）上获取原始数据中从中挖掘出隐含其中且潜在可用的知识最终应用于商业运作以满足管理者的需要。
2 、基于WEB 数据挖掘的分类
根据挖掘的对象不同我们可以把基于WEB 的数据挖掘分为三大类：
􀁺基于WEB 内容的挖掘（Web Content Mining）
􀁺 基于WEB 结构的挖掘（Web Structure Mining）
􀁺 基于WEB 使用的挖掘（Web Usage Mining）
（1）基于WEB 内容的挖掘
        所谓基于WEB 内容的挖掘实际上就是从WEB 文档及其描述中获取知识, WEB 文档文件挖掘以及基于概念索引或Agent 技术的资源搜索也应该归于此类。Web 信息资源类型众多，目前WWW 信息资源已经成为网络信息资源的主体，然而除了大量的人们可以直接从网上抓取、建立索引、实现查询服务的资源之外，相当一部分信息是隐藏着的数据（如由用户的提问而动态生成的结果，存在于数据库系统中的数据，或是某些私人数据）无法被索引，从而无法提供对它们有效的检索方式，这就迫使我们把这些内容挖掘出来。若从信息资源的表现形式来看，WEB 信息内容是由文本、图像、音频、视频、元数据等种种形式的数据组成的，因而我们所说的基于WEB 内容的挖掘也是一种针对多媒体数据的挖掘。
2 、基于WEB 结构的挖掘
       这一类型的挖掘是从万维网的整体结构和网页上的相互链接中发现知识的过程，它主要挖掘WEB 潜在的链接结构模式。这种思想源于引文分析，即通过分析一个网页链接和被链接数量以及对象来建立WEB 自身的链接结构模式。这种模式可以用于网页归类并且可以由此获得有关不同网页间相似度及关联度的信息。WEB 结构挖掘有助于用户找到相关主题的权威站点，而且对网络资源检索结果的排序有很大意义。
3、基于WEB 使用的挖掘
        基于WEB 使用的挖掘，也称为WEB 日志挖掘（Web Log Mining）。与前两种挖掘方式以网上的原始数据为挖掘对象不同，基于WEB 使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括：网络服务器访问记录、代理服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。WEB 使用挖掘将这些数据一一纪录到日志文件中，然后对积累起来的日志文件进行挖掘，从而了解用户的网络行为数据所具有的意义。我们前面所举的例子正属于这一种类型。
        表1[2]从五个方面对三种挖掘形式做了比较其中的具体内容下文将会作进一步介绍。
          基于WEB 内容的挖掘：非结构化半结构化\文本文档超文本文档\Bag of words n-grams 词短语概念或实体关系型数据\TFIDF 和变体机器学习统计学(包括自然语言处理)\归类聚类发掘抽取规则发掘文本模式建立模式.
           基于WEB 结构的挖掘:半结构化数据库形式的网站链接结构\超文本文档链接\边界标志图 OEM 关系型数据图形\Proprietary 算法 ILP (修改后)的关联规则\发掘高频的子结构发掘网站体系结构归类聚类.
          基于WEB 使用的挖掘:交互形式\服务器日志记录浏览器日志记录\关系型表图形\Proprietary 算法机器学习统计学 (修改后的）关联规则\站点建设改进与管理销建立用户模式.
3、基于WEB 数据挖掘的特点
（1）、什么是半结构化
       所谓半结构化是相对于结构化和非结构化而言的。我们称传统数据库中的数据为完全结构化的数据，而同时还存在着一些诸如一本书、一张图片等完全无结构的非结构化数据。半结构化则是介于两者之间，具有隐含模式、信息结构不规则、无严格类型约束等特点。半结构化数据模式有如下特征[4]
      先有数据，后有模式；
      半结构化数据的模式是用于描述数据的结构信息，而不是对数据结构进行强制性的约束；
     半结构化数据的模式是非精确的，它只可能描述数据的一部分结构，也可能根据数据处理的不同阶段的视角不同而异；
     半结构化数据的模式，可能规模很大甚至超过源数据的规模，而且会由于数据的不断更新而处于动态变化过程中。
（2）、 WEB 数据的特点
        Web 上的数据最大特点就是半结构化。但是Web 上的数据与传统的数据库中的数据不同，传统的数据库都有一定的数据模型，可以根据模型来具体描述特定的数据而且按照一定的组织有规律的集中或者分布存放，结构性很强；而Web 上的数据非常复杂，没有特定的模型描述每一站点的数据，都各自独立设计并且数据本身具有自述性和动态可变性，因而Web 上的数据不是强结构性的。但与此同时Web 页面又是有描述层次的，单个网站也是按照各自的结构构架的，从而具有一定的结构性。因此我们认为Web 上存在的数据既不是完全结构化的也不是完全非结构化的，而是介于两者之间，一般称之为半结构化数据。
        半结构化是Web 上数据的最大特点，显然面向Web 的数据挖掘比面向单个数据仓库或者其他结构化数据集的数据挖掘要复杂得多。
4、使用基于WEB 数据挖掘能得到什么
        Web Mining 技术已经应用于解决多方面的问题，比如基于WEB 内容和结构的挖掘极大的帮助了我们从浩瀚的网络资源中更加快速而准确的获取所需要的资料，而基于使用的数据挖掘之威力，更是在商业运作上发挥的淋漓尽致，具体表现在：
（1）对网站的修改能有目的有依据稳步的提高用户满意度
发现系统性能瓶颈，找到安全漏洞，查看网站流量模式，找到网站最重要的部分，发现用户的需要和兴趣，对需求强烈的地方提供优化，根据用户访问模式修改网页之间的连接，把用户想要的东西以更快且有效的方式提供给用户，在正确的地方正确的时间把正确的信息提供给正确的人。
（2）测定投资回报率
      测定广告和促销计划的成功度
      找到最有价值的ISP 和搜索引擎
      测定合作和结盟网站对自身的价值
（3）提供个性化网站
          对大多数WEB 应用来说，让用户感到真个网站是完全为他自己定制的个性化网站，是WEB 站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好（数据挖掘算法得到的用户访问模式）向用户动态的提供要浏览的建议自动提供个性化的网站。
        下面我们将就基于WEB 使用的挖掘，进一步讨论它所经常采用的技术。
二、基于WEB 使用挖掘中的技术问题
1、 Web Usage Mining 中非技术问题
       在基于使用的挖掘中，出于商业目的考量网站的拥有者或者管理者经常会对网站的某些方面提出一些分析，比如：流量分析（点击量）、广告分析、网站出入口分析、访问路径分析、用户来源分析、浏览器和平台分析等等。
       就这些方面作进一步的智能分析，我们可以从中真正与数据挖掘相关的问题：
（1）网页相关性分析
       哪些网页具有密切的关系，如果很多人具有a.html-〉b.html-〉c.html 这样的访问模式，则我们可以认定a.html 和c.html 之间有一定的关系，从而考虑是否在a.html 上直接加上c.html的链接。
（2）用户访问模式分析
        有哪一些网页用户只要访问了其中的一页，则可以断定他也要访问其他的网页即按不同的用户访问模式，把网页分组得到一个一个的兴趣点。哪些用户所访问的网页组成比较类似（具有类似的兴趣）即根据用户行为的相似性，把用户按行为模式分类。
（3）用户归类
通过用户填写的信息如何把用户归入某一特定的类别，然后可对同一类别中的用户提供相似的服务。
2 、Web Usage Mining 中的技术问题
（1）数据处理
         如何得到分析和数据挖掘所用的数据，主要采用两种方法，一是直接使用Web Server的Log 文件，二是用网络监听的办法，在数据包中提取出HTTP 请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内，供统计分析和数据挖掘使用。
（2）统计分析
          在数据库的基础上，针对不同的数据运行各种统计函数。
（3）数据挖掘
           数据挖掘技术是实现智能分析得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据(即我们通过数据处理得到的数据)应用各种数据挖掘技术,得到高层知识，提供给用户作决策支持，或利用这些知识动态生成网页，为用户提供访问建议。
（4）关联规则Association Rules
         从服务器会话中发现请求网页的相关性，可用于优化网站组织，实现网络代理中的预取功能等。
（5）聚集Clustering
         使用分组（Usage Clusters ）把具有相似浏览模式的用户分成组，可用于电子商务应用中市场分片（market segmentation）和为用户提供个性化服务，而网页分组（page clusters ）按内容的相似性把网页分类，可用于搜索引擎和Web 浏览助手（Web assistance providers ）为用户提供推荐链接。
（6）归类Classification
          根据用户的个人资料，将其归入某一特定的类，可使用决策树、naive Bayesian
classifiers、 k-最近邻居等算法。
（7）序列模式Sequential Patterns
        发现一个session 内部的网页间的时间相关性，可用于预测用户的访问趋向而提供建议。
三、XML 技术在基于WEB 的数据挖掘中的应用
1 、XML 技术简介
        XML （eXtsible Markup Language）是SGML （Standard General MarkupLanguage ）的一个子集，近年来为IBM Microsoft 等公司大力推崇。和HTML（ Hyper Text Markup Language）类似，XML 也是一种标示语言，可提供描述结构化资料的格式，它们都可以用于可视化和用户界面标准。
       当前，Internet 只是文本和图片的访问媒体，并没有智能搜索、数据交换、自适应表示和个人化的标准。为了超出设置信息访问和显示标准的限制，Internet 必须设置信息理解标准（表示数据的通用方式）以便软件能够更好地搜索移动显示和处理上下文中隐藏的信息。由于 HTML 是一种描述如何表示 WEB 页的格式，并不表示数据，所以它并不能完成以上处理。而 XML 提供了一种独立的运行程序的方法来共享数据是用来自动描述信息的一种新的标准语言，它通过计算机通信“把Internet 的功能由信息传递扩大到人类其他多种多样的活动中去”[3]。
2、技术的特点及其在Web Mining 中的应用
       它最大的特点在于其Tag 是具有语义的，可由用户定义能够反映一定的数据的含义。此外，XML 还具有简单易用、可扩展性、开发性、强标准化等特点,非常适合应用于WebMining 。从某种意义上说，XML 非常接近半结构化的数据模型它可供操作的基础要比HTML 好得多。图二是HTML 和XML 的文档比较，我们不难看出XML 的文档描述的语义非常清楚，而且我们很容易就可以将之和关系数据库中的属性一一对应起来，能够支持实施十分精确的查询，以及其他高级操作。而HTML 文档只是按显示方式进行描述的。由此可见，XML 将为在WEB 上的数据查询和模式抽取提供了一个重要的契机。
       XML 由若干规则组成，这些规则可用于创建标记语言，并能用一种被称作分析程序的简明程序处理所有新创建的标记语言。XML 解决了HTML 不能解决的两个Web 问题，即“Internet 发展速度快而接入速度慢”的问题，以及可利用的信息多但难以找到自己需要的那部分信息”的问题[3]。 XML 能增加结构和语义信息可使计算机和服务器即时处理多种形式的信息。因此，运用XML 的扩展功能不仅能从WEB 服务器下载大量的信息，还能大大减少网络业务量。
        以XML 为基础的新一代WWW 环境是直接面对WEB 数据的，不仅可以很好地兼容原有的WEB 应用而且可以更好地实现WEB 中的信息共享与交换。XML 可看作一种半结构化的数据模型，可以很容易地将XML 的文档描述与关系数据库中的属性一一对应起来，实施精确地查询与模型抽取。
         当用标准的HTML 无法完成某些WEB 应用时，XML 便能大显身手这些应用从大的方面讲可以被分成以下四类：需要WEB 客户端在两个或更多异质数据库之间进行通信的应用；试图将大部分处理负载从WEB 服务器转到WEB 客户端的应用；需要WEB 客户端将同样的数据以不同的浏览形式提供给不同的用户的应用；需要智能WEB 代理根据个人用户的需要裁减信息内容的应用。显而易见，这些应用和WEB 的数据挖掘技术有着重要的联系，基于WEB 的数据挖掘必须依靠它们来实现。
四、一些著名的Web Mining 产品简介
1、Net percerptions
       Net Perceotion 公司的Net Percerptions ，采用了一个叫做实时建议的技术：让它的产品对象（主要是网站）能够根据用户以往的浏览行为(比如以前的购买记录) 在其他用户（称做Community 中）找出与他有相类似浏览行为的，根据这些用户的浏览行为来预测该用户以后的浏览行为，从而为用户提供个性化的浏览建议。这种技术利用了网站用户的浏览行为有相似的一面，因此其预言有很高的准确性。并且它是实时运行的，随着浏览量的增加会变得越来越聪明。
2、 CommerceTrends
        WebTrends 公司的CommerceTrends 被宣称为第一个用于VRM （Visitor Relationship Management）的平台，它能够让电子商务网站更好地理解其网站访问者的行为，帮助网站采取一些行动来将这些访问者变为顾客，将一次性的顾客变为长期的忠实顾客。 CommerceTrends 提供了完全的“browser-based” 方法，使得不同的部门（从市场部门到分析家）能在任何时间得到他所想得到的个性化报表。同时它还利用了强大的数据仓库技术，这样就不仅仅将原始数据存在数据库里而是“Sessionizes ”了原始数据。
3. DBMiner
        加拿大Simon Fraser 大学数据库系统研究实验室Database SystemResearchLaboratory
的知识发现研究组在数据挖掘技术领域经过多年的研究开发了名为DBMiner 的知识发现系统原型。它将机器学习方法学和数据库技术结合起来，用于在大型数据库和数据仓库中交互地挖掘多层次的知识。该系统独特之处在于紧密集成了联机分析处理OLAP 和多种数据挖掘功能，包括特征化、关联、分类和聚类。
五结束语
          基于WEB 的数据挖掘是当前热门研究方向之一，而且其应用范畴广阔，潜力巨大；Web Mining 技术也在不断提出和改进之中。但是Web Mining 技术还有很多缺陷和不足。我们还需要半结构化数据模型、Web 数据的过滤和转换等方面作进一步研究，才能进一步发挥Web Mining 的无限威力

References
[1] Jiawei Han and Micheline Kamber Data Mining: Concepts and Techniques 2000 Morgan
Kaufmann Publishers
[2] 张燕浅谈网络信息挖掘
[3] 徐振航刘莉芹 XML 与面向Web 的数据挖掘技术
[4] 王静孟小峰半结构化数据的模式研究综述计算机科学 2001 Vol. 28
[5] 於丹数据挖掘走向Internet 微电脑世界
[6] 王聪修网络数据挖掘
[7] What is Web Mining Lily BBS
[8] 李志锋网页数据分析天极网 2001.2
[9] Web Mining: 第二代网络信息处理技术 Lily BBS
[10] 构造未来Web 页面的工具语言XML Lily BBS

草儿 2007-01-03 21:20 发表评论

COGNOS业务智能产品

草儿 — Wed, 03 Jan 2007 11:41:00 GMT

摘要: 一、 Cognos 业务智能服务的主要产品使用 Cognos ... 阅读全文

草儿 2007-01-03 19:41 发表评论

用SAS做聚类分析

草儿 — Mon, 01 Jan 2007 07:25:00 GMT

摘要: 聚类分析和判别分析有相似的作用，都是起到分类的作用。但是，判别分析是已知分类然后总结出判别规则，是一种有指导的学习；而聚类分析则是有了一批样本，不知道它们的分类，甚至连分成几类也不知道，希望用某种方法把观测进行合理的分类，使得同一类的观测比较接近，不同类的观测相差较多，这是无指导的学习。所以，聚类分析依赖于对观测间的接近程度（距离）或相似程度的理解，定义不同的距离量度和... 阅读全文

草儿 2007-01-01 15:25 发表评论

SPSS 统计软件的主菜单及子菜单

草儿 — Mon, 01 Jan 2007 07:22:00 GMT

摘要: 菜单 ... 阅读全文

草儿 2007-01-01 15:22 发表评论

Web信息抽取技术纵览二

草儿 — Mon, 01 Jan 2007 07:19:00 GMT

摘要: 第六章总结和讨论 ... 阅读全文

草儿 2007-01-01 15:19 发表评论

Web信息抽取技术纵览一

草儿 — Mon, 01 Jan 2007 07:18:00 GMT

摘要: 第一章导论 ... 阅读全文

草儿 2007-01-01 15:18 发表评论

聚类分析（Cluster analysis ）

草儿 — Mon, 01 Jan 2007 07:14:00 GMT

摘要: Introduction Cluster analysis is the process of grouping objects into subsets that have meaning in the cont... 阅读全文

草儿 2007-01-01 15:14 发表评论

文献综述的写法

草儿 — Mon, 01 Jan 2007 07:10:00 GMT

（1）什么是综述？
文献综述是以作者非直接经验和资料为主而形成的一种论文。它是将一定时期内某一学科领域或专题的文献收集起来，对其提出和探讨的问题进行分析归纳、综合评论、加工整理而成。培养和掌握文献综述的写作能力和方法，是一名科研工作者必须具备的一项基本功。
（2）综述的作用?
服务性
研究性
文献检索回溯
（3）综述的类型?
按时间划分：回顾性综述、前瞻性综述
按是否参与作者个人意见划分：归纳性综述、评论性综述
按内容划分：动态性综述、成就性综述、争鸣性综述
（4）文献综述的特点?
新颖性综合性评述性客观性
（5）综述的格式?
题名
署名和单位
摘要和关键词
引言
主体
结束语
致谢
参考文献
（6）题名的作用?
提示作用
评价作用
吸引作用
检索作用
（7）题名的基本要求 :具体确切，表达得当简短精练，高度概括用词规范，可供检索
（8）署名和单位:姓名在前，单位名称在后；
姓名在上行，单位名称在下行；
单位在前，姓名在后；
单位名称在上行，姓名在下行；
题名下只写作者姓名，单位名称以脚注的形式放在首页的脚注。
（9）摘要和关键词:根据国家标准规定，文献综述和其他论文一样，都应有摘要，并列出3~5个关键词。
（10）摘要的类型:
报道性摘要又称资料性摘要，是指明一次文献的主题范围及内容梗概的简明摘要，相当于简介。
指示性摘要又称描述性摘要，指示一次文献的论题及取得的成果的性质和水平，不具体介绍研究的方法和结果，但是不应只简单重复题名中已有的信息，写成题名的解释说明。
报道--指示性摘要这种摘要介于上述两种摘要之间，或者说是上述两种摘要相结合的综合性摘要
结构性摘要按层次列出项目名称，逐项分别叙述。包括：目的、材料和方法、结果、结论。
（11）引言:可用小标题“引言”引导，也可不用，直接写文字。
（12）内容：目的、主题、介绍背景材料、阐明所写的范围和内容（用1~2句话表达）。
注意：引言不宜过长，应开门见山，100~200字即可。
（13）主    体 :是综述主要内容的叙述部分
注意: 应反映不同学术观点应列出小标题加以论述* 应引用主要研究结果和结论性观点
（14）结语:归纳主体部分所叙述的内容评论主体部分所提出的问题对今后的研究提出建议或展望
（15）致谢:在撰写综述的过程中得到某人的指导，或写完后经某人审阅，需在正文末尾致谢。
（16）参考文献:通常是指文后参考文献。它是为撰写论文或编写著作而引用的有关书刊资料及其他特殊资料。
（17）综述的写作:
选题
查阅文献
阅读文献
摘录内容
确立论点
拟提纲
写作
（18）选题的范围:
感觉到某问题的存在，自己有新的见解；对某问题说法多，但较混乱、互相矛盾；有新提法或假说，但尚未形成；某领域有长足的进步；对某项工作或研究的阶段性综合评价。
（19）选题注意:题意新有使用价值题目不宜过大
（20）查阅文献:
要求文献新，选读3~5年内的期刊；
文献检索全，需手捡和机捡相结合；
有索引的要从卷索引查起。
查阅文献的方法:顺序法回朔法
（21）阅读文献：
先综述后单篇
先教科书后期刊
先本专业后边缘或相关学科
先摘要后全文
先目录、序言或内容提要后正文
先泛读后精读
选取有用的内容以便写作时引用
（22）摘录：确定项目：作者、问题、出版内容、刊名、出版年月、卷期）、起止页。

        不定内容：引言、材料和方法、结果、讨论中的有关部分，其中最基本的是
        重要数据和核心观点。
（23）确立论点：
   分析资料
       归纳综合
          精心推敲
                提炼论点
（24）拟提纲：整理内容打腹稿
（25）写作：根据提纲，将内容展开，并注意观点与内容的一致；论述观点时，作者可有倾向性，但不同观点也应列出；修改初稿；誊写稿件。
（26）写作要求：客观系统条理清楚，说理透彻防止文献堆砌和人名罗列

草儿 2007-01-01 15:10 发表评论

几个人工智能会议(转载)

草儿 — Thu, 28 Dec 2006 15:05:00 GMT

IJCAI (1+): AI最好的综合性会议, 1969年开始,
每两年开一次, 奇数年开. 因为AI

实在太大,
所以虽然每届基本上能录100多篇（现在已经到200多篇了），但分到每个

领域就没几篇了，象machine learning、computer
vision这么大的领域每次大概也

就10篇左右, 所以难度很大.
不过从录用率上来看倒不太低,基本上20%左右, 因为内

行人都会掂掂分量, 没希望的就别浪费reviewer的时间了.
最近中国大陆投往国际会

议的文章象潮水一样,
而且因为国内很少有能自己把关的研究组,
所以很多会议都在

complain说中国的低质量文章严重妨碍了PC的工作效率.
在这种情况下, 估计这几年

国际会议的录用率都会降下去. 另外,
以前的IJCAI是没有poster的, 03年开始, 为了

减少被误杀的好人, 增加了2页纸的poster.值得一提的是,
IJCAI是由貌似一个公司

的"IJCAI Inc."主办的(当然实际上并不是公司,
实际上是个基金会), 每次会议上要

发几个奖, 其中最重要的两个是IJCAI Research Excellence
Award 和 Computer

& Thoughts Award, 前者是终身成就奖, 每次一个人,
基本上是AI的最高奖(有趣的

是, 以AI为主业拿图灵奖的6位中,
有2位还没得到这个奖), 后者是奖给35岁以下的

青年科学家, 每次一个人.
这两个奖的获奖演说是每次IJCAI的一个重头戏.另外,

IJCAI 的 PC member 相当于其他会议的area chair, 权力很大,
因为是由PC member

去找 reviewer 来审, 而不象一般会议的PC member其实就是
reviewer. 为了制约

这种权力, IJCAI的审稿程序是每篇文章分配2位PC member,
primary PC member去找

3位reviewer, second PC member 找一位.

AAAI (1): 美国人工智能学会AAAI的年会.
是一个很好的会议, 但其档次不稳定, 可

以给到1+, 也可以给到1-或者2+, 总的来说我给它"1".
这是因为它的开法完全受

IJCAI制约: 每年开, 但如果这一年的IJCAI在北美举行,
那么就停开. 所以, 偶数年

里因为没有IJCAI, 它就是最好的AI综合性会议,
但因为号召力毕竟比IJCAI要小一些,

特别是欧洲人捧AAAI场的比IJCAI少得多(其实亚洲人也是),
所以比IJCAI还是要稍弱

一点, 基本上在1和1+之间; 在奇数年,
如果IJCAI不在北美, AAAI自然就变成了比

IJCAI低一级的会议(1-或2+), 例如2005年既有IJCAI又有AAAI,
两个会议就进行了协

调, 使得IJCAI的录用通知时间比AAAI的deadline早那么几天,
这样IJCAI落选的文章

可以投往AAAI.在审稿时IJCAI 的 PC chair也在一直催,
说大家一定要快, 因为AAAI

那边一直在担心IJCAI的录用通知出晚了AAAI就麻烦了.

COLT (1): 这是计算学习理论最好的会议, ACM主办,
每年举行. 计算学习理论基本上

可以看成理论计算机科学和机器学习的交叉,
所以这个会被一些人看成是理论计算

机科学的会而不是AI的会.
我一个朋友用一句话对它进行了精彩的刻画:
"一小群数

学家在开会". 因为COLT的领域比较小,
所以每年会议基本上都是那些人. 这里顺便

提一件有趣的事, 因为最近国内搞的会议太多太滥,
而且很多会议都是LNCS/LNAI出

论文集, LNCS/LNAI基本上已经被搞臭了, 但很不幸的是,
LNCS/LNAI中有一些很好的

会议, 例如COLT.

CVPR (1): 计算机视觉和模式识别方面最好的会议之一,
IEEE主办, 每年举行. 虽然题

目上有计算机视觉,
但个人认为它的模式识别味道更重一些.
事实上它应该是模式识

别最好的会议, 而在计算机视觉方面,
还有ICCV与之相当. IEEE一直有个倾向, 要把

会办成"盛会",
历史上已经有些会被它从quality很好的会办成"盛会"了.
CVPR搞不好

也要走这条路. 这几年录的文章已经不少了.
最近负责CVPR会议的TC的chair发信

说, 对这个community来说,
让好人被误杀比被坏人漏网更糟糕,
所以我们是不是要减

少好人被误杀的机会啊?
所以我估计明年或者后年的CVPR就要扩招了.

ICCV (1): 介绍CVPR的时候说过了,
计算机视觉方面最好的会之一. IEEE主办.

ICCV逢奇数年开，开会地点以往是北美，欧洲和亚洲轮流，本来2003年定在北

京，后来因Sars和原定05年的法国换了一下。ICCV'07年将首次在南美(巴西)举行.

CVPR原则上每年在北美开,
如果那年正好ICCV在北美,则该年没有CVPR.

ICML (1): 机器学习方面最好的会议之一. 现在是IMLS主办,
每年举行. 参见关于NIPS的

介绍.

NIPS (1): 神经计算方面最好的会议之一, NIPS主办,
每年举行. 值得注意的是, 这个会

每年的举办地都是一样的, 以前是美国丹佛,
现在是加拿大温哥华; 而且它是年底开会,

会开完后第2年才出论文集, 也就是说,
NIPS'05的论文集是06年出. 会议的名字是

"Advances in Neural Inxxxxation Processing Systems", 所以,
与ICMLECML这样

的"标准的"机器学习会议不同,
NIPS里有相当一部分神经科学的内容, 和机器学习有

一定的距离. 但由于会议的主体内容是机器学习,
或者说与机器学习关系紧密, 所以

不少人把NIPS看成是机器学习方面最好的会议之一.
这个会议基本上控制在Michael

Jordan的徒子徒孙手中, 所以对Jordan系的人来说,
发NIPS并不是难事, 一些未必很

强的工作也能发上去, 但对这个圈子之外的人来说,
想发一篇实在很难, 因为留给"外

人"的口子很小. 所以对Jordan系以外的人来说,
发NIPS的难度比ICML更大. 换句话说,

ICML比较开放, 小圈子的影响不象NIPS那么大,
所以北美和欧洲人都认, 而NIPS则有

些人(特别是一些欧洲人, 包括一些大家)坚决不投稿.
这对会议本身当然并不是好事,

但因为Jordan系很强大, 所以它似乎也不太care.
最近IMLS(国际机器学习学会)改选

理事,
有资格提名的人包括近三年在ICMLECMLCOLT发过文章的人,
NIPS则被排除在

外了. 无论如何, 这是一个非常好的会.

ACL (1-): 计算语言学/自然语言处理方面最好的会议, ACL
(Association of

Computational Linguistics) 主办, 每年开.

KR (1-): 知识表示和推理方面最好的会议之一,
实际上也是传统AI(即基于逻辑的AI)

最好的会议之一. KR Inc.主办, 现在是偶数年开.

SIGIR (1-): 信息检索方面最好的会议, ACM主办, 每年开. 这个会现在小圈子气越来

越重. 信息检索应该不算AI,
不过因为这里面用到机器学习越来越多, 最近几年甚至有点机器学习应用会议的味道了, 所以把它也列进来.

SIGKDD (1-): 数据挖掘方面最好的会议, ACM主办, 每年开. 这个会议历史比较短,

毕竟,
与其他领域相比,数据挖掘还只是个小弟弟甚至小侄儿.
在几年前还很难把它列在tier-1里面, 一方面是名声远不及其他的top
conference响亮, 另一方面是相对容易被录用.
但现在它被列在tier-1应该是毫无疑问的事情了.
这几年来KDD的质量都很高. SIGKDD从2000年来full paper的录取率都在10%-12%之间，远远低于IJCAI和ICML.

经常听人说，KDD要比IJICAI和ICML都要困难。IJICAI才6页，而KDD要10页。没有扎实系统

的工作，很难不留下漏洞。有不少IJICAI的常客也每年都投KDD，可难得几个能经常中。

UAI (1-): 名字叫"人工智能中的不确定性",
涉及表示推理学习等很多方面, AUAI

(Association of UAI) 主办, 每年开

草儿 2006-12-28 23:05 发表评论

分析:下一代数据库发展的4大趋势

草儿 — Wed, 27 Dec 2006 14:47:00 GMT

从最早用文件系统存储数据算起，数据库的发展已经有50多年了，其间经历了20世纪60年代的层次数据库(IBM的IMS)和网状数据库(GE的 IDS)的并存，70~80年代关系数据库的异军突起，90年代对象技术的影响。如今，关系数据库依然处于主流地位。关系技术之后，在新形势下，数据库应该如何发展?又有哪些重要的趋势呢?

　　作为成熟的产品，关系数据库已经走过了几十年的历史，而今年各主流数据库厂商大动干戈、紧锣密鼓地筹备各自新产品发布，为平淡的数据库市场掀起了新一轮热潮。甲骨文刚刚推出了其Oracle 10g的第二版本;IBM代号为Viper(毒蛇)的新一代DB2数据库产品将于今年9月份推出测试版本;微软公司的SQL Server 2005已经在测试中，今年底即将面世;Sybase也将于下个月推出新版本的数据库产品Sybase ASE 15。各数据库厂商集中火力瞄准的数据库市场竞争焦点是什么?新一代数据库有哪些新的技术趋势?

　　对主流企业数据库厂商包括甲骨文、IBM、微软、Sybase的采访表明，对XML的支持、网格技术、整合数据仓库和BI应用以及自我管理已成为下一代数据库在功能上角逐的焦点。

　　趋势之一：对XML的支持

　　“如果谁能控制、支持和存储所有类型的数据，那么这样的厂商也就有能力扩展自己其他产品和服务的市场空间。因此整合XML、对象数据、多媒体数据，将所有数据类型放在一个平台上将是传统的关系数据库发展的一大趋势。”这也是数据库厂商大动干戈的主要原因。

　　传统关系数据库中，管理的是结构化数据，数据是以行和列的二维表形式进行存储，并通过标准的SQL查询语言进行查询。而随着Web时代的到来，在 Web大背景下“泛数据”管理成为人们关注的重点。所谓泛数据就是指包含了文档、电子邮件等各种类型的数据，这些数据通常都不是以行和列的格式存在的，不像关系数据那样是严格的结构化数据，因此对这类数据的存储管理以及快速高效的查询是对传统关系型数据库的挑战。

　　目前XML标准日益成熟，并很快成为各种复杂的异构数据交换的核心技术和未来数据定义的标准格式，例如，微软将在下一代Office软件中采用 XML数据格式。因此，将Native(原生)XML格式的数据存储在关系数据库中并支持对XMLQuery查询，正是这些新推出的数据库产品的亮点之一。

　　甲骨文公司大中华区销售顾问部高级总监李颖聪表示，甲骨文在几年前就已经看到了这个趋势，并提供了第一轮的XML支持。早期是通过一个工具，实现不同应用之间的沟通。例如在Oracle 8i产品中，甲骨文就已经推出了XDK(XML开发工具)，通过XDK开发应用把XML数据存储到关系数据库中;在Oracle 9i产品中，则已经能够在数据库中定义XML数据类型，通过SQL生成XML数据和对其进行查询;而在Oracle 10g中，则已经提供了对XML Query语言(XQuery)的支持，而且在Oracle 10g中，XML数据是作为一个独立的方式存储在XMLDB数据库中，提供的是Native XML的支持。

　　而对将于2006年推出的下一个版本的IBM DB2来说，集成结构化和非结构化数据并支持SQL及Xquery查询也将是其最大的卖点，IBM公司信息管理部门总经理珍尼特·帕尔娜(Janet Perna)认为，关系数据库对非结构化数据的支持不亚于从层次数据库到关系数据库的革命性转变。“XML在信息管理领域无处不在，不管是管理结构化或非结构化信息，或者用于信息传输，或者是集成信息的映射标准。它现在是不可或缺的。”

　　微软中国数据库产品经理表示，将于今年下半年发布的Microsoft SQL Server 2005将满足客户希望把大量XML数据放入数据库中的需求，并提供Native(原生)XML和XQuery的支持。“微软是XQuery标准的制定者之一，在SQL Server 2005中微软加入了很多核心技术，实现了快速查询，而且使得性能得到优化。”

　　Sybase(中国)公司高级产品市场专员韩谊则指出，Sybase是较早在数据库中支持XML的厂商之一。目前Sybase ASE可以将XML文档存储在text或Image列中，可以将XML映射到新的或已有的关系表中，可以从关系查询中创建XML格式的结果集。未来 Sybase除了不断添加对XML新技术、新标准的支持，还要添加更多函数，增强对Web Service支持，使用户更方便的使用XML。

　　InterSystems中国技术总监余衡也表示，InterSystems公司的后关系型数据库Caché已经完全支持XML了，而且这种支持来自于 Caché独特的数据存储方式，使得XML的数据可以完美地保存在Caché数据库中，不论存取还是查询分析都非常简单。关系数据库保存数据是采用二维表的方式，而Caché的存储方式是采用了多维数组的存储方式，从而很容易地实现了结构化数据的存取。同时在这个多维数据存储之上，Caché同时实现了对象的访问方式和SQL的访问方式。

　　Burton 集团的高级分析师Peter O'Kelly 则指出，如果用户的关系数据库支持原生XML数据，那么就可以享受到XML数据格式带来的很多安全特性。例如，可以在整个文档中插入电子签名，也可以将采购订单直接存储，无须进行任何的转换，这些特性都可以确保文档不会被篡改。但记者在对国内一些中小企业用户的采访中，很多客户都表示了对XML查询的需求还不是很迫切。贝塔斯曼文化实业有限公司IT总监江玮、佐丹奴 /Giordano集团CIO侯彤、永恩集团CIO赵春雨都表示，目前对XML支持的需求还不是很迫切。但他们表示，对XML数据库是否真正能够达到的目标或对企业业务的帮助还不是非常了解，需要继续了解相关技术和知识以及发展情况。针对此，甲骨文公司中国区销售顾问部高级经理裴雪松表示，当CIO关注信息整合时，XML就是必备的工具，事实上，目前国内很多银行、电信等客户在进行应用整合时已经将XML作为其标准。

　　趋势之二：网格支持

　　“网格就是下一代Internet”，这句话强调了网格可能对未来社会的巨大影响。在历史上，数据库系统曾经接受了Internet带来的挑战。毫无疑问，现在数据库系统也将应对网格带来的挑战。甲骨文公司Oracle 10g网格数据库产品的推出，则将网格技术的应用领域扩展到企业计算。但针对数据库对网格技术的支持，目前一些厂商还持有不同的观点，例如微软和 InterSystems就指出，网格并非惟一的答案。

　　“网格计算将是数据库技术发展的大趋势之一，数据库不仅仅是存储数据，而是要实现对信息整个生命周期的管理。而甲骨文提出的网格数据库则是将其落到实处。”据悉，自Oracle 10g去年发布后，很多被资源、管理困扰的客户都对甲骨文的网格技术非常感兴趣，而且已经在很多领域得到应用。李颖聪同时表示，在甲骨文刚刚发布的 Oracle 10g Release 2中又进一步改良了许多网格运算的功能，提升了性能、应用度以及简化管理功能。该方案可让客户将多台标准服务器系统整合成一套可扩充的容错运算平台。同时，新版数据库可让客户更容易在网格环境中分享储存资源，并且大幅提升数据安全性。李颖聪表示，甲骨文在未来的产品中将会继续关注网格技术。 Sybase公司则表示，尽管网格技术要成为商业应用的主流，还需要几年时间在应用和产品上进一步完善，但Sybase非常关注这种技术，已经作了一些技术探索和储备，并希望能在不远的将来推出成熟的产品。

　　而微软则表示，目前微软还没有考虑到对网格技术的支持。他认为，网格是一种扩展技术，扩展有两种方式：向上扩展(Scale up )和向外扩展(Scale out)，向上扩展是增加CPU的个数和内存等资源满足用户的需求，而向外扩展就是多节点并行技术，或者说是网格的技术。微软的一项调查显示：目前99%的客户需求是在16颗CPU以下，而目前，微软的SQL Server 2005最多可以支持64颗CPU，因此微软认为，通过向上扩展完全能够满足客户的需求，而没有必要采用向外扩展技术。

　　另外，微软认为，网格应用在技术上还需解决一些问题。例如，网格中对资源的共享是通过共享磁盘实现的(Share Disk)，并通过锁控制器(Lock manager)实现多个节点对资源的争夺，管理节点对资源的访问，当节点增多，会带来性能的下降。

　　InterSystems中国技术总监余衡也表示，网格计算在科学计算领域非常受欢迎，例如对于处理电影作品中帧的应用程序，或者处理复杂静态数据的数据仓库、处理复杂并需要长时间运行的查询，网格计算也许是合适的。但网格计算不是绝对的答案，对于大范围的事务处理类型的应用程序，进行高速数据库更新操作与计算，网格计算可能就不适合了。在商业领域或者非科学方面的应用中，把任务分解成逻辑或者功能组件比分解成过程更有意义。

　　李颖聪介绍，Tom网站的用户管理系统已经采用了Oracle 10g的网格技术，在并发处理能力的加强、自动扩展以及降低软件成本方面都起到了很好的作用。在采访中，很多用户也表示对网格技术在数据库中的应用非常关注，但正如永恩集团CIO赵春雨所言，对采用普通结点组成的系统的性能是否真正可以达到期望还有很多考虑。而佐丹奴集团CIO侯彤则表示，作为一个规模不算很大的企业，一到两台服务器已经可以满足现时及未来几年企业发展的需要了，目前并没有关注网格技术。趋势之三：整合数据仓库/BI

　　数据库应用的成熟，使得企业数据库里承载的数据越来越多。但数据的增多，随之而来的问题就是如何从海量的数据中抽取出具有决策意义的信息(有用的数据)，更好地服务于企业当前的业务，这就需要商业智能。“从用户对数据管理需求的角度看，可以划分两大类：一是对传统的、日常的事务处理，也即我们经常提的联机事务处理(OLTP)应用;二是联机分析处理(OLAP)与辅助决策，既商业智能(BI)。数据库不仅支持OLTP，还应该为业务决策、分析提供支持。” 目前，主流的数据库厂商都已经把支持OLAP、商业智能做为关系数据库发展的另一大趋势。

　　商业智能是指以帮助企业决策为目的，对数据进行收集、存储、分析、访问等处理的一大类技术及其应用，由于需要对大量的数据进行快速地查询和分析，传统的关系型数据库不能很好地满足这种要求。或者说传统上，数据库应用是基于OLTP(在线交易处理)模型的，而不能很好支持OLAP(在线分析处理)，商业智能是以数据仓库为基础，目前同时支持OLTP和OLAP这两种模式是关系数据库的着眼点所在。

　　例如，IBM一直把商业智能应用当作 DB2的一个重要发展方向，并将商业智能功能构建到 DB2引擎中，例如DB2本身内置了数据库、在线分析的处理(OLAP)、各种分析等功能，去年发布的DB2 8.3版本中又进一步加强了分析功能，为商业智能应用进行了性能优化。目前可以通过两种方式用 DB2 进行联机分析处理(OLAP)：首先DB2 提供了用于 CUBE 和 ROLLUP(用于研究数据库中信息的流行的 OLAP 操作)的内置函数。其次，IBM 和 Hyperion 合作创建了 DB2 OLAP Server，DB2 OLAPServer 构建在DB2 UDB 之上，同时提供了多维数据存储和关系数据存储。IBM 还与各类数据分析软件供应商合作，这些供应商使他们的工具能使用 DB2 数据库。

　　微软也指出，微软从1997年开始在数据库产品中增加了BI功能，在SQL Server 2005中，微软将提供统一数据模型，同时支持OLTP和OLAP两个模型，并通过XML/A接口，实现对数据库和数据仓库的访问，把关系数据库和BI功能整合在一起。

　　甲骨文公司商业智能和数据仓库副总裁Ray Roccaforte表示：“几年前，我们开始实施一项简化复杂商业智能环境的计划。起初我们的重点是：让客户在实施商业智能项目时不必面对多种专门的数据挖掘、OLAP和统计数据库，我们直接把这些功能合并到Oracle数据库中。现在这种做法已经扩展到商业智能软件工具上了，我们把所有必需的软件工具组合到单一产品中，以此满足客户的商业智能需求。” 据悉，新版本的甲骨文商业智能(Oracle Business Intelligence)工具目前正处于开发测试阶段，包括了Oracle Discoverer、Oracle Spreadsheet Add-In、Oracle Warehouse Builder、Oracle BI Beans等。通过Oracle Discoverer可在单一报告环境中存取关系数据(即SQL)和联机分析处理(OLAP)数据，从而完成一般需要两种软件工具才能完成的任务。

　　Sybase在即将发布的数据库ASE15版本中也将强化对OLAP分析表现功能的支持，这样对中小企业客户来说，通过数据库就可以实现BI方面的应用;当然对一些大型用户，Sybase也提供了专业的数据仓库和商业智能应用解决方案。

　　趋势之四：管理自动化

　　企业级数据库产品目前已经进入同质化竞争时代，在功能、性能、可靠性等方面差别已经不是很大。但是随着商业环境竞争日益加剧，目前企业面临着另外的挑战，即如何以最低的成本同时又高质量地管理其IT架构。这也就带来了两方面的挑战：一方面系统功能日益强大而复杂，另一方面，对这些系统管理和维护的成本越来越昂贵。正是意识到这些需求，自我管理功能包括能自动地对数据库自身进行监控、调整和修复等已成为数据库追求的目标。 “我们正看到越来越多的基于成本和可管理性的竞争，因为市场正在寻找应用更简单，拥有成本更低的数据库 ” Gartner研究集团一位追踪数据库软件市场多年的分析员这样表示。

　　Oracle的可管理性战略侧重在两个方面：首先是使Oracle产品的每一部分(包括数据库)尽可能地进行自我管理，以实现最少的人力管理;第二是使整个数据库中心的管理更便捷、高效，例如Oracle企业管理器就提供了一套解决方案，用于管理和监视基于Oracle系列技术的应用程序和系统。

　　IBM已在其DB2数据库的应用中集成了自我管理功能，它可以让一个数据库自行发现问题并重新设置。“IBM DB2是一个SMART的数据库，即自我管理及资源调度的智能数据库系统。DB2由数据库系统自己进行错误分析、可能的解决方案建议及自我修复的功能，提供部分核心配置参数进行自动配置，而不需数据库管理员进行指定和修改。”Janet Perna表示，在IBM的新版本数据库Viper中，将会有更多自治功能，如自我管理和自我修复功能。

　　Sybase也表示，Sybase数据库一向以低成本而得到用户青睐，低成本主要体现在两个方面，一是购买成本，二是维护成本，Sybase数据库的设计理念就是让用户更容易上手、容易使用。而在即将推出的新版本中，进一步强化了易管理性，如图形化的操作界面、增加操作向导以及自动执行功能，使数据库管理人员不必要做很多重复性的工作。

　　微软也强调，易于管理、易于使用是SQL Server的设计理念。在SQL Server2005中微软新的管理工具套件、自我调节能力和功能强大的编程模型将允许数据库管理员针对数据库的日常运转加以灵活掌控。针对SQL事件探查器及其它工具的改进还可帮助数据库管理员将服务器调节至最佳性能状态。这些改进特性将允许数据库管理员从数据库日常运转工作中解脱出来，并集中精力从事数据库体系结构设计等更具价值的任务。

草儿 2006-12-27 22:47 发表评论

分析：面向Web的数据挖掘面临3大挑战

草儿 — Wed, 27 Dec 2006 12:06:00 GMT

Web 上有海量的数据信息，怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容，解决数据的应用质量问题。充分利用有用的数据，废弃虚伪无用的数据，是数据挖掘技术的最重要的应用。相对于Web的数据而言，传统的数据库中的数据结构性很强，即其中的数据为完全结构化的数据，而Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。显然，面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。

　　1.异构数据库环境

　　从数据库研究的角度出发，Web网站上的信息也可以看作一个数据库，一个更大、更复杂的数据库。Web上的每一个站点就是一个数据源，每个数据源都是异构的，因而每一站点之间的信息和组织都不一样，这就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘，首先，必须要研究站点之间异构数据的集成问题，只有将这些站点的数据都集成起来，提供给用户一个统一的视图，才有可能从巨大的数据资源中获取所需的东西。其次，还要解决Web上的数据查询问题，因为如果所需的数据不能很有效地得到，对这些数据进行分析、集成、处理就无从谈起。

　　2.半结构化的数据结构

　　Web 上的数据与传统的数据库中的数据不同，传统的数据库都有一定的数据模型，可以根据模型来具体描述特定的数据。而Web上的数据非常复杂，没有特定的模型描述，每一站点的数据都各自独立设计，并且数据本身具有自述性和动态可变性。因而，Web上的数据具有一定的结构性，但因自述层次的存在，从而是一种非完全结构化的数据，这也被称之为半结构化数据。半结构化是Web上数据的最大特点。

　　3.解决半结构化的数据源问题

　　Web 数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。解决Web上的异构数据的集成与查询问题，就必须要有一个模型来清晰地描述 Web上的数据。针对Web上的数据半结构化的特点，寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外，还需要一种半结构化模型抽取技术，即自动地从现有数据中抽取半结构化模型的技术。面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。

XML与Web数据挖掘技术

　　以XML 为基础的新一代WWW环境是直接面对Web数据的，不仅可以很好地兼容原有的Web应用，而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模型，可以很容易地将XML的文档描述与关系数据库中的属性一对应起来，实施精确地查询与模型抽取。

　　1.XML的产生与发展

　　XML (eXtensibleMarkupLanguage)是由万维网协会(W3C)设计，特别为Web应用服务的SGML (StandardGeneralMarkupLanguage)的一个重要分支。总的来说，XML是一种中介标示语言(Meta- markupLanguage)，可提供描述结构化资料的格式，详细来说，XML是一种类似于HTML，被设计用来描述数据的语言。XML提供了一种独立的运行程序的方法来共享数据，它是用来自动描述信息的一种新的标准语言，它能使计算机通信把Internet的功能由信息传递扩大到人类其他多种多样的活动中去。XML由若干规则组成，这些规则可用于创建标记语言，并能用一种被称作分析程序的简明程序处理所有新创建的标记语言，正如HTML为第一个计算机用户阅读Internet文档提供一种显示方式一样，XML也创建了一种任何人都能读出和写入的世界语。XML解决了HTML不能解决的两个Web问题，即Internet发展速度快而接入速度慢的问题，以及可利用的信息多，但难以找到自己需要的那部分信息的问题。XML能增加结构和语义信息，可使计算机和服务器即时处理多种形式的信息。因此，运用XML的扩展功能不仅能从Web服务器下载大量的信息，还能大大减少网络业务量。

　　XML 中的标志(TAG)是没有预先定义的，使用者必须要自定义需要的标志，XML是能够进行自解释(SelfDescribing)的语言。XML使用DTD (DocumentTypeDefinition文档类型定义)来显示这些数据，XSL(eXtensibleStyleSheetLanguage)是一种来描述这些文档如何显示的机制，它是XML的样式表描述语言。XSL的历史比HTML用的CSS(层叠式样式表 CascadingStyleSheets)还要悠久，XSL包括两部分：一个用来转换XML文档的方法;一个用来格式化XML文档的方法。XLL (eXtensibleLinkLanguage)是XML连接语言，它提供XML中的连接，与HTML中的类似，但功能更强大。使用XLL，可以多方向连接，且连接可以存在于对象层级，而不仅仅是页面层级。由于XML能够标记更多的信息，所以它就能使用户很轻松地找到他们需要的信息。利用XML，Web 设计人员不仅能创建文字和图形，而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

　　2.XML的主要特点

　　正是XML的特点决定了其卓越的性能表现。XML作为一种标记语言，有许多特点：

　　(1)简单。XML经过精心设计，整个规范简单明了，它由若干规则组成，这些规则可用于创建标记语言，并能用一种常常称作分析程序的简明程序处理所有新创建的标记语言。XML能创建一种任何人都能读出和写入的世界语，这种创建世界语的功能叫做统一性功能。如XML创建的标记总是成对出现，以及依靠称作统一代码的新的编码标准。

　　(2)开放。XML是SGML在市场上有许多成熟的软件可用来帮助编写、管理等,开放式标准XML的基础是经过验证的标准技术，并针对网络做最佳化。众多业界顶尖公司，与W3C的工作群组并肩合作，协助确保交互作业性，支持各式系统和浏览器上的开发人员、作者和使用者，以及改进XML标准。XML解释器可以使用编程的方法来载入一个XML的文档，当这个文档被载入以后,用户就可以通过XML文件对象模型来获取和操纵整个文档的信息，加快了网络运行速度。

　　(3)高效且可扩充。支持复用文档片断，使用者可以发明和使用自己的标签，也可与他人共享，可延伸性大，在XML中，可以定义无限量的一组标注。XML提供了一个标示结构化资料的架构。一个XML组件可以宣告与其相关的资料为零售价、营业税、书名、数量或其它任何数据元素。随着世界范围内的许多机构逐渐采用 XML标准，将会有更多的相关功能出现：一旦锁定资料，便可以使用任何方式透过电缆线传递，并在浏览器中呈现，或者转交到其他应用程序做进一步的处理。 XML提供了一个独立的运用程序的方法来共享数据，使用DTD，不同的组中的人就能够使用共同的DTD来交换数据。你的应用程序可以使用这个标准的DTD 来验证你接受到的数据是否有效，你也可以使用一个DTD来验证你自己的数据。

　　(4)国际化。标准国际化，且支持世界上大多数文字。这源于依靠它的统一代码的新的编码标准，这种编码标准支持世界上所有以主要语言编写的混合文本。在HTML 中，就大多数字处理而言，一个文档一般是用一种特殊语言写成的，不管是英语，还是日语或阿拉伯语，如果用户的软件不能阅读特殊语言的字符，那么他就不能使用该文档。但是能阅读XML语言的软件就能顺利处理这些不同语言字符的任意组合。因此，XML不仅能在不同的计算机系统之间交换信息，而且能跨国界和超越不同文化疆界交换信息。

3.XML在Web数据挖掘中的应用

　　XML 已经成为正式的规范，开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。使用可升级的三层模型，XML可以从存在的数据中产生出来，使用XML结构化的数据可以从商业规范和表现形式中分离出来。数据的集成、发送、处理和显示是下面过程中的每一个步骤:

　　促进XML应用的是那些用标准的HTML无法完成的Web应用。这些应用从大的方面讲可以被分成以下四类：需要Web客户端在两个或更多异质数据库之间进行通信的应用;试图将大部分处理负载从Web服务器转到Web客户端的应用;需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能Web代理根据个人用户的需要裁减信息内容的应用。显而易见，这些应用和Web的数据挖掘技术有着重要的联系，基于Web的数据挖掘必须依靠它们来实现。

　　XML 给基于Web的应用软件赋予了强大的功能和灵活性，因此它给开发者和用户带来了许多好处。比如进行更有意义的搜索，并且Web数据可被XML唯一地标识。没有XML，搜索软件必须了解每个数据库是如何构建的，但这实际上是不可能的，因为每个数据库描述数据的格式几乎都是不同的。由于不同来源数据的集成问题的存在，现在搜索多样的不兼容的数据库实际上是不可能的。XML能够使不同来源的结构化的数据很容易地结合在一起。软件代理商可以在中间层的服务器上对从后端数据库和其它应用处来的数据进行集成。然后，数据就能被发送到客户或其他服务器做进一步的集合、处理和分发。XML的扩展性和灵活性允许它描述不同种类应用软件中的数据，从描述搜集的Web页到数据记录，从而通过多种应用得到数据。同时，由于基于XML的数据是自我描述的，数据不需要有内部描述就能被交换和处理。利用XML，用户可以方便地进行本地计算和处理，XML格式的数据发送给客户后，客户可以用应用软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数据，而不仅仅是显示它。XML文档对象模式(DOM)允许用脚本或其他编程语言处理数据，数据计算不需要回到服务器就能进行。 XML可以被利用来分离使用者观看数据的界面，使用简单灵活开放的格式，可以给Web创建功能强大的应用软件，而原来这些软件只能建立在高端数据库上。另外，数据发到桌面后，能够用多种方式显示。

　　XML 还可以通过以简单开放扩展的方式描述结构化的数据，XML补充了HTML，被广泛地用来描述使用者界面。HTML描述数据的外观，而XML描述数据本身。由于数据显示与内容分开，XML定义的数据允许指定不同的显示方式，使数据更合理地表现出来。本地的数据能够以客户配置、使用者选择或其他标准决定的方式动态地表现出来。CSS和XSL为数据的显示提供了公布的机制。通过XML，数据可以粒状地更新。每当一部分数据变化后，不需要重发整个结构化的数据。变化的元素必须从服务器发送给客户，变化的数据不需要刷新整个使用者的界面就能够显示出来。但在目前，只要一条数据变化了，整一页都必须重建。这严重限制了服务器的升级性能。XML也允许加进其他数据，比如预测的温度。加入的信息能够进入存在的页面，不需要浏览器重新发一个新的页面。XML应用于客户需要与不同的数据源进行交互时，数据可能来自不同的数据库，它们都有各自不同的复杂格式。但客户与这些数据库间只通过一种标准语言进行交互，那就是XML。由于 XML的自定义性及可扩展性，它足以表达各种类型的数据。客户收到数据后可以进行处理，也可以在不同数据库间进行传递。总之，在这类应用中，XML解决了数据的统一接口问题。但是，与其他的数据传递标准不同的是，XML并没有定义数据文件中数据出现的具体规范，而是在数据中附加TAG来表达数据的逻辑结构和含义。这使XML成为一种程序能自动理解的规范。

　　XML 应用于将大量运算负荷分布在客户端，即客户可根据自己的需求选择和制作不同的应用程序以处理数据，而服务器只须发出同一个XML文件。如按传统的 “Client/Server”工作方式，客户向服务器发出不同的请求，服务器分别予以响应，这不仅加重服务器本身的负荷，而且网络管理者还须事先调查各种不同的用户需求以做出相应不同的程序，但假如用户的需求繁杂而多变，则仍然将所有业务逻辑集中在服务器端是不合适的，因为服务器端的编程人员可能来不及满足众多的应用需求，也来不及跟上需求的变化，双方都很被动。应用XML则将处理数据的主动权交给了客户，服务器所作的只是尽可能完善、准确地将数据封装进XML文件中，正是各取所需、各司其职。XML的自解释性使客户端在收到数据的同时也理解数据的逻辑结构与含义，从而使广泛、通用的分布式计算成为可能。

　　XML 还被应用于网络代理，以便对所取得的信息进行编辑、增减以适应个人用户的需要。有些客户取得数据并不是为了直接使用而是为了根据需要组织自己的数据库。比方说，教育部门要建立一个庞大的题库，考试时将题库中的题目取出若干组成试卷，再将试卷封装进XML文件，接下来在各个学校让其通过一个过滤器，滤掉所有的答案，再发送到各个考生面前，未经过滤的内容则可直接送到老师手中，当然考试过后还可以再传送一份答案汇编。此外，XML文件中还可以包含进诸如难度系数、往年错误率等其他相关信息，这样只需几个小程序，同一个XML文件便可变成多个文件传送到不同的用户手中。

　　结束语 :

　　面向Web的数据挖掘是一项复杂的技术，由于Web数据挖掘比单个数据仓库的挖掘要复杂的多，因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起，因而使搜索多样的不兼容的数据库能够成为可能，从而为解决Web数据挖掘难题带来了希望。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据，从而能描述搜集的Web页中的数据记录。同时，由于基于XML的数据是自我描述的，数据不需要有内部描述就能被交换和处理。作为表示结构化数据的一个工业标准，XML为组织、软件开发者、Web站点和终端使用者提供了许多有利条件。相信在以后，随着XML作为在Web上交换数据的一种标准方式的出现，面向Web的数据挖掘将会变得非常轻松。

草儿 2006-12-27 20:06 发表评论


		Fuhwei Lwo 目前是 WebSphere Service Data Objects (SDO) 的团队负责人。他主要的工作重点是推动在面向服务的体系结构（Service Oriented Architecture，SOA）中将 SDO 作为数据数据模型编程 API 成功采用。