BlogJava-hjh132's Blog-随笔分类-一些文章

本体论及语义搜索引擎

101℃太阳 — Wed, 16 Apr 2008 14:40:00 GMT

1　引言
    网络信息检索已成为我们获取信息主要手段。根据CNNIC的统计数据[1]：目前中国用户上网的最主要目的中，信息获取以42.3%位居榜首；有98.7%的人表示通过互联网来获取信息，其中有71.9%的人是通过搜索引擎来查找相关网站的。然而网络信息检索面临两个亟待解决的关键问题：
    (1)搜索的结果相关度低，冗余信息太多；
    (2)搜索引擎无法对常识性问题给予回答，智能化水平低。
    出现上述问题的原因在于目前检索技术主要依赖于编码技术，通过分类模式来描述给定的信息；通过基于字符串匹配的全文检索技术，来搜索用户提交的关键词。由于编码描述只能反映出部分语义，因此不能保证语义的匹配；检索过程是把用户的查询关键词与全文中的每一个词进行比较，而不考虑查询请求与文档语义上的匹配。针对上述两个关键问题，本文运用本体论的相关知识，提出基于本体构建的语义搜索引擎模型。该模型能够根据用户的查询关键字或者询问问题，进行基于知识的推理，从而提高检索结果的相关度，并且实现一定水平的语义检索。
    　　2　本体论
    　　2.1　本体的概念
    本体这个术语来自于哲学，根据韦氏词典的解释，本体是形而上学的一个分支。目前本体在人工智能领域得到广泛研究和应用，但尚未形成统一的定义，最广为流传的定义有[2]：
    定义1：本体是对共享概念模型的形式化明确说明。它有几个要点：
    ★　概念模型(conceptualization)：指通过抽象客观世界中一些现象(Phenomenon)的相关概念而得到的模型，其表示的含义独立于具体的环境状态；
    ★　明确(explicit)：指所使用的概念及使用这些概念的约束都有明确的定义；
    ★　形式化(formal)：指Ontology是计算机可读的；
    ★　共享(share)：指Ontology中体现的是共同认可的知识，反映的是相关领域中公认的概念集，它所针对的是团体而不是个体。
    简单地说，本体给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的确定词汇外延的有关规则的定义；其目标是捕获相关的领域的知识，提供对该领域知识的共同理解，确定领域内通用的词汇，并给出这些词汇（术语）和词汇之间相互关系的明确定义。
    定义2：本体论是关于词汇或概念的理论，这些诃汇和概念用于构建人工智能系统。该定义认为，本体实际上是一种表示性的词汇，这种词汇可以应用于特定领域。比如电子设备领域的本体，它包含一些描述基本概念的词汇——晶体管，运算放大器，电压等；也包含这些基本词汇间的关系——运算放大器是电子设备的一种，而晶体管是运算放大器的组件。一般来说，识别这种词汇和潜在的概念需要仔细分析领域内存在的各种对象和关系。这一定义描述的本体建设方法与面向对象方法有一定的共通之处。
    定义3：本体论是用来定义某一领域的知识主体。该定义认为，本体是描述某个领域的知识，它不仅仅是简单的词汇表，而是整个上层知识库（包括用于描述这个知识库的词汇）。
    综上所述，本体是某个领域内（可以是特定专业的，也可以是宽泛范畴的）不同主体（人、代理、机器等）之间进行交流（对话、互操作、共享等）的一种语义基础，即由本体提供定义明确的词汇表，描述概念和概念之间的关系，作为使用者之间达成的共识。
    　　2.2　本体的作用
    本体的作用可归结为通讯(communication)、互操作(interoperability)和系统工程(systems engineering)。
    (1)所谓通讯是指本体为人与人之间或组织与组织之间的通讯提供共同的词汇，即交流的基础。
    (2)互操作说明本体建立了在不同的建模方法、范式、语言和软件工具之间进行翻译和映射的机制，以实现不同系统之间集成。
    (3)系统工程：本体分析能够为系统工程提供以下方面的好处：
    ★　重用(reusability)：本体是领域内的重要实体、属性、过程及其相互关系形式化描述的基础。这种形式化描述可成为软件系统中可重用和共享的组件(component)。
    ★　知识获取(knowledge acquisition)：当构造基于知识的系统时，用已有的本体作为起点和基础来指导知识的获取，可以提高其速度和可靠性。
    ★　可靠性(reliability)：由于本体的描述是形式化的，形式化的表达使得自动的一致性检查成为可能，从而提高了软件系统的可靠性。
    ★　规范描述(specification)：本体分析有助于确定系统（如知识库）的需求和规范。
    　　3　基于本体语义搜索引擎
    　　3.1　基于本体搜索引擎的设计思想
    本体提供了人机交流的机制，使得机器可以理解语义，从而为搜索引擎提高效率奠定了基础。
    基于本体的搜索引擎的基本设计思想：
    (1)在领域专家的帮助下，建立相关领域的本体(Ontology)；
    (2)收集信息源中的数据，并参照已建立的Ontology，把收集来的数据按规定的格式存储在元数据库（关系数据库、知识库等）中：
    (3)对用户检索界面获取的查询请求，查询转换器按照Ontology把查洵请求转换成规定的格式，在Ontology的帮助下从元数据库中匹配出符合条件的数据集合；
    (4)检索的结果经过定制处理后，返回给用户。
3.2　知识库
    实现基于本体的语义搜索引擎，建立知识库是必需的。知识库是语义搜索引擎进行推理和知识积累的基础和关键，而Ontology则是知识库的基础。一般来说，本体提供一组术语和概念来描述某个领域，知识库则使用这些术语来表达该领域的事实。例如医药本体可能包含“白血病”、“皮肤病”等术语的定义，但它不会包含具体某一病人的诊断结果，而这正是知识库所要表达的内容。比如张三患有皮肤病、李四患有皮肤病和白血病、王五患有白血病，其中的皮肤病、白血病就是本体。而各个病症的实例（张三、李四、王五）及其病症描述就是知识库的内容。
    本体和知识库的关系有几个要点：
    ★　Ontology为知识库的建立提供一个基本的结构；
    ★　Ontology提供一套概念和术语来描述某一领域，并且获取该领域的本质的概念结构；
    ★　知识库就运用这些术语去表达现实或者虚拟世界中的正确知识。
    因此，建设一个知识库的第一步就是对该领域进行有效的Ontology分析。
    　　3.3　构造本体
    本体的构造是整个基于Ontology的信息检索系统的底层基石，决定着系统的性能、通用程度以及系统运行的质量。如何正确、有效、合乎逻辑的建立本体是这个系统建立的关键。
    　　(1)本体的构造准则
    对同一领域，同一事物，不同人往往会建立不同的本体。由于本体应该是规范化的描述，因此遵循统一的构造准则是必要的。目前最为常用的是Gruber提出的指导本体构造的5个准则，[3]即：
    清晰(Clarity)：本体必须有效的说明所定义术语的意思。定义应该是客观的，与背景独立的。当定义可以用逻辑公理表达时，它应该是形式化的。定义应该尽可能的完整。所有定义应该用自然语言加以说明。
    一致(Coherence)：本体应该是一致的，也就是说，它应该支持与其定义相一致的推理。它所定义的公理以及用自然语言进行说明的文档都应该具有一致性。
    可扩展性(Extendibility)：本体应该为可预料到的任务提供概念基础。它应该可以支持在已有的概念基础上定义新的术语，以满足特殊的需求，而无须修改已有的概念定义。
    编码偏好程度最小(Minimal encoding bias)：概念的描述不应该依赖于某一种特殊的符号层的表示方法。因为实际的系统可能采用不同的知识表示方法。
    本体约定最小(Minimal ontological commitment)：本体约定应该最小，只要能够满足特定的知识共享需求即可。这可以通过定义约束最弱的公理以及只定义通讯所需的词汇来保证。
    　　(2)本体的表示
    目前有两种本体表示方法应用比较广泛，一是传统的四元素表示方法、二是较新的六元组表示法。前者在世界范围内得到了比较高的认同，但是形式过于灵活，不易掌握。后者因为定义规范，可操作性强，得到了广大国内研究者的欢迎。
    ★　四元素表示方法
    四元素表示方法的基本思想是；一个本体中的四个主要元素是：概念(concepts)、关系(relations)、实例(instances)和公理(axioms)。
    概念表示某个领域中一类实体或事物的集合。通常概念可以分成两大类，一类是简单概念(primitive concepts)，另一类是详细概念(defined concepts)。简单概念是那些只具备必要条件（即属性）的类成员（注：英文原文：Primitive concepts are those which only have necessary conditions(in terms of their properties)for membership of the class.）。详细概念是指对类成员的描述既充分又必要（注：英文原文：Defined concepts are those whose description is both necessary and sufficient for a thing to be a member of the class.）。例如：“正方形是四个角都是直角的四边形”就是一个简单概念。而“正方形是四个角都是直角的四个边等长的四边形”就是一个详细概念，因为四个边等长是正方形的充分且必要条件。
    关系描述概念和概念属性的交互。
    实例是概念表示的具体的事物，如对于大学这个概念，山东大学就是一个实例。严格的说，一个本体不应该包括任何实例，因为它被假设为一个具体领域的概念化。一个本体与相关的实例的组合就是我们如今所称呼的知识库(knowledge base)。
    公理是用来限制类和实例的取值范围，公理中包括许多具体的规则和约束。
    ★　六元组表示法
    这种方法的基本思想就是用一个六元组来表示一个本体。
    An Ontology=｛C,AC,R,AR,H,X｝
    其中C表示概念的集合。AC表示多个属性集合组成的集合，其中每个属性集合对应于一个概念。R是一个关系集合。AR是由多个属性集合组成的集合，其中每个属性集合对应于R中的一个关系。H表示概念之间的层次结构关系，X表示公理集合。
    为了深入描述本体的表示方法，以下列出了一个家庭本体描述实例。
    Family_Ontology=｛Cfamily,ACfamily,R family,ARfamily,H family,X family｝where
    Cfamily=｛father,mother,children｝
    ACfamily=｛ACfamily(father),ACfamily(mother),ACfamily(children)｝
    ACfamily(father)=｛name,age,job,salary,……｝
    ACfamily(mother)=｛name,age,job,salary,……｝
    ACfamily(children)=｛name,age,sex,……｝
    R family=｛TakeCareOf(mother,mother,children),
    Educate(father,mother,children),
    Help(children,mother),……｝
    ARfamily　=｛ARfamily(TakeCareOf),ARfamily(Educate),ARfamily(Help),……｝
    ARfamily(TakeCareOf)=｛feed,clothing,seeDoctor,……｝
    ARfamily(Educate)=｛teach,exercise,……｝
    ……
　(3)本体的构造的生命周期
    了解了本体建设的准则和方法论之后，下一步就是要着手建立本体。而建立的过程可以用生命周期的概念来描述。Uschold & Gruninger提出了一个本体构造的方法学框架[4]（图1），框架包括以下组成部分：
    首先要明确本体使用的目的和范围，然后依次构造本体。构造本体过程可以分为三个阶段：
    本体捕获就是确定关键的概念和关系，给出精确定义，并确定其它相关的术语；本体编码即选择合适的表示语言表达概念和术语；已有本体的集成是对已有本体的重用和修改。这个阶段也是一个循环往复的迭代过程。
    最后是评估阶段，要根据需求描述、能力问题(competency question)等对本体以及软件环境、相关文档进行评价。
    附图
    　　图1　本体建造的流程
    　　3.4　基于本体的语义搜索引擎模型简介(OntoSSE,ontology-based Semantic Search Engine)
    OntoSSE是基于本体的搜索引擎，它能够实现语义搜索、知识检索和一定的推理功能。本模型假设搜索引擎存在的环境是web网页，这些网页并未自动含有语义标记。
    此系统也应具备搜索引擎的各种基本的功能，比如网页的遍历和获取、索引的建立、页面查找算法等，都可以参考目前流行的搜索引擎的结构和实现过程。
    OntoSSE的重要之处是信息库和知识库的交流。知识库是实现智能搜索的核心，它如同人的大脑，其增长也需要一种自然的循环。知识库的丰富也决定着检索能力和Question-Answer能力的高低。信息库是知识库存在和发展的空间，知识库就是对信息库的判断、提取、分析和概括。智能搜索引擎就是通过知识库把用户的问题提高到知识层面，然后利用这个知识检索信息库。[5]二者的有机结合离不开语义分析和知识管理。因此，Ontology作为语义分析和知识共享和重用的重要基础，与知识库、信息库一起构成OntoSSE的三大支柱。
    图2展示了基于本体的语义搜索引擎OntoSSE的系统结构及其工作流程。OntoSSE模型的工作原理和检索步骤可以概括如下：
    (1)搜索引擎通过自动网页采集器(web spider)来抓取网页，参照特定词表将网页信息分类建立索引，加入索引库中。
    附图
    　　图2　OntoSSE的体系结构及其工作流
    (2)由人工、自动或者半自动的方式，建立领域或者通用的本体。(3)参照本体，使用本体描述语言(DAML、RDF)对文档进行标注。(4)标注的文档(RDF Triple)相当于一个本体的实例，它被存放在知识库中。(5)用户以自然语言输入查询请求，这种请求可能是关键字，或者一个问题。(6)查询过滤器（分析器）对用户的查询请求进行语义分析，提取出相关属性的值。(7)检索代理结合RDF Triple中体现的类和关系信息以及由查询过滤器提交的属性值，进行逻辑推理，生成查询实例。(8)查询实例被传往信息数据库，在不同目录中查找，并将结果处理后返回给用户。例如，如果我们要检索“微软总裁是谁”，将这个问题输入模型以后，查询过滤器根据分词技术，进行语义理解，分析出该句子的语义实际表示了“有某个名为‘职务’的属性其值是‘微软总裁’”。而通过本体和知识库，系统通过推理，可以知道在名为“人”的类中有名为“职务”的属性，这样，在进行语义推理时，就生成一个人的类的实例，其中有属性“职务＝微软总裁”，而通过知识库得知，这个实例的名字属性为“Bill Gate”。这时，我们就获得了“Bill Gate”的答案。最后，我们还可以从信息库和知识库中检索与比尔盖茨相关的各种潜在信息。
    可见OntoSSE模型可实现本体对搜索引擎三个方面的改进：提高结果相关度、语义推理功能和知识检索。
    　　4　结束语
    通过本体支持语义，支持人机之间的交流，从而实现机器智能，为web的发展带来了新的契机。而本体在搜索引擎中的应用，必将对搜索引擎的易用性和效率，产生极大的改进，从而使得web用户能够更好的在浩如烟海的信息海洋中遨游。
【参考文献】
    1　中国互联网络信息中心.第十四次中国互联网络发展状况统计报告[R].2004/7
    http:llwww.cnnic.net.cn/
    2　Ontologies-Description and Applications.http://wiki.w3china.org/wiki/index.php
    3　Gruber T.Towards principles for the design of ontologies used for knowledge sharing.International Journal of Human-Computer Studies 1995,43(5/6):907-928
    4 Uschold M.Building Ontologies:Towards UnifiedMethodology[J].Inexpert systems 96,1996 (3)
    5　吴丹.搜索引擎的智能化研究[J].情报理论与实践，2002(4)

101℃太阳 2008-04-16 22:40 发表评论

成功人士必看的5个故事

101℃太阳 — Sat, 08 Mar 2008 15:43:00 GMT

摘要: 如果你想成功，又不知如何才能成功，这篇文章能给你一些提示。阅读全文

101℃太阳 2008-03-08 23:43 发表评论

语义搜索引擎综述

101℃太阳 — Tue, 26 Feb 2008 15:02:00 GMT

关键字：搜索引擎、语义搜索
1．网络搜索引擎的现状
        搜索引擎在互联网的重要地位由来已久。Yahoo 作为门户网站奇迹般崛起所依靠的正是搜索引擎，Google 也以搜索引擎的技术创新、竞价排名和专业风格创造了新的奇迹。在国内，百度也在很短的时间里凭借搜索引擎取得很大成功。
搜索引擎技术及业务模式的持续创新，不仅为互联网注入了活力，而且其自身的价值正被重新审视和评估。互联网的发展使得信息短缺的问题被信息泛滥所取代，世界也已从信息时代走进信息经济时代，这两者的区别在于，前者强调信息本身的价值，只要解决信息资源短缺就会带来价值的提升；后者认为信息并不稀缺，只有通过对信息的甄别、加工提纯和挖掘才能带来价值的提升。
据中国国家互联网中心（CNNIC）2005年1月发布的第15次互联网发展统计报告[[1]]，我国的网络用户有9400万人，比2004年6月发布的14次报告又增加了700万。在用户经营使用的网络服务中，搜索引擎仅次于电子邮箱排在第2位。有98.5%的用户上网最主要的是获取信息，通过搜索引擎获取信息的占70.7%，搜索引擎成为未知状态下发现有效信息的最有效方式。
2．网络搜索引擎的工作原理
搜索引擎的原理，可以看作三步：

         1）从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。
         2）建立索引数据库
由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面文字中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。
         3）在索引数据库中搜索排序
当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
3．网络搜索引擎的评价指标
评价搜索引擎的主要指标有查全率、查准率、响应时间、覆盖范围、用户使用方便性等等。
         1）查全率（Recall）
查全率又叫召回率，是指检索出的相关文档占全部相关文档的比率。即用户通过搜索引擎所获取的有用信息与整个Internet中相关信息的比率。
         2）查准率（Precision）
查准率是指获取的相关文档与获取文档的比率。即用户通过搜索引擎所获取的真正是用户需要的信息占获取信息的比率。搜索引擎的查准率是个复杂的概念，一方面表示搜索引擎对搜索结果的排序能力，另一方面却体现了搜索引擎对垃圾网页的抗干扰能力。
         3）响应时间（Response Time）
响应时间是指用户发出查询请求后到看到查询结果的这段时间。
         4）覆盖范围（Coverage）
覆盖范围是指搜索引擎索引的Web页面占整个Internet中页面的比例。
         5）用户方便性（Convenience）
用户方便性包括查询接口是否直观、易于使用、查询语法是否丰富，显示结果是否易于查看等。
4．网络搜索引擎的主要技术
网络搜索引擎做为信息检索系统的一个分支，理所当然的涉及到信息检索方面的技术，同时它做为一个独立、成熟的领域也有自己的技术空间：
         1）目录检索和全文检索
           传统的搜索引擎一般使用两种技术来实现信息检索：
           一是使用网站分类技术实现目录检索，即把网站进行树状的归类，登陆的网站属于至少一个类别，对每个站点都有简略的描述。Yahoo采用了这种方法。为了分类科学准确，需要有一支各科人才组成的维护队伍。
           二是使用全文检索技术。全文检索技术处理的对象是文本，它能够对大量文档建立由字（词）到文档的倒排索引，在此基础上，用户使用关键词来对文档进行查询时，系统将给用户返回该关键词的网页。
         2）索引文件结构
         全文检索的两个关键技术是索引和检索。检索又是基于所建立的索引结构进行的。索引文件主要分为正向索引和倒排索引。正向索引是基于文档的，每一个文档对应一个索引文件，其中记录着这个文档中出现的词。倒排索引是基于词汇表的，每一个特征词对应一个倒排索引，其中记录着所有出现过这个词的文档。目前，技术比较成熟、也是公认效率较高的索引存储结构是倒排文件。需要明确的是，中文的构词方式、句法、语法都与英文有很大区别，因此，不同于英文全文检索的索引方法，中文全文检索中主要的建立索引方法是字索引和词索引。字索引保证了高的召回率，不会出现漏查错误，但是会出现多查和误查。检索结果中会出现不少与检索意图无关的条目。另外，基于字索引的全文检索的检索效率也比较低。而词索引保证了较高的查准率和检索效率，但是由于中文分词能力的局限，导致基于词索引的全文检索必定会存在漏检情况。另外，对于未登陆词，词索引显得力不从心。现存比较实用的中文信息检索系统一般都结合使用了字词混合索引，或者扩展的词索引，来保证召回率和查准率。
           网络搜索引擎由于各自的策略不同，在选择索引对象的内容时也有不同。有些搜索引擎对于信息库中的页面建立全文索引，有些只建立摘要部分，或者每个段落前面部分的索引，还有些搜索引擎（如Google）建立索引的时候，同时考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的东西往往比较重要；放在锚链中的信息往往是它所指向页面的信息的概括，所以用它来作为它所指向的页面的重要信息。Google，Infoseek还在建立索引的过程中收集页面中的超链接。这些超链接反映了收集到的信息之间的空间结构。利用这些结果信息可以提高页面相关度判别时候的准确度。
           3）数据源文件的分布策略
          搜索引擎的数据源文件主要包括索引文件和原文档。目前，数据源文件的分布策略主要有集中存放和分布式存放。文献[2]指出Google就是采用了集群的方式集中存放数据源文件，事实上，几乎所有的商业搜索引擎都采用集中存放的方式，这是因为分布式存放策略有一个硬伤，就是搜索请求从一个端点传送到另外一个端点消耗的时间让用户难以忍受。但是，随着互联网上信息的急剧膨胀，改进后的分布式策略是最终的解决方案。
          4）索引大文件的存放策略
         倒排文件是一个大文件，这是因为倒排文件中存放的记录（Hit）表示的是文档中出现本特征词的状况。目前的商业搜索引擎的文档集中的文档数量非常之大，因此倒排文件的记录数也会很大，最终导致倒排文件的尺寸非常大。
         对于大文件首先考虑的是压缩，像是Google存放的索引文件就是经过压缩的。好的压缩算法同时要求压缩比尽可能高、查找压缩文件容易、解压缩时间短。即使压缩之后的文件仍然大到不能以独立的文件形式存放，目前有两种分离大文件为多个小文件的策略：
         一是基于文档集的分离。主要是将文档集分成有限个子集，对于每一个子集建立各自的索引文件，检索过程就演变为对多个文档子集的检索，最后做的合并处理。
         一是基于索引文件的分离。即是将索引大文件分为有限个子文件，并设计一张表记录这种分离情况，当要检索这个索引文件时就查找这张表，根据表的记录去查找每一个子文件。文献[3]指出Google将索引大文件分离为若干个小文件，每一个小文件都以独立的linux文件存放，通过linux系统管理这些小文件，这正是这个策略的一种表现。
         5）排序算法
各种搜索引擎的技术改进和优化，都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研究新的排序方法，来提升客户的满意度。目前，不同搜索引擎基于不同的搜索策略设计有多种不同的排序算法，以Google为例，它采用很多种排序算法支持搜索结果，其中最典型的代表有PageRank和HillTop，这两种都属于超链接分析技术。
5．语义搜索的兴起
目前实用化的信息检索系统主要基于人工分类目录或关键词匹配。前者对海量信息资源的揭示的效率不高、深度有限；后者在信息的语义和语用的揭示上有局限性。信息检索系统在智能处理能力上的缺乏，导致这些工具远远不能满足用户的需求。如何解决好诸如信息组织、知识表示、机器理解与人机交互等问题，对于提高信息利用的效率，是非常重要和迫切的。近年来，语义网的提出为解决这些问题提供了锲机，由于语义网中的资源被结构化，能被计算机所理解和识别，这样提供了改进传统搜索技术的机会。语义检索的目的是通过从语义网上获取的数据增强并改进传统的搜索结果(基于信息检索技术)。它实现了用户检索请求的本体化，整个搜索引擎像领域专家一样，不仅给出查询结果，还给出了与检索请求相关的资源，大大提高检索的精度和覆盖率；实现了本体层次的检索，突破了关键词检索局限于形式的固有缺陷。它的出现提高了用户的满意度，减少了不相关的返回结果，提高了检索的精度和覆盖率。
最初人们通过代表语义的HTML标签来改造网页，主要有GDA系统和
SHOE(SimpleHTMLOntologyExtensions)系统等。但这些系统的不足是仅能处理经过HTML标签改造的网页。
XML是非常有前途的语言，因为它将网页的内容、结构和描述分离，并且非常适合知识的描述。但是XML通过它的句法结构仅能描述一些语义属性。
语义网络的建立使得以语义为基础的搜索引擎同时可以建立起来。在语义搜索引擎中，每一个查询都在一些本体的上下文范围内执行，来自本体的一些指南可以提高检索的准确性。在语义检索中，使用的是概念匹配，即自动抽取文档的概念，加以标引，用户在系统的辅助下选用合适的词语表达自己的信息需求，然后在两者之间执行概念匹配，即匹配在语义上相同、相近、相包含的词语。
6．语义搜索当前的应用
当前基于ontology 的语义检索系统已经得到了广泛的关注和应用，出现了一系列优秀的应用系统，其中典型的有两个：SWOOGLE——语义网中的基于蜘蛛网的检索系统，系统从每个搜索到的文本中抽取本体，根据本体之间的相关度来比较文本之间的关系；TUCUXI(InTelligent Hunter Agent for Concept Understanding and LeXical ChaIning)，该系统根据查找的本体在网页上爬行，决定哪种网页最满足需求。特别的，TUCUXI 判断文档的相关性是同Map of Meanings 比较用户所查询的相关本体。Map of Meanings 语义丰富，用来对资源文本的表达。TUCUXI 采用了MOMIS 公用字典来表征用户查询的本体。在语义网中,基于Ontology 的语义检索搜索引擎有SHOE、OntoBroker、OntoSeek、WebKB、Corese。
7．总结
语义搜索引擎是未来搜索引擎发展的方向，它的发展主要受限于语义web的发展以及自然语言处理技术。语义搜索引擎设计的最终目标是让计算机具有人的智能，以解决问题的形式返回给用户。语义搜索引擎设计的当前目标是让计算机返回的结果更有针对性、准确性。

参考文献：
[1] CNNIC第15次互联网发展状况报告
[[2]] Luiz André Barroso, Jeffrey Dean, Urs H?lzle. WEB SEARCH FOR A PLANET: THE GOOGLE CLUSTER ARCHITECTURE
[[3]] Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. The Google File System

101℃太阳 2008-02-26 23:02 发表评论

什么是流媒体技术

101℃太阳 — Tue, 26 Feb 2008 14:49:00 GMT

随着互联网的普及，利用网络传输声音与视频信号的需求也越来越大。广播电视等媒体上网后，也都希望通过互联网来发布自己的音视频节目。但是，音视频在存贮时文件的体积一般都十分庞大。在网络带宽还很有限的情况下，花几十分钟甚至更长的时间等待一个音视频文件的传输，不能不说是一件让人头疼的事。流媒体技术的出现，在一定程度上使互联网传输音视频难的局面得到改善。

传统的网络传输音视频等多媒体信息的方式是完全下载后再播放，下载常常要花数分钟甚至数小时。而采用流媒体技术，就可实现流式传输，将声音、影像或动画由服务器向用户计算机进行连续、不间断传送，用户不必等到整个文件全部下载完毕，而只需经过几秒或十几秒的启动延时即可进行观看。当声音视频等在用户的机器上播放时，文件的剩余部分还会从服务器上继续下载。

如果将文件传输看作是一次接水的过程，过去的传输方式就像是对用户做了一个规定，必须等到一桶水接满才能使用它，这个等待的时间自然要受到水流量大小和桶的大小的影响。而流式传输则是，打开水头龙，等待一小会儿，水就会源源不断地流出来，而且可以随接随用，因此，不管水流量的大小，也不管桶的大小，用户都可以随时用上水。从这个意义上看，流媒体这个词是非常形象的。

流式传输技术又分两种，一种是顺序流式传输，另一种是实时流式传输。

顺序流式传输是顺序下载，在下载文件的同时用户可以观看，但是，用户的观看与服务器上的传输并不是同步进行的，用户是在一段延时后才能看到服务器上传出来的信息，或者说用户看到的总是服务器在若干时间以前传出来的信息。在这过程中，用户只能观看已下载的那部分，而不能要求跳到还未下载的部分。顺序流式传输比较适合高质量的短片段，因为它可以较好地保证节目播放的最终质量。它适合于在网站上发布的供用户点播的音视频节目。

在实时流式传输中，音视频信息可被实时观看到。在观看过程中用户可快进或后退以观看前面或后面的内容，但是在这种传输方式中，如果网络传输状况不理想，则收到的信号效果比较差。

在运用流媒体技术时，音视频文件要采用相应的格式，不同格式的文件需要用不同的播放器软件来播放，所谓“一把钥匙开一把锁”。目前，采用流媒体技术的音视频文件主要有三大“流派”。

一是微软的ASF（Advanced Stream Format）。这类文件的后缀是.asf和.wmv，与它对应的播放器是微软公司的 “Media Player”。用户可以将图形、声音和动画数据组合成一个ASF格式的文件，也可以将其他格式的视频和音频转换为ASF格式，而且用户还可以通过声卡和视频捕获卡将诸如麦克风、录像机等外设的数据保存为ASF格式。

二是RealNetworks公司的RealMedia，它包括RealAudio、RealVideo和RealFlash三类文件，其中RealAudio用来传输接近CD音质的音频数据，RealVideo用来传输不间断的视频数据，RealFlash则是RealNetworks公司与Macromedia公司联合推出的一种高压缩比的动画格式，这类文件的后缀是.rm，文件对应的播放器是“RealPlayer”。

三是苹果公司的QuickTime。这类文件扩展名通常是 .mov，它所对应的播放器是“QuickTime。”

此外，MPEG、AVI、DVI、SWF等都是适用于流媒体技术的文件格式。

由于流媒体技术在一定程度上突破了网络带宽对多媒体信息传输的限制，因此被广泛运用于网上直播、网络广告、视频点播、远程教育、远程医疗、视频会议、企业培训、电子商务等多种领域。

对于新闻媒体来说，流媒体带来了机遇，也带来了挑战。

流媒体技术为传统媒体在互联网上开辟更广阔的空间提供了可能。广播电视媒体节目的上网更为方便，听众、观众在网上点播节目更为简单，网上音视频直播也将得到广泛运用。

流媒体技术将过去传统媒体的“推”式传播，变为受众的“拉” 式传播，受众不再是被动地接受来自广播电视的节目，而是在自己方便的时间来接收自己需要的信息。这将在一定程度上提高受众的地位，使他们在新闻传播中占有主动权，也使他们的需求对新闻媒体的活动产生更为直接的影响。

流媒体技术的广泛运用也将模糊广播、电视与网络之间的界限，网络既是广播电视的辅助者与延伸者，也将成为它们的有力的竞争者。利用流媒体技术，网络将提供新的音视频节目样式，也将形成新的经营方式，例如收费的点播服务。发挥传统媒体的优势，利用网络媒体的特长，保持媒体间良好的竞争与合作，是未来网络的发展之路，也是未来传统媒体的发展之路。流媒体技术的运用只是一个开端，无数新的技术还在前面等着我们。（作者：彭兰/中国人民大学新闻与社会发展研究中心研究员）

101℃太阳 2008-02-26 22:49 发表评论