2005年6月22日随笔档案 - 我要去桂林---田春峰的网志

2005年6月22日

tss中文：开源面向对象的数据库db4o 5.5版发布了

tss中文：开源面向对象的数据库db4o 5.5版发布了

近日db4objects发布了开源面向对象数据库 db4o 5.5 版本. 这个版本的焦点是提高了性能降低了内存耗用，特别针对资源紧张的嵌入式开发提供了支持。

具体的改进特性:
- 类索引使用新BTree架构，极大减少了事务提交的时间，对象个数在10万之1千万的索引时表现极为明显。
-通过更好的群集插槽方式，改进字符串和数组的序列化方式，在插入和修改时提高了效率。

-提供了诊断工具包，帮助程序员更容易开发出高效程序。

-本次改进效率的提升可以让内存耗用更低。

伴随着这次发布，db4objects 还提供了用户交流社区：这里。

原文： db4o open source object database v 5.5 released

posted @ 2006-08-21 18:25 我要去桂林阅读(265) | 评论 (0) | 编辑收藏

最近看到 2005 年的全国搜索引擎和网上信息挖掘学术研讨会上华南木棉信息检索的队长欧健文的华南木棉信息检索的ppt。很有启发。

于是自己也根据自己的理解准备做一个实现。
实现前提假设：
   1、网页分块切分的基本单位是html中的table , div 等标签（目前版本只支持：table ,div 标签）。
   2、网页分块切片识别依赖于相似url的对比。比如：我们认为一下两个url的网页html文本结构相似：
       http://news.soufun.com/2005-11-26/580107.htm
       http://news.soufun.com/2005-11-26/580175.htm
       而下面两个url的网页结构不相似：
       http://news.soufun.com/subject/weekly051121/index.html
       http://news.soufun.com/2005-11-26/580175.htm

用途：
   1、根据分析网页结构区分网页是主题型网页还是目录型网页；
   2、根据分析网页结构找出网页的主题内容，相关内容和噪音内容；

实现的3个阶段：
   1、对网页结构进行合理切片；
   2、比较相似网页的切片结构；
   3、分析切片数据，得出结论。
演示地址：
       http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp

posted @ 2005-11-28 10:17 我要去桂林阅读(675) | 评论 (0) | 编辑收藏

一种快速的未登陆词识别方法(原理和实现)

    最近网络上关于分词的算法已经很多了,在实际应用中每个人根据对分词的不同理解写了不同的中文分词算法,可谓百花齐放.
    但现在似乎还没有针对未登陆词的识别算法,有鉴于此,我特地写了一个,抛砖引玉.

    算法的假设:
    1. 未登陆词是由单字组成的;
    2. 如果一个字同时属于2个未登陆词,那么只选择第一被识别的词;

    测试文章:
    最近电视剧大长今很火,我就选取了介绍大长今的文章,
    地址:http://www.360doc.com/showWeb/0/0/18183.aspx
    识别结果如下:
        PDH : initialize phrase dictionary
        QuerySpliter reInitialize dictionary.
        长今,职场,闵政浩,韩剧,郑云白,连生,主簿,冷庙高香,义字,医女,张德,剩者,济州,选拨,文秘

    算法原理:
    首先找出已经分词后的单字,然后查看单字的下一个是否还是单字,如果是,判断这种情况出现的次数,如果超过预订的阀值,那么就确认这是一个新词.
    下面是一个算法的计算过程展示:
   PDH : initialize phrase dictionary
   QuerySpliter reInitialize dictionary.
   >>>8,9;9,10
   长今
   >>>237,238;238,239
   职场
   >>>595,596;596,597;597,598
   闵政浩
   >>>189,190;190,191
   韩剧
   >>>1111,1112;1112,1113;1113,1114
   郑云白
   >>>599,600;600,601
   连生
   >>>610,611;611,612
   主簿
   >>>975,976;976,977;977,978;978,979
   冷庙高香
   >>>1233,1234;1234,1235
   义字
   >>>559,560;560,561
   医女
   >>>561,562;562,563
   张德
   >>>3114,3115;3115,3116
   剩者
   >>>534,535;535,536
   济州
   >>>580,581;581,582
   选拨
   >>>2071,2072;2072,2073
   文秘
    本算法是在:小叮咚分词的基础上进行的.
    欢迎大家一起交流,改进这个算法.

    相关连接:
              基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )
                       小叮咚中文分词在处理大量数据的时候碰到了内存泄漏的问题
                       Lucene使用者沙龙

原帖地址

posted @ 2005-10-12 16:16 我要去桂林阅读(776) | 评论 (0) | 编辑收藏

什么是垂直搜索引擎（之二）

垂直搜索引擎的三个特点：

1、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点：
    比如：找工作的搜索引擎 www.deepdo.com 的数据来源于：www.51job.com , www.zhaoping.com , www.chinahr.com 等等；
          股票搜索引擎 www.macd.cn 的数据来源于： www.jrj.com.cn , www.gutx.com 等股票站点；
2、垂直搜索引擎抓取的数据倾向于结构化数据和元数据：
    比如：我们找工作关注的：
        职位信息：软件工程师；
        公司名称，行业名称：软件公司，外包行业等；
        地点：北京，海淀；
3、垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索：
        比如：找：海淀软件工程师的工作等。

垂直搜索引擎站点的8条准则：

1、选择一个好的垂直搜索方向。俗话说男怕选错行，这一点对于搜索引擎来说也是一样的，除了选择的这个行业有垂直搜索的大量需求外，这个行业的数据属性最好不要和
Yahoo,Google等通用搜索的的抓取方向重叠。
    目前热门的垂直搜索行业有：购物，旅游，汽车，工作，房产，交友等行业。搜索引擎对动态url数据不敏感也是众所周知的，这些可以作为垂直搜索引擎的切入点；

2、评价所选垂直搜索行业的网站、垂直搜索内容、行业构成等情况：
    我们都知道垂直搜索引擎并不提供内容来源，它的数据依赖爬虫搜集，并做了深度加工而来的。因此考虑垂直搜索引擎的所处的大环境和定位至关重要。
3、深入分析垂直搜索引擎的索引数据特点：
    垂直搜索引擎的索引数据过于结构化，那么进入的门槛比较低，行业竞争会形成一窝蜂的局面；如果搜索数据特点是非结构化的，抓取，分析这样的数据很困难，进入壁
垒太高，很可能出师未杰身先死。
4、垂直搜索引擎的索引数据倾向于结构化数据和元数据，这个特点是区别于yahoo,google等通用搜索引擎的，这是垂直搜索引擎的立足点。而垂直搜索引擎是根植于某一个行业，因此行业知识，行业专家这些也是通用搜索引擎不具备的。也就是说进入垂直搜索是有门槛的。
5、垂直搜索引擎的搜索结果要覆盖整个行业，搜索相关性要高于通用搜索引擎，贴近用户搜索意图，搜索结果要及时。
6、垂直搜索引擎的web 2.0 需求：
    垂直搜索引擎的搜索数据由于带有结构化的天性，相对于通用搜索引擎的全文索引而言，更显的少而精。因此，设计的时候要提供收集用户数据的接口，同时提供tag,积
分等机制，使搜索结果更加“垂直”。
7、垂直搜索引擎的目标是帮助用户解决问题，而不只是向通用搜索引擎一样发现信息：
    这一点是垂直搜索引擎的终极目标。在做垂直搜索引擎的时候你需要考虑：什么问题是这个行业内的特殊性问题，什么问题是一般性问题。keso多次提到google的目标是
让用户尽快离开google，而垂直搜索引擎应该粘住用户。一般来说，使用垂直搜索引擎的用户都是和用户的利益需求密切相关的。所谓利益需求是我自己独创的，大意是和用户工作密切相关，生活中必不可少的需求，而求有持续性。比如：学生找论文，业主找装修信息等等这样的需求。因此粘住用户，让用户有反馈的途径是一个关键部分。
8、垂直搜索引擎的社区化特征：
    这一条和第9条是相关的。
    俗话说物以类聚，人以群分，垂直搜索引擎定位于一个行业，服务于一群特定需求的人群，这个特点决定了垂直搜索的社区化行为。人们利用垂直搜索引擎解决问题，分享回馈。现在做网站都讲求社区化，所以垂直搜索引擎本质上还是：对垂直门户信息提供方式的一次简化性的整合。

    相关连接：什么是垂直搜索引擎

原帖地址

posted @ 2005-08-29 16:08 我要去桂林阅读(476) | 评论 (1) | 编辑收藏

Boyer-moor 字符串搜索算法

最近因为需要从大量的文本中检索字符串，于是想比较一下java jdk提供的 indexof 算法，和其他字符串搜索算法的效率。字符串搜索算法有多种，其中比较有名的是boyer-moore算法。在Moore 先生的主页上有关于 boyer-moore算法的详细介绍。
moore先生介绍的通俗易懂，相信大家都能看明白。

     同时还看到：Boyer-Moore串查找JAVA算法这篇文章，可惜是安徽工业大学的内部刊物，无法看到文章的详情，真是遗憾。

相关连接：
                   boyer-moore 算法文档中心
                               多么乐

posted @ 2005-06-23 23:26 我要去桂林阅读(398) | 评论 (0) | 编辑收藏

多么乐alexa网站流量数据报告助手

为了您方便的获取您所关心网站的alexa网站流量数据，多么乐特的为您制作了这款工具，使用方法很简单，只要按照要求输入网站地址和您的邮件地址并制定邮件发送的时间，我们就会定期给您发送alaxe统计数据。

在以后我们还会对数据进行进一步分析，提供更加满意的服务！

Alaxe排名	百万用户到达率	用户浏览页数
156	2750	8.0

我要去桂林---田春峰的网志

tss中文：开源面向对象的数据库db4o 5.5版发布了

一种面向搜索引擎的网页分块、切片的原理，实现和演示

一种快速的未登陆词识别方法(原理和实现)

什么是垂直搜索引擎（之二）

什么是垂直搜索引擎（之二）

Boyer-moor 字符串搜索算法

Boyer-moor 字符串搜索算法

多么乐alexa网站流量数据报告助手

导航

常用链接

留言簿(1)

随笔档案

搜索

最新评论

阅读排行榜

评论排行榜