posts - 59,  comments - 323,  trackbacks - 0

记录MSN上与北京姜伟的对话: 

jiangwei说:
主题标引其实是我们的副业,不过进展很快,昨天又把主题关联做完了,效果还不错。
jiangwei说:
其实现在聚类算法挺多的,我们试了几种,各有优缺点,现在准备根据项目的需要,选择一种给用户。
庄表伟 说:
哦,我那天还想到一个思路,我一直认为原来的主题词那样的“用、代、属、分、参、族”的结构实在是过于复杂了。
jiangwei说:
愿闻其详
庄表伟 说:
于是我就想,能不能以这样一种方式来定义主题词:
1、所有的主题词,都是平行的,没有高低之分
2、主题词之间,只有两个关系:相似度、相关度;
3、所有相似度与相关度的数据,都是从人们自行定义的tags情况计算得来的
4、根据词频统计,计算出推荐用词
庄表伟 说:
然后,专家就可以休息了
jiangwei说:
哈哈,有意思的想法,我仔细想想。
jiangwei说:
所有相似度与相关度的数据,都是从人们自行定义的tags情况计算得来的。我觉得这个最难。

庄表伟 说:
有一个网站你知道吗?
http://del.icio.us/
jiangwei说:
知道
庄表伟 说:
同一篇文章,有多人收录,每个人各自独立的设置自己的tags
庄表伟 说:
相似度,就是“两个tags,分别被不同的用户,用于同一篇文章的概率”
相关度,就是“两个tags,被同时用于一篇文章的概率”
jiangwei说:
我当时同keso争论的就是如果同一个概念,如果不采用受控语言来表达,如何被广大用户解析和理解的问题。
庄表伟 说:
比如一篇文章,一个人定义的tags是:“软件、Windows”,另一个人定义的tags是:“编程、Windows”
庄表伟 说:
那么,软件与windows之间,编程与windows之间,都有了相关度
庄表伟 说:
而在软件与编程之间,就有了相似度
jiangwei说:
这需要一个中间桥梁,你这里的是windows,如果用户有的用windows,有的用视窗,有的用微软平台,有的用window,有的用windowsxp,等等,怎么办?
庄表伟 说:
因为是多人收录,所以,就有一个词频的数据,对外展示一篇文章的主题词时,就显示为用户最多用户选择的,也即是推荐词库中的词了。
庄表伟 说:
在民主与集中之间,可以有一个算法的桥梁,并不是绝对不同的
jiangwei说:
我看了365key,感觉里面的tags还没有真正发挥作用。
庄表伟 说:
http://del.icio.us/
干净很多,非常舒服,keso自然是不用的
jiangwei说:
365key那个网站我感觉黄赌毒太多,真想不到后台是刘韧和keso他们。
庄表伟 说:
唉,那是因为在一个“追求点击率”的国家
庄表伟 说:
365key有两个排行榜,一个是收藏榜,一个是点击率榜,如果只有收藏榜的话,365key就干净了
庄表伟 说:
但是,他们哪里舍得去掉这么个点击榜呢?
庄表伟 说:
http://spaces.msn.com/members/zbw25/Blog/cns!1pA6-3FOo9yNp_4lmEHxdDqA!836.entry
jiangwei说:
我现在有想法将365key结合我们的东西用于政府网站平台中,你觉得前景如何?
庄表伟 说:
这是写的一篇新的blog,里面也有一些创意的
庄表伟 说:
那还不如将RSS、tags,引入政府内部网呢
jiangwei说:
是的,就是这个思路,rss、tag
庄表伟 说:
但是是用于内部网,就是给内网的公务员、领导们看的
庄表伟 说:
还有一个好的东西,也可以引入政府内网,就是像baidu新闻,那样的RSS关键词订阅。
jiangwei说:
我们想得完全一样啊,这个东西就是我们即将用于北京市公务员门户和北京市领导决策系统中的东西。
庄表伟 说:

jiangwei说:
思路同你是完全相同的
庄表伟 说:
这个东西,非常的Web2.0啊
庄表伟 说:
推向公众,我认为,也是能够赚大钱的。
jiangwei说:
是的,我就是想把web2.0用于这两个项目,看看实际效果到底如何
jiangwei说:
这个项目的中标单位,################
jiangwei说:
但是他们都会用我们的主题标引和主题关联技术
jiangwei说:
其中一个应用是每天抓取网上的新闻,然后聚类和关联,给领导和公务员看。
庄表伟 说:
不错的
jiangwei说:
抓新闻的那家号称巨牛,专门抓动态网页和数据库
jiangwei说:
我们下周就要联调了
庄表伟 说:
呵呵,已经快做完了呀
jiangwei说:
但是我觉得信息可视化这方面还没有做好,我准备在这上面再下下功夫
庄表伟 说:
信息可视化?
jiangwei说:
就是如何图形化地展现这些信息及其关联
jiangwei说:
包括后台对这些新闻的统计和分析
jiangwei说:
比如:一周新闻关注热点,一周公务员关注热点之类的。
庄表伟 说:
http://home.wangjianshuo.com/cn/20050616_ajax_eeaec.htm
庄表伟 说:
给你看个blog
jiangwei说:
这些都很有启发,你有这么多创意,干吗不自己写一个结合上述优点的东东出来。
庄表伟 说:
唉,人的精力是有限的呀
庄表伟 说:
现在有出版社在约我写一本AJAX新手入门的书,正在努力写作过程中
jiangwei说:
希望早日拜读大作。其实我们的精力也很有限,都放到中文智能处理应用领域了。其实这些创意从技术上看都不难实现,但是如何整合应用,如何被大多数人(不是少数精英)接受,就不是那么容易了,我现在也只是想在下范围(政府内网)中尝试一下。
庄表伟 说:
我们大概会在3月以前写完,具体什么时候出来就不知道了。
庄表伟 说:
王建硕的那个随手标注的AJAX应用,倒是很值得引入政府内部网,在Web页面上,随手划划,就能批注了。
jiangwei说:
是的,而且实现起来也不难。
庄表伟 说:
是啊,领导们肯定会喜欢的
jiangwei说:
但是在政府里面的应用,有很多不是技术问题,就比如这个,我脑子里面想的就不仅仅是好玩,而是它到底给政府工作会带来什么
庄表伟 说:
能够统计到“关注点与关注程度”
jiangwei说:
王建硕是365key的作者吗?
庄表伟 说:
不是呀,他是kijiji的创办者
jiangwei说:
现在在北京吗?我看了他的blog,觉得同你一样,很有深度啊
庄表伟 说:
呵呵,应该是在上海的
jiangwei说:
可惜可惜,不能当面交流请教
庄表伟 说:
他是一个很出名的blogger,比我出名太多了
jiangwei说:
看材料他在微软干过6年
庄表伟 说:
是啊,牛人
庄表伟 说:
http://forum.javaeye.com/viewtopic.php?t=15308
庄表伟 说:
这好这里有一个我写的blog,还有人家的评论
jiangwei说:
里面的“互助式搜索”,提法真好!!
庄表伟 说:

jiangwei说:
“inverted table中 每个词,每个场景 每篇文档都是独立的”这是现有搜索问题的实质。
jiangwei说:
也就是没有语境
jiangwei说:
全新的客户端软件+全新的搜索服务模式+互助式的搜索协作机制=下一代搜索技术,完全同意。
庄表伟 说:
哈哈,总算是找到知音了
jiangwei说:
因为我也是这样想的,也找到知音了
庄表伟 说:
弄一个这样的软件,咱们就能成为下一个Google!!
jiangwei说:
是很有可能的
jiangwei说:
“标记主题词看起来可行, 但实际上我想难度很大.
并不是所有用户对这种标记主题词的"贡献"感兴趣.”你对这个怎么看?
庄表伟 说:
这就要用到你们的智能辅助标引了
庄表伟 说:
用户如果不想自己动脑子的,只需要认可机器的选择即可
jiangwei说:
这是知识管理的一个问题,每人都希望得到别人的,但是却不愿奉献自己的。
庄表伟 说:
但是,他总是希望能够管理自己的知识的
庄表伟 说:
为了管理自己的知识而设置tags,不只是贡献给别人
jiangwei说:
我现在在设想一种机制,奉献得越多,得到的越多。也就是说,你奉献的tag数量越多,被引用得越多,你越有能力查询到更多的人和信息。
庄表伟 说:
这在公众中大概可行,在政府中肯定不可行
庄表伟 说:
奉献tags数量最多的秘书,权限不够
jiangwei说:
是的,我感觉是这可能是一种与google和百度现在的利润模式不同的商业模式。
庄表伟 说:
对的,我们可以给他一个新的名字,叫做“社会化搜索”
庄表伟 说:
也可以缩写为SNS
jiangwei说:
我们的最新版本中,已经加入了搜索的功能,现在我们对外介绍的时候,有时候称为“智能搜索客户端”
jiangwei说:
不是可以强调标引功能
jiangwei说:
在这种方式下,用户实际上是用文章找文章。我称为“文索未文”
庄表伟 说:
我想起来了,你当时的那个PPT,用了N多自造成语,实在是精彩
jiangwei说:
实践证明,尽管现在还是调用的google和百度,但是精度和相关度确实很高。
庄表伟 说:
能够理解
jiangwei说:
如果google和百度能够针对这个技术进行优化或者在排序策略上进行调整,效果肯定会非常好。我自己现在用luccent检索,就是想用试验证明这点。
庄表伟 说:
你写不写blog的?
jiangwei说:
不写
庄表伟 说:
唉,可惜啊
jiangwei说:
好的想法都是在msn上同朋友交流的。
jiangwei说:
原来知识管理网站有个朋友让我写,我发觉还是不习惯。
庄表伟 说:
blog不是写文章,而是把自己的想法记下来
庄表伟 说:
随时想到了,就记一点,渐渐的就写习惯了
jiangwei说:
其实我在搜索、标引、信息可视化、知识管理和数据挖掘上,是有很多想法的。
庄表伟 说:
甚至我有个朋友,自己的BLOG上,都是贴的MSN对话
jiangwei说:
呵呵,你也可以贴咱们的对话啊,我没有意见。
庄表伟 说:
对于以后整理自己的思路,很有帮助的

posted on 2006-01-14 23:48 读书、思考、生活 阅读(417) 评论(0)  编辑  收藏

只有注册用户登录后才能发表评论。


网站导航:
 
<2006年1月>
25262728293031
1234567
891011121314
15161718192021
22232425262728
2930311234

常用链接

留言簿(20)

随笔档案

友情BLOG

搜索

  •  

最新评论

阅读排行榜

评论排行榜