posts - 59,  comments - 308,  trackbacks - 0

记录MSN上与北京姜伟的对话: 

jiangwei说:
主题标引其实是我们的副业,不过进展很快,昨天又把主题关联做完了,效果还不错。
jiangwei说:
其实现在聚类算法挺多的,我们试了几种,各有优缺点,现在准备根据项目的需要,选择一种给用户。
庄表伟 说:
哦,我那天还想到一个思路,我一直认为原来的主题词那样的“用、代、属、分、参、族”的结构实在是过于复杂了。
jiangwei说:
愿闻其详
庄表伟 说:
于是我就想,能不能以这样一种方式来定义主题词:
1、所有的主题词,都是平行的,没有高低之分
2、主题词之间,只有两个关系:相似度、相关度;
3、所有相似度与相关度的数据,都是从人们自行定义的tags情况计算得来的
4、根据词频统计,计算出推荐用词
庄表伟 说:
然后,专家就可以休息了
jiangwei说:
哈哈,有意思的想法,我仔细想想。
jiangwei说:
所有相似度与相关度的数据,都是从人们自行定义的tags情况计算得来的。我觉得这个最难。

庄表伟 说:
有一个网站你知道吗?
http://del.icio.us/
jiangwei说:
知道
庄表伟 说:
同一篇文章,有多人收录,每个人各自独立的设置自己的tags
庄表伟 说:
相似度,就是“两个tags,分别被不同的用户,用于同一篇文章的概率”
相关度,就是“两个tags,被同时用于一篇文章的概率”
jiangwei说:
我当时同keso争论的就是如果同一个概念,如果不采用受控语言来表达,如何被广大用户解析和理解的问题。
庄表伟 说:
比如一篇文章,一个人定义的tags是:“软件、Windows”,另一个人定义的tags是:“编程、Windows”
庄表伟 说:
那么,软件与windows之间,编程与windows之间,都有了相关度
庄表伟 说:
而在软件与编程之间,就有了相似度
jiangwei说:
这需要一个中间桥梁,你这里的是windows,如果用户有的用windows,有的用视窗,有的用微软平台,有的用window,有的用windowsxp,等等,怎么办?
庄表伟 说:
因为是多人收录,所以,就有一个词频的数据,对外展示一篇文章的主题词时,就显示为用户最多用户选择的,也即是推荐词库中的词了。
庄表伟 说:
在民主与集中之间,可以有一个算法的桥梁,并不是绝对不同的
jiangwei说:
我看了365key,感觉里面的tags还没有真正发挥作用。
庄表伟 说:
http://del.icio.us/
干净很多,非常舒服,keso自然是不用的
jiangwei说:
365key那个网站我感觉黄赌毒太多,真想不到后台是刘韧和keso他们。
庄表伟 说:
唉,那是因为在一个“追求点击率”的国家
庄表伟 说:
365key有两个排行榜,一个是收藏榜,一个是点击率榜,如果只有收藏榜的话,365key就干净了
庄表伟 说:
但是,他们哪里舍得去掉这么个点击榜呢?
庄表伟 说:
http://spaces.msn.com/members/zbw25/Blog/cns!1pA6-3FOo9yNp_4lmEHxdDqA!836.entry
jiangwei说:
我现在有想法将365key结合我们的东西用于政府网站平台中,你觉得前景如何?
庄表伟 说:
这是写的一篇新的blog,里面也有一些创意的
庄表伟 说:
那还不如将RSS、tags,引入政府内部网呢
jiangwei说:
是的,就是这个思路,rss、tag
庄表伟 说:
但是是用于内部网,就是给内网的公务员、领导们看的
庄表伟 说:
还有一个好的东西,也可以引入政府内网,就是像baidu新闻,那样的RSS关键词订阅。
jiangwei说:
我们想得完全一样啊,这个东西就是我们即将用于北京市公务员门户和北京市领导决策系统中的东西。
庄表伟 说:

jiangwei说:
思路同你是完全相同的
庄表伟 说:
这个东西,非常的Web2.0啊
庄表伟 说:
推向公众,我认为,也是能够赚大钱的。
jiangwei说:
是的,我就是想把web2.0用于这两个项目,看看实际效果到底如何
jiangwei说:
这个项目的中标单位,################
jiangwei说:
但是他们都会用我们的主题标引和主题关联技术
jiangwei说:
其中一个应用是每天抓取网上的新闻,然后聚类和关联,给领导和公务员看。
庄表伟 说:
不错的
jiangwei说:
抓新闻的那家号称巨牛,专门抓动态网页和数据库
jiangwei说:
我们下周就要联调了
庄表伟 说:
呵呵,已经快做完了呀
jiangwei说:
但是我觉得信息可视化这方面还没有做好,我准备在这上面再下下功夫
庄表伟 说:
信息可视化?
jiangwei说:
就是如何图形化地展现这些信息及其关联
jiangwei说:
包括后台对这些新闻的统计和分析
jiangwei说:
比如:一周新闻关注热点,一周公务员关注热点之类的。
庄表伟 说:
http://home.wangjianshuo.com/cn/20050616_ajax_eeaec.htm
庄表伟 说:
给你看个blog
jiangwei说:
这些都很有启发,你有这么多创意,干吗不自己写一个结合上述优点的东东出来。
庄表伟 说:
唉,人的精力是有限的呀
庄表伟 说:
现在有出版社在约我写一本AJAX新手入门的书,正在努力写作过程中
jiangwei说:
希望早日拜读大作。其实我们的精力也很有限,都放到中文智能处理应用领域了。其实这些创意从技术上看都不难实现,但是如何整合应用,如何被大多数人(不是少数精英)接受,就不是那么容易了,我现在也只是想在下范围(政府内网)中尝试一下。
庄表伟 说:
我们大概会在3月以前写完,具体什么时候出来就不知道了。
庄表伟 说:
王建硕的那个随手标注的AJAX应用,倒是很值得引入政府内部网,在Web页面上,随手划划,就能批注了。
jiangwei说:
是的,而且实现起来也不难。
庄表伟 说:
是啊,领导们肯定会喜欢的
jiangwei说:
但是在政府里面的应用,有很多不是技术问题,就比如这个,我脑子里面想的就不仅仅是好玩,而是它到底给政府工作会带来什么
庄表伟 说:
能够统计到“关注点与关注程度”
jiangwei说:
王建硕是365key的作者吗?
庄表伟 说:
不是呀,他是kijiji的创办者
jiangwei说:
现在在北京吗?我看了他的blog,觉得同你一样,很有深度啊
庄表伟 说:
呵呵,应该是在上海的
jiangwei说:
可惜可惜,不能当面交流请教
庄表伟 说:
他是一个很出名的blogger,比我出名太多了
jiangwei说:
看材料他在微软干过6年
庄表伟 说:
是啊,牛人
庄表伟 说:
http://forum.javaeye.com/viewtopic.php?t=15308
庄表伟 说:
这好这里有一个我写的blog,还有人家的评论
jiangwei说:
里面的“互助式搜索”,提法真好!!
庄表伟 说:

jiangwei说:
“inverted table中 每个词,每个场景 每篇文档都是独立的”这是现有搜索问题的实质。
jiangwei说:
也就是没有语境
jiangwei说:
全新的客户端软件+全新的搜索服务模式+互助式的搜索协作机制=下一代搜索技术,完全同意。
庄表伟 说:
哈哈,总算是找到知音了
jiangwei说:
因为我也是这样想的,也找到知音了
庄表伟 说:
弄一个这样的软件,咱们就能成为下一个Google!!
jiangwei说:
是很有可能的
jiangwei说:
“标记主题词看起来可行, 但实际上我想难度很大.
并不是所有用户对这种标记主题词的"贡献"感兴趣.”你对这个怎么看?
庄表伟 说:
这就要用到你们的智能辅助标引了
庄表伟 说:
用户如果不想自己动脑子的,只需要认可机器的选择即可
jiangwei说:
这是知识管理的一个问题,每人都希望得到别人的,但是却不愿奉献自己的。
庄表伟 说:
但是,他总是希望能够管理自己的知识的
庄表伟 说:
为了管理自己的知识而设置tags,不只是贡献给别人
jiangwei说:
我现在在设想一种机制,奉献得越多,得到的越多。也就是说,你奉献的tag数量越多,被引用得越多,你越有能力查询到更多的人和信息。
庄表伟 说:
这在公众中大概可行,在政府中肯定不可行
庄表伟 说:
奉献tags数量最多的秘书,权限不够
jiangwei说:
是的,我感觉是这可能是一种与google和百度现在的利润模式不同的商业模式。
庄表伟 说:
对的,我们可以给他一个新的名字,叫做“社会化搜索”
庄表伟 说:
也可以缩写为SNS
jiangwei说:
我们的最新版本中,已经加入了搜索的功能,现在我们对外介绍的时候,有时候称为“智能搜索客户端”
jiangwei说:
不是可以强调标引功能
jiangwei说:
在这种方式下,用户实际上是用文章找文章。我称为“文索未文”
庄表伟 说:
我想起来了,你当时的那个PPT,用了N多自造成语,实在是精彩
jiangwei说:
实践证明,尽管现在还是调用的google和百度,但是精度和相关度确实很高。
庄表伟 说:
能够理解
jiangwei说:
如果google和百度能够针对这个技术进行优化或者在排序策略上进行调整,效果肯定会非常好。我自己现在用luccent检索,就是想用试验证明这点。
庄表伟 说:
你写不写blog的?
jiangwei说:
不写
庄表伟 说:
唉,可惜啊
jiangwei说:
好的想法都是在msn上同朋友交流的。
jiangwei说:
原来知识管理网站有个朋友让我写,我发觉还是不习惯。
庄表伟 说:
blog不是写文章,而是把自己的想法记下来
庄表伟 说:
随时想到了,就记一点,渐渐的就写习惯了
jiangwei说:
其实我在搜索、标引、信息可视化、知识管理和数据挖掘上,是有很多想法的。
庄表伟 说:
甚至我有个朋友,自己的BLOG上,都是贴的MSN对话
jiangwei说:
呵呵,你也可以贴咱们的对话啊,我没有意见。
庄表伟 说:
对于以后整理自己的思路,很有帮助的

posted @ 2006-01-14 23:48 读书、思考、生活 阅读(299) | 评论 (0)编辑 收藏
我以前说过一段话:“花费6/7的工作量,去保证那1/7的,有价值的工作。这不是太浪费了吗?”
 
结果纯粹思维居然不同意:“老大,你真的是孤陋寡闻了。人均900行/月,已经是比较高的productivity了。我们公司人均300行,照样是500强,照样销售几百亿美刀。“花费6/7的工作量,去保证那1/7的,有价值的工作。这不是太浪费了吗?”,你又错了,如果那1/7的工作有问题的话,你恐怕花100/7都补不回来。好好看看软件工程的书吧,特别是和software cost相关的章节。”
 
还有这么一段话:“老大,你的思维不会还停留在认为只有代码才是真正有价值的东西,或者说只有编码才是真正的开发工作,或者打心眼里还是认为一来就开始编码最好的层次上吧。”
 
我的确是比较无言以对,只能抄点东西给他看看,鉴于纯粹思维同志,比较喜欢中英文夹杂式的表述,我也搞点花样:
 
个体与交互过程 over processes and tools 
能够工作的软件 over comprehensive documentation 
客户合作 over contract negotiation 
随机应变 over following a plan
 
为什么要这样中英文夹杂呢?因为那些英文是纯粹思维同志相当熟悉的,而这些中文可能是他根本没有想到过的!
 
关于PMP,我倒是从来没有觉得一个PMP有什么了不起,学习PMP,只是让我更加深刻的认识到,以“工程方式管理软件开发项目”,是何等的缘木求鱼
 
至于PV、EV、AV这种纸上谈兵的东西,我都已经忘光了。所以呢,你不认我是个PMP,就不认吧,我现在也的确不是个够格的PMP了。
 
我现在的已经进步了,我的确是认为:

代码才是真正有价值的东西!
posted @ 2006-01-14 14:13 读书、思考、生活 阅读(1393) | 评论 (9)编辑 收藏
[安替]我的态度:关于微软事件和美国国会可能的立法
 
今天有美国媒体打电话询问我,说美国国会有议员即将发起针对类似雅虎、微软等和中国政府合作公司处罚的立法提议,问我什么持什么态度。我在这里发表一个公开声明,解释我的立场。
 
对于微软封我博客,我的态度反复对媒体说过了。1)微软此种行为,侵犯了我的言论自由,我表示抗议。2)微软在没有警告的情况下,删除我的全部博客,不给我任何机会备份,这种对用户的恶劣态度实在摧毁了我之前对微软的信任。3)我保留对微软采取进一步行动的权力。
 
后来微软竟然后来解释说是为了遵从当地法令,这等于把我们这一批因为讨论新京报事件而被删除空间的作者陷于发表非法言论之“犯罪嫌疑人”之处境;因为压力而妥协是一错,因为掩饰妥协行为而构陷受害人于不义是更是错上加错。
 
对于微软这种行为,中国人不能对之惩治,是中国人的耻辱。我们尚不能有任何方法在中国保护自己的言论自由,这也正是我们这辈人仍旧需要继续努力下去的根本原因。总有算帐那天,只要我还活着,我说过,像微软、雅虎此种不义行为,就一定会被惩治,别侥幸能被大家忘掉,未来中国的基础教育普及费用,恐怕都要从这些大公司的赔偿款中出:赚钱之日请先想想未来。我们能活着,并且不失去理想,就是相信历史,相信正义之神必然会眷顾中华,让悲苦者平反,让受害者申张。
 
至于美国国会议员要立法如何如何,这完全是美国人民的事情。我不觉得中国人的言论自由是美国国会能捍卫得了的,一个伟大国家公民的言论自由需要他国国会来庇护,这种想法本身就说明了这个国家离我们盼想的伟大有多么遥远。我的博客被封以及我对言论自由的抵死捍卫,不能自然为美国国会的相关立法背书。
 
说得再清楚点:我需要的是中国国会的立法,我需要的是中国人来立法捍卫中国人的言论自由。今天不能,明天必然会能。这是我们活下去的唯一光荣和梦想。
 
一个国家之所以伟大,就是因为其中还有一批人不愿意放弃民族的理想,并且愿意扎根、牺牲、奉献。我们今天学习华盛顿的政治、纽约的经济和加州的文化,完全就是因为我们对自己的民族有着坚定的盼想——总有一天,我们生活在南京、北京、香港和台北的儿女,能共同享受自由、民主、富裕、和平的生活。而这一切的一切,都需要我们中国人自己来努力争取,因为只有我们才能刻骨铭心地体会到彼此的甘苦。
 
在美国的法庭申张正义,不代表正义也在国人心中得以申张。雅虎、微软是否被美国法庭惩治,这实在不是我们能关心了的,我们实在需要关心的是,对中国人自己的权利,我们中国人能保护多少,甚至说,能减少侵犯多少。有一个网友说的好,耻辱其实是我们自己的。
 
另外,当全球化和政治打包在一起的时候,我不认为任何黑白一刀切处理能事实有利于中国人自由权利的增长。一方面微软以封博客的方法阻碍中国人的言论自由,但另外一方面MSN空间在这一年实际扩张了中国人用博客言说的能力和意愿,而MSN Messenger也影响了互联网信息的传播方法,这是资本追逐市场所造成的实际两面效果。美国人如何判断这个问题,如何加以惩罚,实在是美国人自己的问题,但我个人以为,如果完全阻断妥协的公司进入中国市场的机会,那至少在短期内,中国网民不会由此变得更加自由。另外,必须区分雅虎的出卖和微软的妥协,这是完全不同的事情。
 
我们处在一个极其复杂的处境中,正是如同对经济制裁是否能改善一国民主状况的问题一样,90年代
的中国和伊拉克,有过正反两方面的反证。这种尴尬和复杂,恰恰是我们国人的耻辱,真不足外人道。我只能在此默默和朋友们重念我们自己的梦想:愿有一天,在中华大地上,公平如大水滚滚,公义如江河滔滔。此等声音虽然微小,但在我们心中却坚如磐石。
简评:一直对安替颇有些不屑,但是他这篇文章写得实在是好,特此转贴!
posted @ 2006-01-14 13:00 读书、思考、生活 阅读(291) | 评论 (0)编辑 收藏
<2006年1月>
25262728293031
1234567
891011121314
15161718192021
22232425262728
2930311234

常用链接

留言簿(17)

随笔档案

友情BLOG

搜索

  •  

最新评论

阅读排行榜

评论排行榜