BlogJava-paulwong-随笔分类-BIG DATA

BlogJava-paulwong-随笔分类-BIG DATAhttp://www.blogjava.net/paulwong/category/53832.htmlzh-cnTue, 23 Dec 2014 04:24:03 GMTTue, 23 Dec 2014 04:24:03 GMT60SequoiaDB巨杉数据库http://www.blogjava.net/paulwong/archive/2014/12/22/421639.htmlpaulwongpaulwongMon, 22 Dec 2014 15:18:00 GMThttp://www.blogjava.net/paulwong/archive/2014/12/22/421639.htmlhttp://www.blogjava.net/paulwong/comments/421639.htmlhttp://www.blogjava.net/paulwong/archive/2014/12/22/421639.html#Feedback0http://www.blogjava.net/paulwong/comments/commentRss/421639.htmlhttp://www.blogjava.net/paulwong/services/trackbacks/421639.html灵活易用的数据库被应用程序直接使用。SequoiaDB已拥有的客户包括知名IT互联网公司和世界五百强企业。

http://www.sequoiadb.com/index.php?p=demo

paulwong 2014-12-22 23:18 发表评论

]]>知乎上关于BI商业智能的几点探讨http://www.blogjava.net/paulwong/archive/2014/11/19/420298.htmlpaulwongpaulwongWed, 19 Nov 2014 06:00:00 GMThttp://www.blogjava.net/paulwong/archive/2014/11/19/420298.htmlhttp://www.blogjava.net/paulwong/comments/420298.htmlhttp://www.blogjava.net/paulwong/archive/2014/11/19/420298.html#Feedback0http://www.blogjava.net/paulwong/comments/commentRss/420298.htmlhttp://www.blogjava.net/paulwong/services/trackbacks/420298.html
回答这个问题有一个很恰当的比喻，房子和地基——数据仓库是BI的地基：数据仓库将数据抽取过来，清洗完，整合到主题域和多维模型里，然后BI就可以基于主题域和多维模型做各种分析了。如果这个地基（数据仓库）没做好，整个房子（BI项目）就很容易倒塌。

2、BI系统主要是为了帮助企业解决什么样的问题?如何解决？

1）以前发生了什么——可以用固定报表、各种图标、仪表盘、计分卡等实现;

2）为什么发生——可以用例外分析、即席查询、OLAP分析和数据挖掘实现;

3）现在发生了什么——可以用EII技术、预警和自动激发短信等工具来实现;

4）将来会发生什么——可以用预测分析、数据挖掘等来实现;

5）控制未来发展的方向，将活动控制到正确的道路上来——可以用过程分析、过程监控、统计过程控制（SPC）等实现。

从另一方面来看，可以这样看：

支持战略决策，通过数据反映宏观和公司的运营状况，帮助领导做出正确的战略决策，起到参谋的作用。

优化业务，通过数据与业务的结合，发现可优化的环节和总结出优化方法，提高运营效率和公司输出。

业务管控，业务模式成熟后，通过BI系统与其它系统对接，打通，形成循环，通过数据化管理，保证业务运营行在正确的轨道上。

3、大数据、云计算和商业智能这三者的关系到底如何，以后的发展前景有什么看法？

云计算：着重于存储（物理内存，存储）

大数据：着重于数据，在云计算的基础上将数据整合与存储

商业智能：在大数据的基础上，进行数据建模，数据挖掘，然后在Dashboard上展示出规律

4、BI中的多维数据模型和OLAP的实用价值在哪？

1）让分析人员可以快速地从不同的角度感知数据的情况。在数据量大且维度指标众多的情况下，人的记忆力往往有限，只能记住某些方面，无法客观地了解全局多个角度，OLAP可以提供帮助

2）在决策时，可以方便让参与决策的人员（不一定是专业分析人员）汇聚讨论的焦点。通过维度组合及条件过滤，很容易抽丝剥茧，验证各自的想法。而对静态的固定报表，由于无法深入下去，所以讨论往往没有达到关键点就作罢

原文出自FineBI商业智能解决方案官网 www.finebi.com

paulwong 2014-11-19 14:00 发表评论

]]>关于大数据、算法的几点看法（转）http://www.blogjava.net/paulwong/archive/2014/09/01/417542.htmlpaulwongpaulwongMon, 01 Sep 2014 00:16:00 GMThttp://www.blogjava.net/paulwong/archive/2014/09/01/417542.htmlhttp://www.blogjava.net/paulwong/comments/417542.htmlhttp://www.blogjava.net/paulwong/archive/2014/09/01/417542.html#Feedback2http://www.blogjava.net/paulwong/comments/commentRss/417542.htmlhttp://www.blogjava.net/paulwong/services/trackbacks/417542.html
　　第一次接触【推荐系统】是在两年前在某高校的互联网信息处理实验室的时候，那时候，【机器学习】和【大数据】都是新概念，但是差不多半年后，【大数据】的概念就开始风靡全球了，到现在已经被爆炒得面目全非。

　　那年还因此买了一本项亮的书《推荐系统实践》，那本书和现在的很多热门书籍一样，都是跟着概念热起来的。虽然有一些作者自己的实战经验在里面，但是总体上来说并没有太多值得重复翻开的地方。

　　几乎所有宣扬【推荐系统】的人，都要拿【啤酒和尿布】，【亚马逊推荐占营收20%】之类的经典例子来说力证推荐系统的牛逼之处。到处宣扬【推荐系统】插上【机器学习】等算法的翅膀，就能让电子商务变得精准无比，能智能的猜出用户想买的东西。

　　殊不知，其实这两个例子和所谓的【算法】其实关系不大。

　　1. 啤酒和尿布

　　首先是【啤酒和尿布】，超市的人员发现买啤酒的男人容易顺手买尿布。这其实是一种数据分析，是根据数据统计加上人工分析得出，是一种以经验来改善销售的行为。和【机器学习】【数据挖掘】等算法的关系不大。刚接触【推荐系统】的时候，【协同过滤算法】大热，我也曾经迷恋得研究过该算法，以为发现了什么宝贝一样。但是实际上，在工程中【协同过滤】出来的效果往往惨不忍睹，所谓的【算法工程师】每天能做的就是在那调整【协同过滤】算法的相关参数，然后看看第二天的点击率有没有上升。然后调整到最后你会发现，牛逼哄哄的【协同过滤】其实还不如简简单单的【看了又看】效果来的好，虽然协同过滤算法本质上也是一种【看了又看】的思想。

　　2. 亚马逊的推荐系统

　　亚马逊的推荐系统占了营收比，我记得是20%，不知道现在上升了还是下降了。这个说辞会让很多人误以为只要你搞好了推荐系统，你的营收就能上升20%以上一样。其实不然，对于亚马逊来说，为什么推荐能起到这么高的销量，一个很重要的原因在于，【亚马逊的首页点击率高的部分位置划分给了推荐系统的】，从广告学上讲，广告位置的好坏极大的决定了广告的销量。这个很容易理解，假设你的产品的广告牌能挂上天安门城楼的话，你觉得你还需要担心该产品的销量吗？

　　当然不可否定的是亚马逊的推荐系统应该是很牛逼的，但是这并不说明他们采用的【推荐算法】非常牛逼。推荐系统我认为其实和搜索系统并无太大差异，我一直认为推荐系统其实只是一个个性化的搜索引擎。之前在【秘密】上很火的有个爆料是：“360搜索的Rank刚开始就是用【机器学习】的算法去做，屎一样的效果，是我把百度的基于规则的算法偷过去之后才变好的。” ，这个爆料出来不少人讽刺【基于规则】，觉得这是在黑百度的算法。其实不是这样的，记得当时阿里搜索挖了一个谷歌搜索的员工，该人在阿里分享的时候就说过：【谷歌的搜索效果比别人好的原因就是规则库牛逼，关于算法使用的都是成熟的人尽皆知的算法，并没什么新奇酷的算法】。可能也是这个原因，谷歌研究院的科学家几乎全是【工程师背景】出身的。还记得上次【CCF推荐系统前言讲座】，刚开始叫了几个学院派的讲师在那大讲特讲各种酷炫掉渣天的算法，然后淘宝的大数据负责人车品觉上台之后直接来了句【我们实验出各种算法效果不太好，还不如最基本的关联规则效果来的好】直接把前面的学院派专家们打脸打得都肿了。

我心目中的推荐系统

　　不管是电商，或者是新闻，都有【个性化推荐】和【热门推荐】的取舍。一个商品热门或者点击量高是有其原因的。所以将热门的东西推荐给用户是非常合情合理的，因为既然热门，也侧面说明了很大概率上该用户也会喜欢该商品。而【个性化推荐】本质上是为了解决【长尾】问题，把那些不热门的东西，但是很可能符合某特定用户品味的商品【挖掘】出来，推荐给特定的用户群。

　　首先，在推荐中，醒目的推荐位应该是【热门推荐】或者【人工推荐】，【人工推荐】是指比如在体育新闻中，巴萨夺冠之类的大新闻是直接让编辑来【人工推荐】即可，就是此新闻一出，马上登上头条，而不是在那磨磨唧唧的计算特征值，计算相似度，计算是否符合用户兴趣。对于推荐中的【冷启动】，最理想的推荐就是【相关推荐】。说到这里，整个推荐系统的 80% 已经搭建完毕，【热门推荐+人工推荐+相关推荐】，这三者都是【个性化】都没什么关系，也算法关系也不大，但是这三者效果的好坏就决定了整个系统推荐效果好坏的 80% 。好多人连最基本的这三者都没有做好，就开始想一步登天，很可惜，这样的捷径是不存在的。接下来是 20% 的【个性化】的做法，如上所说，个性化是为了解决【长尾】问题，正是因为长尾占商品的 20% ，所以在此我认为【个性化】其实也只有 20% 。要解决个性化，首先就是要对用户分析，最成熟的办法就是对用户打标签（是否让你想起来社交网络为什么经常让你选用合适的标签描述自己，没错，就是为了分析你）。

　　其实，给用户打标签，逼格更高的说法叫【用户特征提取】或者【用户行为分析】。说到这两个词，那些所谓的算法工程师可能就会开始扯什么高大上的算法，机器学习，自然语言处理，数据挖掘等各种算法。其实在我看来，算法很大情况根本派不上用场，我认为这方面的关键在于【数据统计 + 人工分析】。将用户的浏览记录等记录下来，统计他最常点击的东西，最常去的频道，然后给他打上这些频道或者商品的标签。或者收集更详细的信息，比如年龄，打上【青少年，男人，女人，老人】等标签，根据这些标签进行推荐。比如当推荐护肤的商品时，就可以偏向于女人，推荐运动产品时，就可以偏向于男人和青少年，推荐保健品时，就可以偏向于老年人。所以，光看年龄这个标签的维度，就可以做很多文章。所以标签库的设计和积累，是非常广泛和重要的，而这方面需要大量依赖于【人工分析】，而不是看论文调算法能做到的。就好比现在的中文分词，拼到最后大家都在比词库的积累，谁的词库好，谁的效果就好，【搜狗】的【拼音输入法】效果好也是因为词库比别人好。

　　最后就是根据标签的定向推荐，这个推荐概率是有【权重设置】在里面，就比如刚才对年龄这个维度的权重，是需要给予对应的权重值，如何给定呢？其实就是【拍脑袋】，当然，如果有某些公司已经得出经验值了直接可以拿来用就会更好。但是在拍完脑袋之后需要做的就是观察点击率变化，查Bad Case，然后再对权重进行调整，也就是根据评测和反馈来调整，没有【评测和反馈】，整个系统等于是一个黑盒，谈何优化？在我看来，【推荐系统】本质上首先是一个系统，需要不断的对各种效果进行【评测】，查各种【Bad Case】，而这些都不是看论文可以学到的东西。

总结

　　1、实力派的【算法工程师】往往都是ABC[always be coding]，这样的算法工程师才能根据实际问题建立模型或者建立规则库，是真正能解决问题的人。往往是一些有研究背景，经验丰富的研究员，更加重视工程，因为工程架构上一些恰当合理的设计，效果往往就能远远高过于模型算法优化。

　　2、学院派的【算法工程师】往往是为了算法而算法，而不是为了解决推荐系统的问题去找最适合算法。这也是为什么大公司经常招了一些博士毕业的算法工程师后，不是研究算法而是让他们整天在那看数据报表？【因为发现算法没啥好研究，只能让他们在那看看报表找找规律了。】

　　3、【几乎所有所谓的智能推荐算法都是花拳绣腿】

　　4、当一个做推荐系统的部门开始重视【数据清理，数据标柱，效果评测，数据统计，数据分析】这些所谓的脏活累活，这样的推荐系统才会有救。

paulwong 2014-09-01 08:16 发表评论

]]>大数据时代，你准备好了吗？http://www.blogjava.net/paulwong/archive/2014/06/09/414552.htmlpaulwongpaulwongMon, 09 Jun 2014 13:19:00 GMThttp://www.blogjava.net/paulwong/archive/2014/06/09/414552.htmlhttp://www.blogjava.net/paulwong/comments/414552.htmlhttp://www.blogjava.net/paulwong/archive/2014/06/09/414552.html#Feedback0http://www.blogjava.net/paulwong/comments/commentRss/414552.htmlhttp://www.blogjava.net/paulwong/services/trackbacks/414552.html
客服：XXX比萨店。您好，请问有什么需要我为您服务？

顾客：你好，我想要一份……

客服：先生，烦请先把您的会员卡号告诉我。

顾客：16846146***。

客服：陈先生，您好！您是住在泉州路一号12楼1205室，您家电话是2646****，您公司电话是4666****，您的手机是1391234****。请问您想用哪一个电话付费？

顾客：你为什么知道我所有的电话号码？

客服：陈先生，因为我们联机到CRM系统。

顾客：我想要一个海鲜比萨……

客服：陈先生，海鲜比萨不适合您。

顾客：为什么？

客服：根据您的医疗记录，你的血压和胆固醇都偏高。

顾客：那你们有什么可以推荐的？

客服：您可以试试我们的低脂健康比萨。

顾客：你怎么知道我会喜欢吃这种的？

客服：您上星期一在中央图书馆借了一本《低脂健康食谱》。

顾客：好。那我要一个家庭特大号比萨，要付多少钱？

客服：99元，这个足够您一家六口吃了。但您母亲应该少吃，她上个月刚刚做了心脏搭桥手术，还处在恢复期。

顾客：那可以刷卡吗？

客服：陈先生，对不起。请您付现款，因为您的信用卡已经刷爆了，您现在还欠银行4807元，而且还不包括房贷利息。

顾客：那我先去附近的提款机提款。

客服：陈先生，根据您的记录，您已经超过今日提款限额。

顾客：算了，你们直接把比萨送我家吧，家里有现金。你们多久会送到？

客服：大约30分钟。如果您不想等，可以自己骑车来。

顾客：为什么？

客服：根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车，而目前您正在解放路东段华联商场右侧骑着这辆摩托车。

顾客当即晕倒。

热烈欢迎-- 大数据时代到来了！

paulwong 2014-06-09 21:19 发表评论

]]>Will be reviewing a new Apache Nutch book by Packthttp://www.blogjava.net/paulwong/archive/2014/01/28/409411.htmlpaulwongpaulwongTue, 28 Jan 2014 12:00:00 GMThttp://www.blogjava.net/paulwong/archive/2014/01/28/409411.htmlhttp://www.blogjava.net/paulwong/comments/409411.htmlhttp://www.blogjava.net/paulwong/archive/2014/01/28/409411.html#Feedback0http://www.blogjava.net/paulwong/comments/commentRss/409411.htmlhttp://www.blogjava.net/paulwong/services/trackbacks/409411.htmlhttp://www.packtpub.com/web-crawling-and-data-mining-with-apache-nutch/book

paulwong 2014-01-28 20:00 发表评论

]]>大数据平台架构设计资源http://www.blogjava.net/paulwong/archive/2013/08/18/403001.htmlpaulwongpaulwongSun, 18 Aug 2013 10:27:00 GMThttp://www.blogjava.net/paulwong/archive/2013/08/18/403001.htmlhttp://www.blogjava.net/paulwong/comments/403001.htmlhttp://www.blogjava.net/paulwong/archive/2013/08/18/403001.html#Feedback0http://www.blogjava.net/paulwong/comments/commentRss/403001.htmlhttp://www.blogjava.net/paulwong/services/trackbacks/403001.htmlhttp://blog.csdn.net/jacktan/article/details/9200979

paulwong 2013-08-18 18:27 发表评论

]]>