﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>BlogJava-paulwong-随笔分类-BIG DATA</title><link>http://www.blogjava.net/paulwong/category/53832.html</link><description /><language>zh-cn</language><lastBuildDate>Tue, 23 Dec 2014 04:24:03 GMT</lastBuildDate><pubDate>Tue, 23 Dec 2014 04:24:03 GMT</pubDate><ttl>60</ttl><item><title>SequoiaDB巨杉数据库</title><link>http://www.blogjava.net/paulwong/archive/2014/12/22/421639.html</link><dc:creator>paulwong</dc:creator><author>paulwong</author><pubDate>Mon, 22 Dec 2014 15:18:00 GMT</pubDate><guid>http://www.blogjava.net/paulwong/archive/2014/12/22/421639.html</guid><wfw:comment>http://www.blogjava.net/paulwong/comments/421639.html</wfw:comment><comments>http://www.blogjava.net/paulwong/archive/2014/12/22/421639.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/paulwong/comments/commentRss/421639.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/paulwong/services/trackbacks/421639.html</trackback:ping><description><![CDATA[SequoiaDB（巨杉数据库）是一款分布式文档型NoSQL数据库，是业界唯一支持事务和SQL的产品。SequoiaDB既可作为Hadoop与Spark的数据源以满足实时查询和分析的混合负载，也可独立作为高性能、<br />灵活易用的数据库被应用程序直接使用。SequoiaDB已拥有的客户包括知名IT互联网公司和世界五百强企业。<br /><br /><br /><a href="http://www.sequoiadb.com/index.php?p=demo" target="_blank">http://www.sequoiadb.com/index.php?p=demo</a><br /><img src ="http://www.blogjava.net/paulwong/aggbug/421639.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/paulwong/" target="_blank">paulwong</a> 2014-12-22 23:18 <a href="http://www.blogjava.net/paulwong/archive/2014/12/22/421639.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>知乎上关于BI商业智能的几点探讨</title><link>http://www.blogjava.net/paulwong/archive/2014/11/19/420298.html</link><dc:creator>paulwong</dc:creator><author>paulwong</author><pubDate>Wed, 19 Nov 2014 06:00:00 GMT</pubDate><guid>http://www.blogjava.net/paulwong/archive/2014/11/19/420298.html</guid><wfw:comment>http://www.blogjava.net/paulwong/comments/420298.html</wfw:comment><comments>http://www.blogjava.net/paulwong/archive/2014/11/19/420298.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/paulwong/comments/commentRss/420298.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/paulwong/services/trackbacks/420298.html</trackback:ping><description><![CDATA[1、BI与数据仓库(DW)之间的关系是怎么样的? <br /><br />回答这个问题有一个很恰当的比喻，房子和地基&#8212;&#8212;数据仓库是BI的地基：数据仓库将数据抽取过来，清洗完，整合到主题域和多维模型里，然后BI就可以基于主题域和多维模型做各种分析了。如果这个地基（数据仓库）没做好，整个房子（BI项目）就很容易倒塌。 <br /><br /><br />2、BI系统主要是为了帮助企业解决什么样的问题?如何解决？ <br /><br />1）以前发生了什么&#8212;&#8212;可以用固定报表、各种图标、仪表盘、计分卡等实现; <br /><br />2）为什么发生&#8212;&#8212;可以用例外分析、即席查询、OLAP分析和数据挖掘实现; <br /><br />3）现在发生了什么&#8212;&#8212;可以用EII技术、预警和自动激发短信等工具来实现; <br /><br />4）将来会发生什么&#8212;&#8212;可以用预测分析、数据挖掘等来实现; <br /><br />5）控制未来发展的方向，将活动控制到正确的道路上来&#8212;&#8212;可以用过程分析、过程监控、统计过程控制（SPC）等实现。 <br /><br />从另一方面来看，可以这样看： <br /><br />支持战略决策，通过数据反映宏观和公司的运营状况，帮助领导做出正确的战略决策，起到参谋的作用。 <br /><br />优化业务，通过数据与业务的结合，发现可优化的环节和总结出优化方法，提高运营效率和公司输出。 <br /><br />业务管控，业务模式成熟后，通过BI系统与其它系统对接，打通，形成循环，通过数据化管理，保证业务运营行在正确的轨道上。 <br /><br /><br />3、大数据、云计算和商业智能这三者的关系到底如何，以后的发展前景有什么看法？ <br /><br />云计算：着重于存储（物理内存，存储） <br /><br />大数据：着重于数据，在云计算的基础上将数据整合与存储 <br /><br />商业智能：在大数据的基础上，进行数据建模，数据挖掘，然后在Dashboard上展示出规律 <br /><br /><br /><br />4、BI中的多维数据模型和OLAP的实用价值在哪？ <br /><br />1）让分析人员可以快速地从不同的角度感知数据的情况。 在数据量大且维度指标众多的情况下，人的记忆力往往有限，只能记住某些方面，无法客观地了解全局多个角度，OLAP可以提供帮助 <br /><br />2）在决策时，可以方便让参与决策的人员（不一定是专业分析人员）汇聚讨论的焦点。 通过维度组合及条件过滤，很容易抽丝剥茧，验证各自的想法。 而对静态的固定报表，由于无法深入下去，所以讨论往往没有达到关键点就作罢 <br /><br />原文出自FineBI商业智能解决方案官网 www.finebi.com&nbsp;<img src ="http://www.blogjava.net/paulwong/aggbug/420298.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/paulwong/" target="_blank">paulwong</a> 2014-11-19 14:00 <a href="http://www.blogjava.net/paulwong/archive/2014/11/19/420298.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>关于大数据、算法的几点看法（转）</title><link>http://www.blogjava.net/paulwong/archive/2014/09/01/417542.html</link><dc:creator>paulwong</dc:creator><author>paulwong</author><pubDate>Mon, 01 Sep 2014 00:16:00 GMT</pubDate><guid>http://www.blogjava.net/paulwong/archive/2014/09/01/417542.html</guid><wfw:comment>http://www.blogjava.net/paulwong/comments/417542.html</wfw:comment><comments>http://www.blogjava.net/paulwong/archive/2014/09/01/417542.html#Feedback</comments><slash:comments>2</slash:comments><wfw:commentRss>http://www.blogjava.net/paulwong/comments/commentRss/417542.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/paulwong/services/trackbacks/417542.html</trackback:ping><description><![CDATA[回想起来，我也算是国内接触推荐系统较早的人之一了，最近和人聊天，觉得不少人对推荐系统有所误解，以为需要多么高大上的算法才能搭建起来的，我只想说我经常说的那句话【不是这样的】，所以有了这篇文章。<br /><br />　　第一次接触【推荐系统】是在两年前在某高校的互联网信息处理实验室的时候，那时候，【机器学习】和【大数据】都是新概念，但是差不多半年后，【大数据】的概念就开始风靡全球了，到现在已经被爆炒得面目全非。<br /><br />　　那年还因此买了一本项亮的书《推荐系统实践》，那本书和现在的很多热门书籍一样，都是跟着概念热起来的。 虽然有一些作者自己的实战经验在里面，但是总体上来说并没有太多值得重复翻开的地方。<br /><br />　　几乎所有宣扬【推荐系统】的人，都要拿【啤酒和尿布】，【亚马逊推荐占营收20%】之类的经典例子来说力证推荐系统的牛逼之处。到处宣扬【推荐系统】插上【机器学习】等算法的翅膀，就能让电子商务变得精准无比，能智能的猜出用户想买的东西。<br /><br />　　殊不知，其实这两个例子和所谓的【算法】其实关系不大。<br /><br /> <br /><br />　　<span style="color: #0000ff;">1. 啤酒和尿布</span><br /><br />　　首先是【啤酒和尿布】，超市的人员发现买啤酒的男人容易顺手买尿布。这其实是一种数据分析，是根据数据统计加上人工分析得出，是一种以经验来改善销售的行为。和【机器学习】【数据挖掘】等算法的关系不大。 刚接触【推荐系统】的时候，【协同过滤算法】大热， 我也曾经迷恋得研究过该算法，以为发现了什么宝贝一样。但是实际上，在工程中【协同过滤】出来的效果往往惨不忍睹，所谓的【算法工程师】每天能做的就是在那调整【协同过滤】算法的相关参数，然后看看第二天的点击率有没有上升。然后调整到最后你会发现，牛逼哄哄的【协同过滤】其实还不如简简单单的【看了又看】效果来的好，虽然协同过滤算法本质上也是一种【看了又看】的思想。<br /><br /> <br /><br />　　<span style="color: #0000ff;">2. 亚马逊的推荐系统</span><br /><br />　　亚马逊的推荐系统占了营收比，我记得是20%，不知道现在上升了还是下降了。这个说辞会让很多人误以为只要你搞好了推荐系统，你的营收就能上升20%以上一样。其实不然，对于亚马逊来说，为什么推荐能起到这么高的销量，一个很重要的原因在于，【亚马逊的首页点击率高的部分位置划分给了推荐系统的】，从广告学上讲，广告位置的好坏极大的决定了广告的销量。这个很容易理解，假设你的产品的广告牌能挂上天安门城楼的话，你觉得你还需要担心该产品的销量吗？<br /><br />　　当然不可否定的是亚马逊的推荐系统应该是很牛逼的，但是这并不说明他们采用的【推荐算法】非常牛逼。推荐系统我认为其实和搜索系统并无太大差异，我一直认为推荐系统其实只是一个个性化的搜索引擎。之前在【秘密】上很火的有个爆料是：&#8220;360搜索的Rank刚开始就是用【机器学习】的算法去做，屎一样的效果，是我把百度的基于规则的算法偷过去之后才变好的。&#8221; ，这个爆料出来不少人讽刺【基于规则】，觉得这是在黑百度的算法。 其实不是这样的，记得当时阿里搜索挖了一个谷歌搜索的员工，该人在阿里分享的时候就说过：【谷歌的搜索效果比别人好的原因就是规则库牛逼，关于算法使用的都是成熟的人尽皆知的算法，并没什么新奇酷的算法】。 可能也是这个原因，谷歌研究院的科学家几乎全是【工程师背景】出身的。还记得上次【CCF推荐系统前言讲座】，刚开始叫了几个学院派的讲师在那大讲特讲各种酷炫掉渣天的算法，然后淘宝的大数据负责人车品觉 上台之后直接来了句【我们实验出各种算法效果不太好，还不如最基本的 关联规则效果来的好】直接把前面的学院派专家们打脸打得都肿了。<br /><br /> <br /><br /><span style="color: #0000ff;">我心目中的推荐系统</span><br /><br />　　不管是电商，或者是新闻，都有【个性化推荐】和【热门推荐】的取舍。一个商品热门或者点击量高是有其原因的。所以将热门的东西推荐给用户是非常合情合理的，因为既然热门，也侧面说明了很大概率上该用户也会喜欢该商品。而【个性化推荐】本质上是为了解决【长尾】问题，把那些不热门的东西，但是很可能符合某特定用户品味的商品【挖掘】出来，推荐给特定的用户群。<br /><br />　　首先，在推荐中，醒目的推荐位应该是【热门推荐】或者【人工推荐】，【人工推荐】是指比如在体育新闻中，巴萨夺冠之类的大新闻是直接让编辑来【人工推荐】即可，就是此新闻一出，马上登上头条，而不是在那磨磨唧唧的计算特征值，计算相似度，计算是否符合用户兴趣。 对于推荐中的【冷启动】，最理想的推荐就是【相关推荐】。说到这里，整个推荐系统的 80% 已经搭建完毕，【热门推荐+人工推荐+相关推荐】，这三者都是【个性化】都没什么关系，也算法关系也不大，但是这三者效果的好坏就决定了整个系统推荐效果好坏的 80% 。好多人连最基本的这三者都没有做好，就开始想一步登天，很可惜，这样的捷径是不存在的。 接下来是 20% 的【个性化】的做法，如上所说，个性化是为了解决【长尾】问题，正是因为长尾占商品的 20% ，所以在此我认为【个性化】其实也只有 20% 。要解决个性化，首先就是要对用户分析，最成熟的办法就是对用户打标签（是否让你想起来社交网络为什么经常让你选用合适的标签描述自己，没错，就是为了分析你）。<br /><br />　　其实，给用户打标签，逼格更高的说法叫【用户特征提取】或者【用户行为分析】。说到这两个词，那些所谓的算法工程师可能就会开始扯什么高大上的算法，机器学习，自然语言处理，数据挖掘等各种算法。其实在我看来，算法很大情况根本派不上用场，我认为这方面的关键在于【数据统计 + 人工分析】。将用户的浏览记录等记录下来，统计他最常点击的东西，最常去的频道，然后给他打上这些频道或者商品的标签。或者收集更详细的信息，比如年龄，打上【青少年，男人，女人，老人】等标签，根据这些标签进行推荐。比如当推荐护肤的商品时，就可以偏向于女人，推荐运动产品时，就可以偏向于男人和青少年，推荐保健品时，就可以偏向于老年人。所以，光看年龄这个标签的维度，就可以做很多文章。所以标签库的设计和积累，是非常广泛和重要的，而这方面需要大量依赖于【人工分析】，而不是看论文调算法能做到的。 就好比现在的中文分词，拼到最后大家都在比词库的积累，谁的词库好，谁的效果就好，【搜狗】的【拼音输入法】效果好也是因为词库比别人好。<br /><br />　　最后就是根据标签的定向推荐，这个推荐概率是有【权重设置】在里面，就比如刚才对年龄这个维度的权重，是需要给予对应的权重值，如何给定呢？其实就是【拍脑袋】，当然，如果有某些公司已经得出经验值了直接可以拿来用就会更好。但是在拍完脑袋之后需要做的就是观察点击率变化，查Bad Case，然后再对权重进行调整，也就是根据评测和反馈来调整，没有【评测和反馈】，整个系统等于是一个黑盒，谈何优化？在我看来，【推荐系统】本质上首先是一个系统，需要不断的对各种效果进行【评测】，查各种【Bad Case】，而这些都不是看论文可以学到的东西。<br /><br /><span style="color: #0000ff;">总结</span><br /><br />　　1、实力派的【算法工程师】往往都是ABC[always be coding]，这样的算法工程师才能根据实际问题建立模型或者建立规则库，是真正能解决问题的人。往往是一些有研究背景，经验丰富的研究员，更加重视工程，因为工程架构上一些恰当合理的设计，效果往往就能远远高过于模型算法优化。<br /><br />　　2、学院派的【算法工程师】往往是为了算法而算法，而不是为了解决推荐系统的问题去找最适合算法。这也是为什么大公司经常招了一些博士毕业的算法工程师后，不是研究算法而是让他们整天在那看数据报表？【因为发现算法没啥好研究，只能让他们在那看看报表找找规律了。】<br /><br />　　3、【几乎所有所谓的智能推荐算法都是花拳绣腿】<br /><br />　　4、当一个做推荐系统的部门开始重视【数据清理，数据标柱，效果评测，数据统计，数据分析】这些所谓的脏活累活，这样的推荐系统才会有救。<img src ="http://www.blogjava.net/paulwong/aggbug/417542.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/paulwong/" target="_blank">paulwong</a> 2014-09-01 08:16 <a href="http://www.blogjava.net/paulwong/archive/2014/09/01/417542.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>大数据时代，你准备好了吗？</title><link>http://www.blogjava.net/paulwong/archive/2014/06/09/414552.html</link><dc:creator>paulwong</dc:creator><author>paulwong</author><pubDate>Mon, 09 Jun 2014 13:19:00 GMT</pubDate><guid>http://www.blogjava.net/paulwong/archive/2014/06/09/414552.html</guid><wfw:comment>http://www.blogjava.net/paulwong/comments/414552.html</wfw:comment><comments>http://www.blogjava.net/paulwong/archive/2014/06/09/414552.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/paulwong/comments/commentRss/414552.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/paulwong/services/trackbacks/414552.html</trackback:ping><description><![CDATA[大数据......某比萨店的电话铃响了，客服人员拿起电话。<br /><br />    客服：XXX比萨店。您好，请问有什么需要我为您服务？<br /><br />    顾客：你好，我想要一份&#8230;&#8230;<br /><br />    客服：先生，烦请先把您的会员卡号告诉我。<br /><br />    顾客：16846146***。<br /><br />    客服：陈先生，您好！您是住在泉州路一号12楼1205室，您家电话是2646****，您公司电话是4666****，您的手机是1391234****。请问您想用哪一个电话付费？<br /><br />    顾客：你为什么知道我所有的电话号码？<br /><br />    客服：陈先生，因为我们联机到CRM系统。<br /><br />    顾客：我想要一个海鲜比萨&#8230;&#8230;<br /><br />    客服：陈先生，海鲜比萨不适合您。<br /><br />    顾客：为什么？<br /><br />    客服：根据您的医疗记录，你的血压和胆固醇都偏高。<br /><br />    顾客：那你们有什么可以推荐的？<br /><br />    客服：您可以试试我们的低脂健康比萨。<br /><br />    顾客：你怎么知道我会喜欢吃这种的？<br /><br />    客服：您上星期一在中央图书馆借了一本《低脂健康食谱》。 <br /><br />    顾客：好。那我要一个家庭特大号比萨，要付多少钱？<br /><br />    客服：99元，这个足够您一家六口吃了。但您母亲应该少吃，她上个月刚刚做了心脏搭桥手术，还处在恢复期。<br /><br />    顾客：那可以刷卡吗？<br /><br />    客服：陈先生，对不起。请您付现款，因为您的信用卡已经刷爆了，您现在还欠银行4807元，而且还不包括房贷利息。<br /><br />    顾客：那我先去附近的提款机提款。<br /><br />    客服：陈先生，根据您的记录，您已经超过今日提款限额。<br /><br />    顾客：算了，你们直接把比萨送我家吧，家里有现金。你们多久会送到？ <br /><br />    客服：大约30分钟。如果您不想等，可以自己骑车来。<br /><br />    顾客：为什么？<br /><br />    客服：根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车，而目前您正在解放路东段华联商场右侧骑着这辆摩托车。<br /><br />    顾客当即晕倒。 <br /><br />热烈欢迎-- 大数据时代到来了！<img src ="http://www.blogjava.net/paulwong/aggbug/414552.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/paulwong/" target="_blank">paulwong</a> 2014-06-09 21:19 <a href="http://www.blogjava.net/paulwong/archive/2014/06/09/414552.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>Will be reviewing a new Apache Nutch book by Packt</title><link>http://www.blogjava.net/paulwong/archive/2014/01/28/409411.html</link><dc:creator>paulwong</dc:creator><author>paulwong</author><pubDate>Tue, 28 Jan 2014 12:00:00 GMT</pubDate><guid>http://www.blogjava.net/paulwong/archive/2014/01/28/409411.html</guid><wfw:comment>http://www.blogjava.net/paulwong/comments/409411.html</wfw:comment><comments>http://www.blogjava.net/paulwong/archive/2014/01/28/409411.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/paulwong/comments/commentRss/409411.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/paulwong/services/trackbacks/409411.html</trackback:ping><description><![CDATA[Will be reviewing a new Apache Nutch book by Packt:&nbsp;<a href="http://www.packtpub.com/web-crawling-and-data-mining-with-apache-nutch/book" target="_blank">http://www.packtpub.com/web-crawling-and-data-mining-with-apache-nutch/book</a>
<img src ="http://www.blogjava.net/paulwong/aggbug/409411.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/paulwong/" target="_blank">paulwong</a> 2014-01-28 20:00 <a href="http://www.blogjava.net/paulwong/archive/2014/01/28/409411.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>大数据平台架构设计资源</title><link>http://www.blogjava.net/paulwong/archive/2013/08/18/403001.html</link><dc:creator>paulwong</dc:creator><author>paulwong</author><pubDate>Sun, 18 Aug 2013 10:27:00 GMT</pubDate><guid>http://www.blogjava.net/paulwong/archive/2013/08/18/403001.html</guid><wfw:comment>http://www.blogjava.net/paulwong/comments/403001.html</wfw:comment><comments>http://www.blogjava.net/paulwong/archive/2013/08/18/403001.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/paulwong/comments/commentRss/403001.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/paulwong/services/trackbacks/403001.html</trackback:ping><description><![CDATA[!!!基于Hadoop的大数据平台实施记&#8212;&#8212;整体架构设计<br /><a href="http://blog.csdn.net/jacktan/article/details/9200979" target="_blank">http://blog.csdn.net/jacktan/article/details/9200979</a><br /><br /><br /><br /><br /><br /><br /><br /><img src ="http://www.blogjava.net/paulwong/aggbug/403001.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/paulwong/" target="_blank">paulwong</a> 2013-08-18 18:27 <a href="http://www.blogjava.net/paulwong/archive/2013/08/18/403001.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>