﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>BlogJava-冰山雪狼王-随笔分类-冰狼--Made In here</title><link>http://www.blogjava.net/gupaladino/category/18838.html</link><description>在努力、磨练、打击下不断地向着理想前进</description><language>zh-cn</language><lastBuildDate>Tue, 08 Apr 2008 13:58:42 GMT</lastBuildDate><pubDate>Tue, 08 Apr 2008 13:58:42 GMT</pubDate><ttl>60</ttl><item><title>年轻的Mining，年轻的我们</title><link>http://www.blogjava.net/gupaladino/archive/2008/04/08/191414.html</link><dc:creator>paladino</dc:creator><author>paladino</author><pubDate>Tue, 08 Apr 2008 03:30:00 GMT</pubDate><guid>http://www.blogjava.net/gupaladino/archive/2008/04/08/191414.html</guid><wfw:comment>http://www.blogjava.net/gupaladino/comments/191414.html</wfw:comment><comments>http://www.blogjava.net/gupaladino/archive/2008/04/08/191414.html#Feedback</comments><slash:comments>2</slash:comments><wfw:commentRss>http://www.blogjava.net/gupaladino/comments/commentRss/191414.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/gupaladino/services/trackbacks/191414.html</trackback:ping><description><![CDATA[数据挖掘(Data Mining)时下是一个很流行的词语，网上随便搜搜便有成把成把的文章为你讲述它的起源、发展等历史。<br />
至于这个行业真正落地的应用个人认为在每个行业都不一样，我做过互联网行业，电信移动，银行的也看过，记录一下我的体会和感受。互联网领域，这些年在 google的带领下，技术日益飞进，真是3天不学习就感觉落后了，在这样进步的情况下，必然伴随着行业的激烈竞争，有一些公司开始做数据挖掘，毕竟没有竞争的挖掘做完了也不会有人用，就算用了，也不会重视你，这点我在移动的感觉非常深刻，了解互联网做数据挖掘的情况最好就是先去看看各个公司招人的情况，一般这样会直接暴露出公司想做的方向，深入的思考就会得到很多信息，这里列举一个比较有名的互联网公司的招聘信息：<br />
数据挖掘工程师<br />
岗位职责：<br />
1.负责数据挖掘领域的分析研究，包括数据挖掘算法的分析研究，特定工程的数据挖掘模型的需求分析、建模、实验模拟；<br />
2.负责数据挖掘系统的开发，包括需求分析、系统设计、系统测试和优化。<br />
任职资格：<br />
1.计算机或数学相关专业毕业，硕士以上学历；有数据挖掘2年以上的研究或数据挖掘项目实施经验；<br />
2.3年以上的Oracle数据库的应用软件开发经验，非常熟悉Oracle存储过程脚本编写，熟悉PL/SQL的开发技术，良好的SQL开发和调优优化技能；<br />
3.3年以上数据挖掘 / 数据仓库 / ETL相关工作经验, 具有深厚的统计学、数学、人工智能和数据挖掘知识基础；<br />
4.熟悉海量数据处理和挖掘的基本算法，有电信或者教育行业数据挖掘、多维分析项目经验者优先；<br />
5.熟悉互联网应用，具备Web Service知识，熟悉Spring，Struts等框架；<br />
6.优秀的JAVA/J2EE编程能力，能够使用JAVA独立实现复杂的算法结构；熟悉C/C++/Perl/python更佳；<br />
7.快速的学习和研究能力，良好的沟通能力及团队协作能力。<br />
从上面不难看出点问题，这不是招人，这是在暴露自己的问题，第一公司想招人的目的性不明确，想做什么也不明确，我们对这个招聘做一个分析，简单的分析。<br />
首先看Coding能力，会Java，这个不难，市场上人很多，但是能实现独立的算法结构，这不仅仅指简单的算法，数据结构什么的，要实现的是很多复杂的数学计算式、决策树变种、聚类、关联、时序等等复杂算法，这个可不是一般人能做到的，反正我还没这个水平，估计5年内很难达到，即使有也是google的人了；<br />
其次，要求中写着做过数据仓库的项目，DW的项目国内一般都在电信、移动、银行，做这个的人和做互联网的人思维方式工作手法完全不同，可以说传统行业是比较规范的，规范到每个指标，数据统计口径都要有文档支持，虽然也有很多临时需求，但是比起规范性来，互联网差远了，反过来讲互联网的优势在于灵活，基于 DM能出现更多的新的小应用，传统行业里面比如电信，DM主要做三个方面的东西，集团规范里面有明确的要求：关联，增量模型，流失模型，对应起来就是关联分析一般是做产品交叉销售，增量模型和流失模型都是预测型模型，Dtree、回归来做新增预测，客户流失什么的，个别省份也会做客户细分 (clustering做的)，一般这些东西都有一套方法论，一套工作流程，一套完整的开发文档，规范一直到最后的提交物，另外有着DW系统的强大支持，软件工具的支持，比如IBM DB2，Oracle DW，NCR Teradata。各家也有工具提供业务人员和技术人员使用，IBM Miner，Oracle达尔文，NCR TWM，还有SAS，spss的DM软件是相当强悍的，毕竟人家的软件开发了那么多年，卖的贵也是有道理的。以上都说明了，这些传统行业的DM应用还是比互联网成熟的多的。说道互联网就挺新颖得了，随着搜索的发展，这些年只要想做Mining的都是想在基于搜索来做，MSRA有一个结果聚类的小应用，就是这样一个方向，另外互联网研究的clickstream也是较为成功的方向，尽管好的应用模式还没有出现。<br />
<br />
另外说金融保险领域也是和互联网领域的Mining区别超级大的，金融的巴塞尔是比较火的，风险管理等等。信用卡欺诈预测&#8230;&#8230;，保险缩减理赔流程时间&#8230;&#8230;，这年头都在讲流程银行，我不明白是啥东西，也没学过，反正牛人都在说，要学的东西太多了。<br />
<br />
深层次思考一下就会明白，这样的招聘是根本招不到人的，我承认有牛人存在，什么都强，但是这样毕竟少数，可以说是极品中的极品，懂数学，懂Mining，懂统计，能Coding，懂数据仓库，所以互联网的Mining，尤其在web2.0成熟之后招人最好还是基于开发招比较合理，因为这样慢慢的过渡才能出现一些比较成型，成体系的小型的Mining应用，才能收到实际效果。一般都是做搜索的人开始做这些东西，毕竟做搜索的人基础还是不错的。<br />
<br />
另外业界和学校是不同的，经常听身边好多Ph.D讲他们那时候写文章的事情，有些还是比较有用的，但是毕竟产业界和学术界有着本质的区别，产业界要赚钱，学术界就是写文章，呵呵，都知道文章是怎么回事。<br />
<br />
最后，互联网领域，无论是IM，web Service，Blog等等都需要一些方向建立一些成功的小应用，我喜欢的几个地方有clickstream，cloud，tag system。让我们一起期待着在web上也有类似CRM这种应用时代的到来，预祝Web Mining越做越好！<br />
<br />
杂文一篇，牛人不要骂，呵呵
<img src ="http://www.blogjava.net/gupaladino/aggbug/191414.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/gupaladino/" target="_blank">paladino</a> 2008-04-08 11:30 <a href="http://www.blogjava.net/gupaladino/archive/2008/04/08/191414.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>