大规模数据查重的多种方法，及Bloom Filter的应用

挺有意思的题目。

1. 给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出:A,B文件共同的URL。
解法一：Hash成内存大小的小块文件，然后分块内存内查交集。
解法二：Bloom Filter（广泛应用于URL过滤、查重。参考http://en.wikipedia.org/wiki/Bloom_filter、http://blog.csdn.net/jiaomeng/archive/2007/01/28/1496329.aspx）

2. 有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。要你按照query的频度排序。
解法一：根据数据稀疏程度算法会有不同，通用方法是用Hash把文件重排，让相同query一定会在同一个文件，同时进行计数，然后归并，用最小堆来统计频度最大的。
解法二：类似1，但是用的是与简单Bloom Filter稍有不同的CBF（Counting Bloom Filter）或者更进一步的SBF（Spectral Bloom Filter，参考http://blog.csdn.net/jiaomeng/archive/2007/03/19/1534238.aspx）
解法三：MapReduce，几分钟可以在hadoop集群上搞定。参考http://en.wikipedia.org/wiki/MapReduce

3. 有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数最高的100个词。
解法一：跟2类似，只是不需要排序，各个文件分别统计前100，然后一起找前100。

posted on 2013-01-31 13:55 paulwong 阅读(1171) 评论(0) 编辑收藏所属分类: 分布式、HADOOP 、云计算

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: !!!架构网站内容不错 SPRING CACHE资源使用WILDFLY中的分布式缓存INFISHPAN SPRING-SESSION 分布式调度QUARTZ+SPRING 樂視 TV 載入 4K 片點解咁快？CDN 網絡解構 Java并行处理框架 JPPF 腾讯CKV海量分布式存储系统【转载】经典漫画讲解HDFS原理一些数据切分、缓存、rpc框架、nosql方案资料

paulwong

My Links

Blog Stats

常用链接

留言簿(68)

随笔分类(1445)

随笔档案(1194)

文章分类(7)

文章档案(10)

相册

收藏夹(2)

AI

Develop

E-BOOK

Other

养生

微服务

搜索

最新评论

阅读排行榜

评论排行榜

大规模数据查重的多种方法，及Bloom Filter的应用