海量数据处理

海量日志数据

提取出某日访问百度次数最多的那个IP

IP是32位，IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理

假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。

预处理：HashTable存储索引字符串，次数
维护一个最小堆的数据结构（size为10），每次与堆顶（最小元素）作比较：
2.1 如果比堆顶元素大，则删除堆顶元素，将本条数据加入堆后，调整最小堆
2.2 小，继续；

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url

内存不足以容纳这2.5亿个整数。

给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？

先做hash，然后求模映射为小文件，求出每个小文件中重复次数最多的一个，并记录重复次数。然后找出上一步求出的数据中重复次数最多的一个就是所求