面试如何从1万条数据，找出出现频率最高的10个

2025-06-22 06:27:36

推荐回答（2个）

回答1：

回答2：

解决方案
针对top k类问题，通常比较好的方案是【分治+trie树/hash+小顶堆】，即先将数据集按照hash方法分解成多个小数据集，然后使用trie树或者hash统计每个小数据集中的query词频，之后用小顶堆求出每个数据集中出频率最高的前K个数，最后在所有top K中求出最终的top K。
实际上，最优的解决方案应该是最符合实际设计需求的方案，在实际应用中，可能有足够大的内存，那么直接将数据扔到内存中一次性处理即可，也可能机器有多个核

面试 如何从1万条数据，找出出现频率最高的10个

面试如何从1万条数据，找出出现频率最高的10个