面试:如何从 100亿URL 中找出相同的 URL?

来源:QQ快报
责任编辑:鲁晓倩
字体:

动脑子想一下,既然这2亿个url都能存在,说明这2亿个url都是不重复的,即其中不会存在url地址重复现象,何谈找到呢?,在承担了一年多2113的拆迁动员工作后,山东5261省南部某县工4102商系统工作人员小陈终于从这项繁1653杂的事务中解脱出来。过去两年来,该县启动大规模的棚户区改造工程,由于任务繁重,多个县直机关部门被分派了相关工作,小陈所在的工商局被要求辅助某片区的拆迁动员工作。今年8月,该县的棚改工作告一段落,小陈的这项“额外任务”也被取消。小陈的经历堪称三四线城市棚改工作的一个侧面。2015年至2017年,中国完成棚户区改造1800万套,2018年前10月开工577万套,完成全年580万套目标的99%。其中,三四线城市成为棚改的主力军。为有效地去库存,棚改货币化安置成为近两年的主要方式www.book1234.com防采集请勿采集本网。

来源:8rr.co/FR7V

用3个表记录url Domain(Id,DomainName,Type) (1,baidu.com,http) (2,icbc.com,https) Resource(Id,ResourceName,Extension) (1,login,aspx) (2,

题目描述

解答思路

方法总结

题目描述

给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。

在记事本里,编辑菜单下用查找工具

解答思路

每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。

采用火车头采集工具,很快就可采集下来,

5, 000, 000, 000 * 64B ≈ 5GB * 64 = 320GB

function flt() { var str=document.getElementById("txt").value; var re=/(http(s)?\:\/\/)?(www\

由于内存大小只有 4G,因此,我们不可能一次性把所有 URL 加载到内存中处理。对于这种类型的题目,一般采用分治策略,即:把一个文件中的 URL 按照某个特征划分为多个小文件,使得每个小文件大小不超过 4G,这样就可以把这个小文件读到内存中进行处理了。

那得分情况的: 1.如果这十亿条,重复机会很少,也就是说最大重复条数就几十次,也就是有几千万不相同的url。 2.如果这十亿条,重复机会很多,最大重复次数能达到几百万上千万的,也就是有几百上千个不同url。 多线程 是肯定的, 策略比较不简单

思路如下

首先遍历文件 a,对遍历到的 URL 求 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB。使用同样的方法遍历文件 b,把文件 b 中的 URL 分别存储到文件 b0, b1, b2, ..., b999 中。这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。那么接下来,我们只需要求出这 1000 对小文件中相同的 URL 就好了。

接着遍历 ai( ),把 URL 存储到一个 HashSet 集合中。然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

方法总结

分而治之,进行哈希取余;

对每个子文件进行 HashSet 统计。

用 tire树内容来自www.book1234.com请勿采集。

声明:以上内容并不代表本网赞同其观点。如有任何问题,请与不良与违法信息举报中心联系:513175919@qq.com。

www.book1234.com true http://www.book1234.com/q/20200913/20200913A09IFT00.html report 40666
娱乐时尚
  • 一亿个URL,怎样快速找出重复的URL
  • 如何在2亿个url中找到不重复的url(内存不足)
  • 设计个系统,存储100亿个url和属性信息,并可以更...
  • 如何找出a,b文件共同的url
  • 100亿个URL的存储,查找,删除,更新,添加
  • 怎么正确找出网页源文件里包含的所有URL
  • 如何从100个url中爬出每个商品的详细信息
  • 如何从字符串中提取出所有的url连接
  • 统计数亿条无序的url中出现频率最高的top10的思路...
  • 大量的URL字符串,如何从中去除重复的,优化时间空...
  • 历史文化
    真视界
    旅游美食
    精彩图文
    我爱我车
    母婴健康
    关于本站 | 广告服务 | 手机版 | 商务合作 | 免责申明 | 招聘信息 | 联系我们
    Copyright © 2004-2018 book1234.com All Rights Reserved. 布客网 版权所有
    京ICP备10044368号-1 京公网安备11010802011102号