域名采集工具

域名采集采集工具

  1. (免费)GitHub - simapple/spider: python爬虫 全球网址URL滚动提取 (感觉效果不佳)
    版本1 功能简述: 以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息

  2. (收费)网络爬虫域名采集器-有效网站域名批量采集工具_软件_九戒软件 (感觉效果不佳)
    软件工作原理是从一个初始网址中,查找外部网站,比如初始页面中有30个外部网站,那就继续爬取这30个外本网站,
    可以正常访问的就收录进数据库,并且在这30个网站中再次查找外部网站如果每个站有30个外部网站,那就是30*30=900个
    然后再访问这900个网站剔除无法访问的,找到正常访问的剔除重复加入数据库,然后再查找他们页面中的外部网站,如需往复

思路知道就是不会写,一个网友需要,正好我也想要,我相信大部分想要,大概说一下把,
譬如:输入网址 https://forum.90sec.com/

  1. 然后爬网全站内容(慢)或者只爬行主页(应该会快很多)(最好是识别302跳转),
  2. 使用排查类型或者限定类型(如:html,htm,aspx,asp,php,jsp,主要还有js)。提取里面 https:// 和 http://开头 和 www.开头的(能有更好的规则提取网址就更好),最好入库之前一个网站入库不要超过50个(判断是否已经爬行过和加一个域名黑名单列表如常见的js里面出现的域名和github.com,*.qq.com, *.baidu.com 等国内统计等网址)
  3. 循环提取到的网址,循环爬行。可以设置抓取多少条或者循环多少级,能分级对应循环网站保存就最好,比较好针对性筛选,如forum.90sec.com 抓取到 ,www.baidu.comwww.qq.comwww.baidu.com 有抓取到 tieba.baidu.comwww.qq.com 抓取到 www.taobao.com

一级目录 里面文件名:forum.90sec.com.txt 内容是 www.baidu.comwww.qq.com
一级目录里面有两个文件夹 www.baidu.comwww.qq.com
二级目录 里面www.baidu.com目录里 文件名www.baidu.com.txt 内容是 tieba.baidu.com和其他 同时创建内容文件名目录 。
二级目录 里面 www.qq.com 目录里文件名 www.qq.com.txt 内容是www.taobao.com和其他 同时创建内容文件名目录。

如果有类似的成品希望推荐下。

all for one 这个应该满足你的要求

现在纯get 很难采集了。
网页都是各种防护 和动态链接
要么就js生成。
不上无头浏览器,应该很难,,

期待你的成品

这个已经有做出来了.之前还用过.效果很NB的哈哈

真的吗分享我用用

可以试试crawlergo 开源爬虫工具,不过对有验证的动态加载无法爬取;所以效果最好的还是开发Chrome-headless去控制浏览器访问,但是速度慢,资源占用多