如何快速编写一个暗网爬虫

对于暗网想必不用我过多解释,在https://www.torproject.org/download 下载Tor Browser安装即可,当然国内得配合SS使用。

但我们作为一名爬虫工程师,如何写爬虫去访问暗网网址才是我们需要的;如何最简单的实现暗网爬取呢?

首先需要一台香港的服务器,阿里云百度云谷歌云的都可以,省的翻墙。接下来开始安装必要的服务,SSH登录后以root用户执行如下命令即可:

apt -y install tor
echo "SocksPort 0.0.0.0:9150 #允许通过外网访问">>/etc/tor/torrc
echo "RunAsDaemon 1 #后台运行">>/etc/tor/torrc
/etc/init.d/tor restart

接下来我们需要设置安全组,放行9150端口,如下图所示:

然后使用Jsoup请求即可,以暗网的DuckDuckGo的官网首页https://3g2upl4pq6kufc4m.onion为例:

Connection.Response response = Jsoup.connect("https://3g2upl4pq6kufc4m.onion")
        .proxy(new Proxy(Proxy.Type.SOCKS, new InetSocketAddress("149.129.93.179", 9150)))
        .method(Connection.Method.GET)
        .execute();
System.err.println(response.body());

到这里呢,我们就已经可以通过Jsoup来请求暗网了,然后接下来的操作就看各位的需要了。欢迎各位加我微信共同探讨!

未经允许不得转载:鹞之神乐 » 如何快速编写一个暗网爬虫

赞 (2) 打赏

回复 啊啊点击这里取消回复。

8+4=

  1. 啊啊

    老哥可不可以用暗网代理访问某个网站将暗网作为免费的代理池呢

    回复
    • Kagura

      是有用暗网做代理的,你可以找找

      回复

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏