如何快速编写一个暗网爬虫

对于暗网想必不用我过多解释,在https://www.torproject.org/download 下载Tor Browser安装即可,当然国内得配合SS使用。

但我们作为一名爬虫工程师,如何写爬虫去访问暗网网址才是我们需要的;如何最简单的实现暗网爬取呢?

首先需要一台香港的服务器,阿里云百度云谷歌云的都可以,省的翻墙。接下来开始安装必要的服务,SSH登录后以root用户执行如下命令即可:

apt -y install tor
echo "SocksPort 0.0.0.0:9150 #允许通过外网访问">>/etc/tor/torrc
echo "RunAsDaemon 1 #后台运行">>/etc/tor/torrc
/etc/init.d/tor restart

接下来我们需要设置安全组,放行9150端口,如下图所示:

然后使用Jsoup请求即可,以暗网的DuckDuckGo的官网首页https://3g2upl4pq6kufc4m.onion为例:

Connection.Response response = Jsoup.connect("https://3g2upl4pq6kufc4m.onion")
        .proxy(new Proxy(Proxy.Type.SOCKS, new InetSocketAddress("149.129.93.179", 9150)))
        .method(Connection.Method.GET)
        .execute();
System.err.println(response.body());

到这里呢,我们就已经可以通过Jsoup来请求暗网了,然后接下来的操作就看各位的需要了。欢迎各位加我微信共同探讨!

未经允许不得转载:鹞之神乐 » 如何快速编写一个暗网爬虫

赞 (2) 打赏

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏