Jsoup

编程开发

Kotlin多协程/多线程下载文件

1

Kotlin版本的多线程下载与Java版本的不同点主要在线程控制方面,Java是通过线程池来控制,而Kotlin版本则利用异步协程创建时传入”Dispatchers.IO“来使用多线程,并利用父协程会等待子协程执行完毕这点来简化协程/线程控制。 建议新建Spring boot项目并选择Kotlin,并将kotlin协程依赖加入,pom.xml主要内容如下: Kotlin多协...

阅读(4895)评论(3)赞 (1)

编程开发

如何快速编写一个暗网爬虫

2

对于暗网想必不用我过多解释,在https://www.torproject.org/download 下载Tor Browser安装即可,当然国内得配合SS使用。 但我们作为一名爬虫工程师,如何写爬虫去访问暗网网址才是我们需要的;如何最简单的实现暗网爬取呢? 首先需要一台香港的服务器,阿里云百度云谷歌云的都可以,省的翻墙。接下来开始安装必要的服务,SSH登录后以root用户执行如下命令即可: 接下...

阅读(6276)评论(2)赞 (2)

编程开发

将Jsoup请求得到的Document中的相对路径转换为绝对路径

在后端开发时经常在HTML页面使用相对路径,然而这个对于爬虫来说有时候却很难受,虽然Jsoup提供了.attr("abs:href")用来来获取绝对路径,但还是不够方便。 在HTML中href跟src是这两个属性是用来填url的,也是我们需要处理的地方,相对路径一般是/,./,../三种形式开头,所以我们要选出所有带以/,./,../开头的href或src属性的元素,这个操作可以浓缩成一个cssS...

阅读(4099)评论(1)赞 (0)