Hello 大家好!我是在2024年依然对这个荒诞的世界抱有热情的超级神奇的神奇君!
之前在【工具分享】免费的互联网档案库,一起搭乘时光机 这篇文章中,我们分享了一个免费的互联网档案库。不过,这个网站虽然涉猎比较广泛,涵盖了大多主流的内容,但是可能无法涵盖到我们自己比较感兴趣的一些小众内容。那么今天神奇君就来为大家分享一款开源软件ArchiveBox,利用这个工具我们可以搭建属于自己的互联网档案库,用来保存一些对我们比较重要的内容。老规矩,软件的开源代码仓库地址我放在了最后,动手能力强的小伙伴可以直接复制仓库地址直接去看它的官方文档。
不过这个系统如果想要搭建成功,需要你有一些简单的基础知识,比如Linux、Docker等等。
如果对于Linux不熟悉的小伙伴可以看看我之前的文章,很简单,几分钟就可以学会。
【技术分享】小白如何学习Linux?从VirtualBox虚拟机软件开始,1分钟教程!
【技术分享】小白如何学习Linux?安装一台Linux虚拟机,3分钟学会!
【技术分享】小白如何学习Linux?会使用Linux的Shell,你就会了全部,5分钟学会!
ArchiveBox基本使用
首先来介绍一下它的界面,安装好之后,打开它的首页是这个样子的,需要用创建好的用户登录一下:
我们增加一个档案,保存最新的腾讯网首页。可以同时批量提交URL,一行一个即可。并且它的存档支持多种格式、截图、PDF都可以,如果不选就默认所有的格式都保存。我们这里选择dom吧,这样更有利于我们将来提取要素:
填好之后点击保存,后台就开始处理了:
创建好之后展示在首页:
等待它全部保存完成之后,我们可以“H”点击查看这个网页的DOM归档:
几乎把所有信息都提取过来了,非常的完美。我们再来试试其他的类型,以搜狗搜索的首页为例,添加好之后是这样的:
我们点击Screenshot,也就是右边的电脑图标,代表截图归档,点进去看:
截图已经给我们生成好了,我们再来看看PDF:
好了,就介绍到这里,下面再来谈谈如何自己搭建ArchiveBox。
ArchiveBox安装(通过Docker)
说说它的安装,如果你会Docker,那就很简单,只需要两条命令就可以部署起来。如果你还不会Docker,推荐阅读我之前写的文章,先学习一下Docker的使用。
在安装了Docker的机器上,我们首先需要拉取这个镜像。注意可能需要切换到root进行操作。如果是普通用户,而这个用户运行docker的时候提示一下错误,那么需要将这个用户加入到docker组里,然后重启一下Linux机器:
执行以下命令拉取archivebox镜像:
1 | docker pull archivebox/archivebox |
等待镜像拉取好之后,我们接着要创建一个目录,并且映射到运行的archivebox容器中,目录的名字可以随便取,比如这里我们叫archivebox,路径位于~/,也就是我们用户的根目录:
1 | mkdir ~/archivebox |
然后我们创建并运行容器,执行初始化操作:
1 | docker run -v ~/archivebox:/data -it archivebox/archivebox init --setup |
提示我们创建用户名和邮件地址、密码,默认就是archivebox,直接回车:
邮件我们填写自己的,密码自己设置一个,这里设置的过于简单还被警示了:
这就设置好了,接下来我们启动容器:
1 | docker run -v ~/archivebox:/data -p 8000:8000 --name archivebox archivebox/archivebox |
接着我们用浏览器访问本机的8000端口,即可
最后分享下它的开源仓库地址: