ArchiveBox网页归档工具,搭建自己的互联网档案库

1.6k 词

Hello 大家好!我是在2024年依然对这个荒诞的世界抱有热情的超级神奇的神奇君!

之前在【工具分享】免费的互联网档案库,一起搭乘时光机 这篇文章中,我们分享了一个免费的互联网档案库。不过,这个网站虽然涉猎比较广泛,涵盖了大多主流的内容,但是可能无法涵盖到我们自己比较感兴趣的一些小众内容。那么今天神奇君就来为大家分享一款开源软件ArchiveBox,利用这个工具我们可以搭建属于自己的互联网档案库,用来保存一些对我们比较重要的内容。老规矩,软件的开源代码仓库地址我放在了最后,动手能力强的小伙伴可以直接复制仓库地址直接去看它的官方文档。

不过这个系统如果想要搭建成功,需要你有一些简单的基础知识,比如Linux、Docker等等。

如果对于Linux不熟悉的小伙伴可以看看我之前的文章,很简单,几分钟就可以学会。

【技术分享】小白如何学习Linux?从VirtualBox虚拟机软件开始,1分钟教程!

【技术分享】小白如何学习Linux?安装一台Linux虚拟机,3分钟学会!

【技术分享】小白如何学习Linux?会使用Linux的Shell,你就会了全部,5分钟学会!

ArchiveBox基本使用

首先来介绍一下它的界面,安装好之后,打开它的首页是这个样子的,需要用创建好的用户登录一下:

我们增加一个档案,保存最新的腾讯网首页。可以同时批量提交URL,一行一个即可。并且它的存档支持多种格式、截图、PDF都可以,如果不选就默认所有的格式都保存。我们这里选择dom吧,这样更有利于我们将来提取要素:

填好之后点击保存,后台就开始处理了:

创建好之后展示在首页:

等待它全部保存完成之后,我们可以“H”点击查看这个网页的DOM归档:

几乎把所有信息都提取过来了,非常的完美。我们再来试试其他的类型,以搜狗搜索的首页为例,添加好之后是这样的:

我们点击Screenshot,也就是右边的电脑图标,代表截图归档,点进去看:

截图已经给我们生成好了,我们再来看看PDF:

好了,就介绍到这里,下面再来谈谈如何自己搭建ArchiveBox。

ArchiveBox安装(通过Docker)

说说它的安装,如果你会Docker,那就很简单,只需要两条命令就可以部署起来。如果你还不会Docker,推荐阅读我之前写的文章,先学习一下Docker的使用。

【技术分享】Docker的基本使用,小白必看

在安装了Docker的机器上,我们首先需要拉取这个镜像。注意可能需要切换到root进行操作。如果是普通用户,而这个用户运行docker的时候提示一下错误,那么需要将这个用户加入到docker组里,然后重启一下Linux机器:

执行以下命令拉取archivebox镜像:

1
docker pull archivebox/archivebox

等待镜像拉取好之后,我们接着要创建一个目录,并且映射到运行的archivebox容器中,目录的名字可以随便取,比如这里我们叫archivebox,路径位于~/,也就是我们用户的根目录:

1
mkdir ~/archivebox

然后我们创建并运行容器,执行初始化操作:

1
docker run -v ~/archivebox:/data -it archivebox/archivebox init --setup

提示我们创建用户名和邮件地址、密码,默认就是archivebox,直接回车:

邮件我们填写自己的,密码自己设置一个,这里设置的过于简单还被警示了:

这就设置好了,接下来我们启动容器:

1
docker run -v ~/archivebox:/data -p 8000:8000 --name archivebox archivebox/archivebox

接着我们用浏览器访问本机的8000端口,即可

最后分享下它的开源仓库地址:

https://github.com/ArchiveBox/ArchiveBox