Cara Membuat Arsip Web Dengan Kotak Arsip
.
Archivebox adalah program pengarsipan yang mudah digunakan yang memungkinkan Anda membuat snapshot akurat dari situs web apa pun. Ini dapat membantu arsiparis dan pengguna yang ingin menyimpan informasi secara online. Tidak hanya itu, Archivebox juga sangat sederhana dan mudah digunakan. Misalnya, Anda dapat menjalankan program baik sebagai alat baris perintah maupun sebagai aplikasi web yang dapat Anda akses di mana saja.
Mengapa Anda Harus Mengarsipkan Situs Web?
Selama bertahun-tahun, World Wide Web memungkinkan individu di seluruh dunia untuk dengan mudah berbagi dan mengkomunikasikan informasi satu sama lain. Satu masalah dengan Web, bagaimanapun, adalah bahwa situs web tidak bertahan dari waktu ke waktu.
Sebagian besar situs web hanya tetap aktif selama sekitar dua hingga lima tahun. Setelah itu, mereka offline sepenuhnya atau digantikan oleh situs web yang berbeda sama sekali. Misalnya, ada sedikit atau tidak ada situs web dari tahun 1990-an yang masih online sampai sekarang.
Atau, Anda juga dapat menggunakan mesin WayBack untuk mengarsipkan situs web – tidak perlu instalasi.
Persyaratan Kotak Arsip
Sebelum Anda dapat menginstal Archivebox, Anda harus memastikan bahwa Anda memiliki sumber daya berikut:
- Sebuah mesin yang dapat Anda akses dari luar jaringan rumah Anda. Ini bisa berupa mesin di rumah yang dapat Anda port-forward atau VPS jarak jauh yang disewa.
- Mesin Anda harus memiliki jumlah ruang penyimpanan yang memadai. Dalam kebanyakan kasus, disk 1TB harus dapat menyimpan antara 100.000 hingga 1.000.000 halaman web individual.
- Sistem file mesin Anda harus EXT4 atau ZFS agar Archivebox berfungsi dengan baik.
Catatan: tutorial ini berfokus pada menginstal dan mengkonfigurasi Archivebox pada mesin Ubuntu 22.04 LTS lokal.
Memasang Kotak Arsip
Pertama, instal dependensi program. Buka terminal dan ketik perintah berikut:
sudo apt install python3 nodejs python3-pip nginx npm npm install --no-audit --no-fund 'git+https://github.com/gildas-lormeau/SingleFile.git' npm install --no-audit --no-fund 'git+https://github.com/ArchiveBox/readability-extractor.git' npm install --no-audit --no-fund '@postlight/mercury-parser'

Instal Archivebox melalui Python PIP:
pip3 install archivebox PATH=$PATH:/home/$USER/.local/bin

Selanjutnya, buat folder tempat Archivebox akan menyimpan semua datanya. Dalam kasus saya, saya membuat direktori saya di direktori “/ home/archivebox” saya:
mkdir /home/$USER/abox-data && cd /home/$USER/abox-data
Terakhir, Anda dapat menyelesaikan instance Archivebox Anda dengan menjalankan perintah berikut untuk mengunduh dan mengonfigurasi semua patch Python yang perlu dijalankan oleh program di mesin Anda.

Anda akan dimintai detail pengguna pertama.

Periksa apakah Anda telah menginstal Archivebox dengan benar dengan menjalankan:
Menyiapkan GUI Web
Meskipun Archivebox dapat digunakan dengan sempurna sebagai utilitas baris perintah, program ini juga dapat diakses melalui antarmuka web. Ini berguna jika Anda ingin berbagi Archivebox dengan pengguna lain atau mengakses program di luar server Anda.
Untuk meng-host GUI web, Anda perlu membuat proxy terbalik Nginx untuk mengarahkan lalu lintas web yang masuk ke daemon Archivebox.
Buat file konfigurasi Nginx baru:
sudo nano /etc/nginx/sites-available/archivebox
Salin dan tempel kode berikut, ubah server_name
ke nama domain Anda sendiri:
server { listen 80; listen [::]:80; root /home/archivebox/abox-data; server_name yetanotherarchivebox.xyz www.yetanotherarchivebox.xyz; location / { proxy_pass http://127.0.0.1:8000; } }
Aktifkan konfigurasi Kotak Arsip:
sudo ln -s /etc/nginx/sites-available/archivebox /etc/nginx/sites-enabled/
Mulai ulang Nginx dan mulai daemon Archivebox:
sudo systemctl restart nginx archivebox server 0.0.0.0:8000

Mengarsipkan Situs Web Pertama Anda
Buka browser web Anda dan akses instance Archivebox melalui nama domain Anda. Dalam kasus saya, saya akan pergi ke “yetanotherarchivebox.xyz.”

Klik tombol “LOG IN” di pojok kanan atas halaman web.

Masukkan kredensial pengguna Anda untuk masuk ke utilitas.

Arsipkan situs web pertama Anda dengan menekan tombol “Tambah” di bilah sisi atas halaman.

Ini akan memuat kotak dialog besar, tempat Anda dapat menambahkan daftar tautan web yang ingin Anda arsipkan. Dalam kasus saya, saya menambahkan “https://maketecheasier.com.”

Selanjutnya, Anda dapat memilih berbagai opsi untuk mengarsipkan situs web Anda. Misalnya, Anda dapat memberikan satu set tag untuk tautan Anda untuk mengurutkannya dengan benar.

Selanjutnya, Anda dapat memberi tahu Archivebox untuk menyimpan konten tautan langsung apa pun di halaman yang ingin Anda arsipkan. Ini berguna jika Anda ingin mempertahankan konteks situs web.

Klik tombol “Tambahkan URL dan Arsip” untuk memulai proses pengarsipan. Dalam kebanyakan kasus, ini hanya membutuhkan waktu antara satu dan dua menit.

Mengarsipkan Situs Web Menggunakan Baris Perintah
Untuk mengarsipkan halaman web dari baris perintah, jalankan perintah berikut:
cd /home/$USER/abox-data archivebox add --depth=1 https://maketecheasier.com

Selanjutnya, Anda juga dapat menggunakan add
subperintah untuk mengarsipkan daftar tautan web. Misalnya, menjalankan perintah berikut akan memberi tahu Archivebox untuk menyimpan setiap tautan di file “bookmarks.txt” saya:
archivebox add < /home/$USER/bookmarks.txt

Terakhir, dimungkinkan juga untuk membuat arsip mandiri dari satu halaman web. Untuk melakukannya, jalankan perintah berikut:
archivebox oneshot https://maketecheasier.com

Menyesuaikan Kotak Arsip
Anda juga dapat menyesuaikan cara Archivebox memperoleh halaman yang disimpannya. Misalnya, Anda hanya dapat menyimpan tangkapan layar dari setiap halaman web yang Anda arsipkan.
Ini berguna bagi pengguna yang ingin menghemat ruang disk saat menyimpan situs web. Untuk menonaktifkan format lain, Anda perlu menjalankan perintah berikut:
archivebox config --set SAVE_WGET=False archivebox config --set SAVE_WARC=False archivebox config --set SAVE_PDF=False archivebox config --set SAVE_SINGLEFILE=False archivebox config --set SAVE_READABILITY=False archivebox config --set SAVE_MERCURY=False

Menambahkan Pengguna Baru di Kotak Arsip
Untuk menambahkan pengguna baru, kembali ke GUI web dan klik tombol “ADMIN” di bilah atas halaman.

Setelah berada di dalam Panel Admin, buka kategori “Otentikasi dan Otorisasi” dan pilih “Pengguna.”

Ini akan mencantumkan semua pengguna aktif dalam sistem. Pilih tombol “Tambah Pengguna +” di pojok kanan atas halaman.

Mirip dengan menambahkan pengguna ke grup Linux, proses pembuatan pengguna di Archivebox bisa rumit. Meskipun demikian, pengguna baru hanya memerlukan tiga hal untuk berfungsi dengan baik: nama pengguna, kata sandi, dan satu set izin pengguna.
Untuk membuat pengguna baru, pertama-tama berikan kata sandi.

Setelah itu, pilih izin pengguna untuk pengguna tersebut. Dalam kebanyakan kasus, Anda hanya perlu mengaktifkan opsi berikut untuk pengguna biasa:
core | archive result | Can add archive result core | archive result | Can change archive result core | archive result | Can view archive result core | snapshot | Can add snapshot core | snapshot | Can change snapshot core | snapshot | Can view snapshot core | tag | Can add Tag core | tag | Can change Tag core | tag | Can view Tag sessions | session | Can add session sessions | session | Can change session sessions | session | Can view session

Berikan nama pengguna untuk akun pengguna baru. Dalam kasus saya, saya menggunakan nama “alice.”

Terakhir, pilih tombol “SIMPAN” di sudut kanan bawah halaman untuk menerapkan perubahan Anda.

Pertanyaan yang Sering Diajukan
Bagaimana saya bisa mengatasi kesalahan “Gagal menginstal paket Python”?
Ini terjadi karena bug di Archivebox yang mencegahnya menemukan binari yang dicari. Meskipun demikian, kesalahan ini hanya mempengaruhi sebagian kecil dari program dan tidak akan merusak integritas arsip Anda.
Salah satu cara untuk mengurangi masalah ini adalah dengan memastikan bahwa instalasi Anda selalu up to date. Lakukan itu dengan berlari pip3 install --upgrade archivebox
.
Bagaimana saya bisa memperbaiki kesalahan “HTTPSConnectionPool” setiap kali saya menyimpan situs web?
Kesalahan ini terjadi setiap kali situs web tidak memiliki versi HTTPS yang valid. Perbaiki masalah ini dengan memaksa Archivebox untuk mengarsipkan melalui HTTP. Misalnya lari archivebox add http://insecurewebsite.com
akan memaksa program untuk menggunakan HTTP.
Apa yang dapat saya lakukan ketika akun pengguna baru saya tidak dapat mengarsipkan situs web?
Masalah ini kemungkinan besar disebabkan oleh pengaturan izin yang hilang pada akun pengguna baru Anda. Salah satu cara untuk memperbaiki masalah ini dengan cepat adalah dengan memastikan bahwa akun pengguna baru Anda memiliki core | snapshot | Can add snapshot
izin.
Kredit gambar: Hapus percikan. Semua perubahan dan tangkapan layar oleh Ramces Red.
Berlangganan newsletter kami!
Tutorial terbaru kami dikirim langsung ke kotak masuk Anda