Cara Membuat Arsip Web Dengan Kotak Arsip
.

Archivebox adalah program pengarsipan yang mudah digunakan yang memungkinkan Anda membuat snapshot akurat dari situs web apa pun. Ini dapat membantu arsiparis dan pengguna yang ingin menyimpan informasi secara online. Tidak hanya itu, Archivebox juga sangat sederhana dan mudah digunakan. Misalnya, Anda dapat menjalankan program baik sebagai alat baris perintah maupun sebagai aplikasi web yang dapat Anda akses di mana saja.

Mengapa Anda Harus Mengarsipkan Situs Web?

Selama bertahun-tahun, World Wide Web memungkinkan individu di seluruh dunia untuk dengan mudah berbagi dan mengkomunikasikan informasi satu sama lain. Satu masalah dengan Web, bagaimanapun, adalah bahwa situs web tidak bertahan dari waktu ke waktu.

Sebagian besar situs web hanya tetap aktif selama sekitar dua hingga lima tahun. Setelah itu, mereka offline sepenuhnya atau digantikan oleh situs web yang berbeda sama sekali. Misalnya, ada sedikit atau tidak ada situs web dari tahun 1990-an yang masih online sampai sekarang.

Atau, Anda juga dapat menggunakan mesin WayBack untuk mengarsipkan situs web – tidak perlu instalasi.

Persyaratan Kotak Arsip

Sebelum Anda dapat menginstal Archivebox, Anda harus memastikan bahwa Anda memiliki sumber daya berikut:

  • Sebuah mesin yang dapat Anda akses dari luar jaringan rumah Anda. Ini bisa berupa mesin di rumah yang dapat Anda port-forward atau VPS jarak jauh yang disewa.
  • Mesin Anda harus memiliki jumlah ruang penyimpanan yang memadai. Dalam kebanyakan kasus, disk 1TB harus dapat menyimpan antara 100.000 hingga 1.000.000 halaman web individual.
  • Sistem file mesin Anda harus EXT4 atau ZFS agar Archivebox berfungsi dengan baik.

Catatan: tutorial ini berfokus pada menginstal dan mengkonfigurasi Archivebox pada mesin Ubuntu 22.04 LTS lokal.

Memasang Kotak Arsip

Pertama, instal dependensi program. Buka terminal dan ketik perintah berikut:

sudo apt install python3 nodejs python3-pip nginx npm
npm install --no-audit --no-fund 'git+https://github.com/gildas-lormeau/SingleFile.git'
npm install --no-audit --no-fund 'git+https://github.com/ArchiveBox/readability-extractor.git'
npm install --no-audit --no-fund '@postlight/mercury-parser'
Instal Archivebox Linux 06 Instal Dependensi

Instal Archivebox melalui Python PIP:

pip3 install archivebox
PATH=$PATH:/home/$USER/.local/bin
Instal Archivebox Linux 07 Instal Archivebox Binary

Selanjutnya, buat folder tempat Archivebox akan menyimpan semua datanya. Dalam kasus saya, saya membuat direktori saya di direktori “/ home/archivebox” saya:

mkdir /home/$USER/abox-data && cd /home/$USER/abox-data

Terakhir, Anda dapat menyelesaikan instance Archivebox Anda dengan menjalankan perintah berikut untuk mengunduh dan mengonfigurasi semua patch Python yang perlu dijalankan oleh program di mesin Anda.

Instal Archivebox Linux 08 Buat Repositori Archivebox Baru

Anda akan dimintai detail pengguna pertama.

Instal Archivebox Linux 09 Buat Pengguna Archivebox Baru

Periksa apakah Anda telah menginstal Archivebox dengan benar dengan menjalankan:

Baca Juga:  Mandela Barnes Memuji Pendeta Jeremiah Wright Setelah Pidato Menuduh Israel 'Pembersihan Etnis'

Menyiapkan GUI Web

Meskipun Archivebox dapat digunakan dengan sempurna sebagai utilitas baris perintah, program ini juga dapat diakses melalui antarmuka web. Ini berguna jika Anda ingin berbagi Archivebox dengan pengguna lain atau mengakses program di luar server Anda.

Untuk meng-host GUI web, Anda perlu membuat proxy terbalik Nginx untuk mengarahkan lalu lintas web yang masuk ke daemon Archivebox.

Buat file konfigurasi Nginx baru:

sudo nano /etc/nginx/sites-available/archivebox

Salin dan tempel kode berikut, ubah server_name ke nama domain Anda sendiri:

server {
       listen 80;
       listen [::]:80;
 
       root /home/archivebox/abox-data;
 
       server_name yetanotherarchivebox.xyz www.yetanotherarchivebox.xyz;
 
       location / {
                  proxy_pass http://127.0.0.1:8000;
       }
}

Aktifkan konfigurasi Kotak Arsip:

sudo ln -s /etc/nginx/sites-available/archivebox /etc/nginx/sites-enabled/

Mulai ulang Nginx dan mulai daemon Archivebox:

sudo systemctl restart nginx
archivebox server 0.0.0.0:8000
Instal Archivebox Linux 11 Luncurkan Web Gui

Mengarsipkan Situs Web Pertama Anda

Buka browser web Anda dan akses instance Archivebox melalui nama domain Anda. Dalam kasus saya, saya akan pergi ke “yetanotherarchivebox.xyz.”

Instal Archivebox Linux 12 Web Gui Menjalankan

Klik tombol “LOG IN” di pojok kanan atas halaman web.

Instal Archivebox Linux 13 Sorot Tombol Masuk

Masukkan kredensial pengguna Anda untuk masuk ke utilitas.

Instal Layar Dialog Masuk Archivebox Linux 14

Arsipkan situs web pertama Anda dengan menekan tombol “Tambah” di bilah sisi atas halaman.

Instal Archivebox Linux 15 Sorot Tombol Tambah

Ini akan memuat kotak dialog besar, tempat Anda dapat menambahkan daftar tautan web yang ingin Anda arsipkan. Dalam kasus saya, saya menambahkan “https://maketecheasier.com.”

Instal Archivebox Linux 16 Tambahkan Url Ke Arsip

Selanjutnya, Anda dapat memilih berbagai opsi untuk mengarsipkan situs web Anda. Misalnya, Anda dapat memberikan satu set tag untuk tautan Anda untuk mengurutkannya dengan benar.

Instal Archivebox Linux 17 Contoh Tag

Selanjutnya, Anda dapat memberi tahu Archivebox untuk menyimpan konten tautan langsung apa pun di halaman yang ingin Anda arsipkan. Ini berguna jika Anda ingin mempertahankan konteks situs web.

Instal Archivebox Linux 18 Pilih Kedalaman Arsip

Klik tombol “Tambahkan URL dan Arsip” untuk memulai proses pengarsipan. Dalam kebanyakan kasus, ini hanya membutuhkan waktu antara satu dan dua menit.

Instal Halaman Pengarsipan Archivebox Linux 19

Mengarsipkan Situs Web Menggunakan Baris Perintah

Untuk mengarsipkan halaman web dari baris perintah, jalankan perintah berikut:

cd /home/$USER/abox-data
archivebox add --depth=1 https://maketecheasier.com
Instal Archivebox Linux 20 Pengarsipan Cl

Selanjutnya, Anda juga dapat menggunakan add subperintah untuk mengarsipkan daftar tautan web. Misalnya, menjalankan perintah berikut akan memberi tahu Archivebox untuk menyimpan setiap tautan di file “bookmarks.txt” saya:

archivebox add < /home/$USER/bookmarks.txt
Instal Archivebox Linux 21 Pengarsipan Daftar Url

Terakhir, dimungkinkan juga untuk membuat arsip mandiri dari satu halaman web. Untuk melakukannya, jalankan perintah berikut:

archivebox oneshot https://maketecheasier.com
Instal Archivebox Linux 22 Contoh Oneshot

Menyesuaikan Kotak Arsip

Anda juga dapat menyesuaikan cara Archivebox memperoleh halaman yang disimpannya. Misalnya, Anda hanya dapat menyimpan tangkapan layar dari setiap halaman web yang Anda arsipkan.

Baca Juga:  Kandidat Gubernur Oregon Mendukung Penculik Pengedar Narkoba untuk State House

Ini berguna bagi pengguna yang ingin menghemat ruang disk saat menyimpan situs web. Untuk menonaktifkan format lain, Anda perlu menjalankan perintah berikut:

archivebox config --set SAVE_WGET=False
archivebox config --set SAVE_WARC=False
archivebox config --set SAVE_PDF=False
archivebox config --set SAVE_SINGLEFILE=False
archivebox config --set SAVE_READABILITY=False
archivebox config --set SAVE_MERCURY=False
Instal Archivebox Linux 23 Sesuaikan Archivebox

Menambahkan Pengguna Baru di Kotak Arsip

Untuk menambahkan pengguna baru, kembali ke GUI web dan klik tombol “ADMIN” di bilah atas halaman.

Instal Archivebox Linux 24 Tombol Admin Sorotan

Setelah berada di dalam Panel Admin, buka kategori “Otentikasi dan Otorisasi” dan pilih “Pengguna.”

Instal Archivebox Linux 25 Pilih Tautan Pengguna

Ini akan mencantumkan semua pengguna aktif dalam sistem. Pilih tombol “Tambah Pengguna +” di pojok kanan atas halaman.

Instal Archivebox Linux 26 Tambahkan Tombol Pengguna Sorot

Mirip dengan menambahkan pengguna ke grup Linux, proses pembuatan pengguna di Archivebox bisa rumit. Meskipun demikian, pengguna baru hanya memerlukan tiga hal untuk berfungsi dengan baik: nama pengguna, kata sandi, dan satu set izin pengguna.

Untuk membuat pengguna baru, pertama-tama berikan kata sandi.

Instal Archivebox Linux 27 Masukkan Kata Sandi Pengguna Baru

Setelah itu, pilih izin pengguna untuk pengguna tersebut. Dalam kebanyakan kasus, Anda hanya perlu mengaktifkan opsi berikut untuk pengguna biasa:

core | archive result | Can add archive result
core | archive result | Can change archive result
core | archive result | Can view archive result
core | snapshot | Can add snapshot
core | snapshot | Can change snapshot
core | snapshot | Can view snapshot
core | tag | Can add Tag
core | tag | Can change Tag
core | tag | Can view Tag
sessions | session | Can add session
sessions | session | Can change session
sessions | session | Can view session
Instal Archivebox Linux 28 Pilih Izin Pengguna Baru

Berikan nama pengguna untuk akun pengguna baru. Dalam kasus saya, saya menggunakan nama “alice.”

Instal Archivebox Linux 29 Pilih Nama Pengguna Pengguna Baru

Terakhir, pilih tombol “SIMPAN” di sudut kanan bawah halaman untuk menerapkan perubahan Anda.

Instal Archivebox Linux 30 Simpan Pengguna Baru

Pertanyaan yang Sering Diajukan

Bagaimana saya bisa mengatasi kesalahan “Gagal menginstal paket Python”?

Ini terjadi karena bug di Archivebox yang mencegahnya menemukan binari yang dicari. Meskipun demikian, kesalahan ini hanya mempengaruhi sebagian kecil dari program dan tidak akan merusak integritas arsip Anda.

Baca Juga:  ZOOZ Power telah menandatangani Nota Kesepahaman, dengan penyedia layanan persewaan mobil terkemuka di dunia, untuk pembangunan dan pengoperasian stasiun pengisian daya ultra-cepat di AS, yang berfungsi sebagai situs Percontohan yang akan beroperasi di Bandara LaGuardia di New York

Salah satu cara untuk mengurangi masalah ini adalah dengan memastikan bahwa instalasi Anda selalu up to date. Lakukan itu dengan berlari pip3 install --upgrade archivebox.

Bagaimana saya bisa memperbaiki kesalahan “HTTPSConnectionPool” setiap kali saya menyimpan situs web?

Kesalahan ini terjadi setiap kali situs web tidak memiliki versi HTTPS yang valid. Perbaiki masalah ini dengan memaksa Archivebox untuk mengarsipkan melalui HTTP. Misalnya lari archivebox add http://insecurewebsite.com akan memaksa program untuk menggunakan HTTP.

Apa yang dapat saya lakukan ketika akun pengguna baru saya tidak dapat mengarsipkan situs web?

Masalah ini kemungkinan besar disebabkan oleh pengaturan izin yang hilang pada akun pengguna baru Anda. Salah satu cara untuk memperbaiki masalah ini dengan cepat adalah dengan memastikan bahwa akun pengguna baru Anda memiliki core | snapshot | Can add snapshot izin.

Kredit gambar: Hapus percikan. Semua perubahan dan tangkapan layar oleh Ramces Red.

Ramces Merah
Ramces Merah

Ramces adalah seorang penulis teknologi yang hidup dengan komputer sepanjang hidupnya. Seorang pembaca yang produktif dan mahasiswa Antropologi, dia adalah karakter eksentrik yang menulis artikel tentang Linux dan apa pun * nix.

Berlangganan newsletter kami!

Tutorial terbaru kami dikirim langsung ke kotak masuk Anda

 

SERING DIPERTANYAKAN :

 

WhatsApp chat