ArchiveBox

Sitio web

  • Libre
  • Mac
  • Windows
  • Linux
  • Self-Hosted
  • Docker
Description

Debido a que los sitios web modernos son complicados y con frecuencia dependen de contenido dinámico, ArchiveBox archiva los sitios en varios formatos diferentes, más allá de lo que los servicios públicos de archivo como Archive.org y Archive.is pueden guardar.

ArchiveBox importa una lista de URL de stdin, url remoto o archivo, luego agrega las páginas a una carpeta de archivo local usando wget para crear un clon html navegable, youtube-dl para extraer medios, y una instancia completa de Chrome para PDF, captura de pantalla, y volcados de DOM, y más ...

El uso de múltiples métodos y el navegador dominante en el mercado para ejecutar JS garantiza que podamos guardar incluso los sitios web más complejos y meticulosos en al menos unos pocos -calidad, formatos de datos a largo plazo.

### Puede importar enlaces desde:

- Pocket, Pinboard, Instapaper
- RSS, XML, JSON o listas de texto sin formato
- Historial del navegador o marcadores (Chrome, Firefox, Safari, IE, Opera y más)
- Shaarli, Delicious, Reddit Saved Post, Wallabag, Unmark.it y cualquier otro ¡otro texto con enlaces en él!

### Puede guardar estas cosas para cada sitio:

-` favicon.ico` favicon del sitio
- `example.com / page-name.html` wget clon del sitio, con .html adjunto si no está presente
-` output.pdf` Impreso PDF del sitio utilizando Chrome sin cabeza
- `screenshot.png` 1440x900 captura de pantalla del sitio usando Chrome sin cabeza
-` output.html` DOM Volcado del HTML después del renderizado usando Chrome sin cabeza
- `archive.org. txt` Un enlace al sitio guardado en archive.org
- `warc /` para html + gzipped warc file & lt; timestamp & gt; .gz
- `media /` cualquier mp4, mp3, subtítulos y metadatos encontrados usando youtube-dl
- `git /` clon de cualquier repositorio de enlaces de github, bitbucket o gitlab
- `index.html` & amp; `index.json` archivos de índice HTML y JSON que contienen metadatos y detalles

El archivo es aditivo, por lo que puede programar`. / archive` para que se ejecute regularmente y obtenga nuevos enlaces en el índice .
Todo el contenido guardado es estático e indexado con archivos JSON, por lo que vive para siempre & amp; es fácilmente analizable, no requiere un backend que se ejecute siempre.

Categorías
Aplicaciones de administración y red

Alternativas