Apache Nutch

Sitio web

  • Libre
  • Mac
  • Windows
  • Linux
Description

Apache Nutch es un proyecto de software de rastreo web de código abierto muy extensible y escalable.

Nutch está totalmente codificado en el lenguaje de programación Java, pero los datos están escritos en formatos independientes del lenguaje. Tiene una arquitectura altamente modular, lo que permite a los desarrolladores crear complementos para el análisis de tipo de medios, la recuperación de datos, la consulta y el agrupamiento.

El fetcher ("robot" o "rastreador web") se ha escrito desde Rasguño específicamente para este proyecto.

Categorías

Alternativas