Apache Nutch es un proyecto de software de rastreo web de código abierto muy extensible y escalable.
Nutch está totalmente codificado en el lenguaje de programación Java, pero los datos están escritos en formatos independientes del lenguaje. Tiene una arquitectura altamente modular, lo que permite a los desarrolladores crear complementos para el análisis de tipo de medios, la recuperación de datos, la consulta y el agrupamiento.
El fetcher ("robot" o "rastreador web") se ha escrito desde Rasguño específicamente para este proyecto.
Apache Nutch Comentarios
Todavía no hay comentarios