StormCrawler es un SDK de código abierto para crear rastreadores web distribuidos con Apache Storm. El proyecto está bajo la licencia Apache v2 y consiste en una colección de recursos y componentes reutilizables, escritos principalmente en Java.
El objetivo de StormCrawler es ayudar a construir rastreadores web que son:
escalable
resistente a baja latencia
fácil de extender
cortés pero eficiente
StormCrawler es una biblioteca y una colección de recursos que los desarrolladores pueden aprovechar para construir sus propios rastreadores. La buena noticia es que hacerlo puede ser bastante sencillo. A menudo, todo lo que tendrá que hacer será declarar el rastreador de tormentas como una dependencia de Maven, escribir su propia clase de topología (sugerencia: puede extender la topología configurable), reutilizar los componentes proporcionados por el proyecto y tal vez escribir un par de personalizados. para tu propia salsa secreta. Un poco de ajustes a la configuración y listo! ...
Además de los componentes principales, proporcionamos algunos recursos externos que puede reutilizar en su proyecto, como por ejemplo nuestro pico y pernos para ElasticSearch o un ParserBolt que usa Apache Tika para analizar varios formatos de documentos.
StormCrawler es perfectamente adecuado para casos de uso en los que la URL para buscar y analizar viene como secuencias, pero también una solución adecuada para rastreos recursivos a gran escala, especialmente cuando se requiere baja latencia. El proyecto es utilizado en la producción por varias compañías y se desarrolla y mantiene activamente.
StormCrawler Comentarios
Todavía no hay comentarios