Gigablast

Sitio web

  • Libre
  • Web
  • Self-Hosted
Description

¡Gigablast es un potente motor de búsqueda de código abierto que hace indexación en tiempo real!

Features

Escalable a miles de servidores .
Se ha escalado a más de 12 mil millones de páginas web en más de 200 servidores.
Un núcleo cuádruple doble, con 32 GB de RAM, y dos Intel SSD de 160 GB, que ejecutan 8 instancias de Gigablast, pueden hacer aproximadamente 8 qps (consultas por segundo) En un índice de 10 millones de páginas. Las unidades estarán cerca de la capacidad máxima de almacenamiento. Duplicar el tamaño del índice más o menos reducirá a la mitad la tasa de qps. (Las métricas de rendimiento se pueden hacer aproximadamente diez veces más rápidas, pero aún no lo he logrado. El uso del espacio en la unidad probablemente seguirá siendo el mismo porque ya es bastante eficiente). . Eso incluye el índice, la metainformación y el HTML comprimido de todas las páginas web. La tasa de araña es de alrededor de 1 página por segundo por núcleo. Por lo tanto, un núcleo cuádruple doble puede dividir e indexar 8 páginas por segundo, lo que equivale a 691.200 páginas por día. Se requieren 4 GB de RAM por instancia de Gigablast. (instancia = proceso)
Demo en vivo en http://www.gigablast.com/
Escrito en C / C ++ para un rendimiento óptimo. Más de 500,000 líneas de C / C ++.
100% personalizado . Un solo binario. El servidor web, la base de datos y todo lo demás está contenido en este código fuente de una manera altamente eficiente. Facilita la administración y la resolución de problemas.
Fiable. Ha sido probado en producción en vivo desde 2002 en miles de millones de consultas en un índice de más de 12 mil millones de páginas web únicas, 24 mil millones de duplicados.
Súper rápido y eficiente. Uno de los pocos motores de búsqueda que han alcanzado números tan grandes. El único motor de búsqueda de código abierto que tiene.
Soporta todos los idiomas. Puede dar a los resultados en idiomas específicos un impulso sobre otros en el momento de la consulta. Utiliza la representación UTF-8 internamente. Ha sido utilizado por muchos clientes. Se ha utilizado con éxito en software empresarial distribuido.
Páginas web en caché con resaltado de término de consulta ...

Categorías
Aplicaciones y software de servicios en línea

Alternativas