DiffBot

Sitio web

  • Libre
  • Web
Description

¿Por qué Diffbot?

Nos enfocamos exclusivamente en obtener mejores datos web.
Algunas de las razones por las que cientos de clientes hacen (cientos de) millones de llamadas cada mes:

# El Mejor Extractor de Contenido de la Web:

Diffbot funciona automáticamente, sin reglas ni capacitación. No hay mejor manera de extraer datos de las páginas web. Vea cómo Diffbot se acumula en otros métodos de extracción de contenido:
Comparativa de características Extracción de calidad de texto-extracción

# Identify Pages Automatically:

Utilice la API Analizar para buscar y extraer automáticamente todos los productos, artículos, discusiones o imágenes mientras rastrea cualquier sitio.
API API

# Datos detallados del producto:

La API del producto devuelve automáticamente la información completa del producto, incluidos todos los datos de precios, producto ID, marca y tablas de especificaciones completas.
API del producto

# Clean text and html:

Los artículos, los hilos de discusión, las descripciones de los productos y las leyendas de las imágenes se devuelven en texto puro y HTML limpio.
Comience a probar hoy

# Búsqueda estructurada:

Busque contenido estructurado desde cualquier rastreo sobre la marcha usando nuestra API de búsqueda, y devuelva solo los resultados coincidentes.

Plus ...

¤ Todas las API ejecutan Javascript, por lo que el contenido se analiza como un navegador normal.
¤ Funciona en la mayoría de las páginas que no están en inglés gracias al procesamiento visual.
¤ Normalización de la fecha: las marcas de datos se normalizan y se presentan en formato estándar RFC 1123 (HTTP / 1.1).
¤ Los artículos de varias páginas se unen automáticamente en una sola Respuesta de la API.
¤ Extracción de la entidad: el etiquetado automático identifica los principales temas y las entidades en el texto del artículo.
¤ Solucione cualquier problema en tiempo real con el kit de herramientas de la API. ¤ La API masiva permite la extracción de cientos a cientos de cientos de miles de páginas.
¤ Acceda a los datos de trabajo de Crawlbot y Bulk en formatos JSON o CSV completos.
¤ Opcionalmente, realice el rastreo utilizando una amplia variedad de direcciones IP.

Categorías
Aplicaciones y software de desarrollo

Alternativas