Duda de programación. ¿Cómo funcionan los comparadores (rastreator, trivago etc)

Hola, a ver si alguno puede sacarme de la duda.

¿Cómo funcionan estas webs? ¿Cómo extraen los datos de las webs donde buscan? ¿Lo hace a lo bruto o llegan a un acuerdo con las otras webs y les facilitan herramientas para ello?

Saludos.
Yo creo que llegan a un trato con algunas como tu mencionas, seguramente estos "comparadores" se lleven un pequeño porcentaje de lo que contrata el cliente.

Aparte si te fijas en la web de rastreator:

Rastreator tiene acuerdos directos con la mayoría de las aseguradoras presentes en el panel, actuando en tales casos como mediador de seguros. En algunas de las compañías presentes en nuestro panel, Rastreator no posee un acuerdo directo con tales aseguradoras, sino que muestra los precios de las mismas a través de un corredor


Saludos ^^
Hacerlo a lo bruto, aparte de requerir mucha potencia, seguramente lo prohíban en los términos de uso
elchicosinhada escribió:Hacerlo a lo bruto, aparte de requerir mucha potencia, seguramente lo prohíban en los términos de uso


Hacerlo a lo bruto tampoco es mucha potencia. Un script warro por página para sacar los precios y ya esta y lo ejecutas cada día.

Es mas, en el mercado hay aplicaciones para hacer minería de datos de páginas webs
Yo hice una en su día, a lo "warro" como decís, algo parecido. Sólo tiene el "pequeño" problema que tienes que personalizar el código cada vez que conectas a un nuevo sitio.

Yo creo que comparten la información gracias a nuestro amigo XML.
nuestro amigo XML esta muerto y enterrado. todo el mundo usa JSON hoy dia, se ha terminado imponiendo por sencillez.

hacer un scrapper (lo que se denomina comunmente un spider o parser) se hace en 4 lineas guarras de PHP y un par de expresiones regulares. de hecho, en su dia hice un scrapper para IMDB que me sacaba toda la info de una peli y no llegaba a las 100 lineas (guardando info en la base de datos y todo). el 'core' del scrapper (que como digo, eran 3 expresiones regulares) eran 8 lineas. el resto era comprobacion de errores, acceso a la BBDD, el file_get_contents...

eso si, para usar un scrapper, una norma de 'civismo web' es mirar antes el robots.txt a ver que permiten y que no. y sobre todo, no ser muy insistente con las peticiones. hacer mas de 2 peticiones por minuto, o mas de 50 diarias, esta 'mal visto'. Y el tema canta mucho porque a poco que el webmaster tire de 'access.log' y un par de greps, tu IP va a cantar por soleares. De ahi, a que redirija las peticiones de tu IP a goatse, hay solo un paso.
Suelen ser brokers / agencias. Se suelen llevan un pequeño % de comisión.

Almenos, en el mundo del rent a car funciona así. Reciben los precios por XML, JSON, incluso por mail (es cierto... y me da mucha rabia q lo sigan manteniendo!)
6 respuestas