Google noticias, ¿cómo lo hacen?

Bueno, he estado probando Google Noticias y me hallo anonadado.

Si no lo habéis probado, Google Noticias recoge las noticias de varios medios de comunicación y te las ofrece en una portada personalizada a la que puedes quitarle las secciones que no te interesen, o añadirle otras personalizadas basadas en términos de búsqueda.

Lo curioso es que en vez de mostrarte las noticias sueltas en portada, te las agrupa por historia de manera que nunca te salen en portada dos noticias sobre el mismo tema:

- Una historia es un suceso, algo que ha pasado y de lo que los medios han informado. por ejemplo, la agresión a Berlusconi o la del Papa.
- Una noticia es cada una de las cosas que se han escrito sobre el tema. Por ejemplo, la historia de la agresión al Papa tiene 2.136 noticias. SegúnGN las más relevantes ahora mismo son ésta y ésta.

Imagen


La duda que tengo es, ¿cómo agrupan las noticias por historia? En la página dicen que "la selección y la colocación de artículos en esta página se ha determinado automáticamente mediante un programa informático", pero imagino que para agruparlas deben de tener a una persona haciendo esa tarea ¿no?
Google es Skynet! Corred insensatos!
No me parece tan difícil coger las palabras mas importantes de una noticia y hacer una búsqueda de noticias de estas palabras. Por ejemplo: Berlusconi agresión (inserte fecha del suceso). Si todas las noticias contienen estas palabras seguro que salen correctamente. Para el titulo de la "historia" cogen el titular de alguna "noticia" que este en tu idioma y ya esta.
Si conociera el algoritmo ahora mismo estaría forrándome vendiéndole la idea a google.

Tienen cosas muy curiosas, otra que es el futuro y ya van metiendo poco a poco son las búsquedas en tiempo real, que personalmente me parece una flipada.
Aracem escribió:Tienen cosas muy curiosas, otra que es el futuro y ya van metiendo poco a poco son las búsquedas en tiempo real, que personalmente me parece una flipada.


¿Te refieres a incluir lo que la gente escribe en las redes sociales, e irlo actualizando según sucede?
No entiendo mucho del tema pero imagino que utilizaran un sistema igual que el que emplean para poner publicidad elegida cuando haces busquedas o lees el correo.
Puesto que no trabajo en google, no te puedo asegurar que mi respuesta sea la correcta, pero me imagino que utilizarán un agente experto (ahora llamados sistemas basados en el conocimiento) es decir -a grosso modo-, IA, que haga data mining sobre los datos que le proporcione otro agente (el que explore las webs de noticias) y monte un retículo algo parecido.
6 respuestas