programa para "parsear" código fuente de webs (encontrado)

Question

programa para "parsear" código fuente de webs (encontrado)

Archivado

Seimour 06 feb 2010 19:51 *

MegaAdicto!!!

1.009 mensajes
desde ago 2004
en Euroland

Editado 1 vez. Última: 7/02/2010 - 11:44:47 por Seimour.

*

Buenas!

¿Conocéis de algún programa/script que dándole una lista muy larga de urls de webs me permita "parsearlas"?. Por ejemplo, que me devuelva de cada url que le dé el título de la página (contenido dentro de las etiquetas <title></title>) o cosas de por el estilo (sólo del código fuente de las páginas).

Un saludo y gracias.

2 respuestas

Answer 1 · 2010-02-06T19:17:25+00:00

Pues supongo que con linux podrías hacerlo sin ningún problema. Con grep o find, pero lo mejor aunque es un poco más técnico es awk o algún comando de ese estilo. Te creas el script en un momento y lo lanzas . Pero si quieres windows no conozco ninguna herramienta así, aunque la hay FIJO. Ya que no te han ayudado..yo lo he intentado 1 poco jaja. Salu2 !!

Answer 2 · 2010-02-06T20:06:28+00:00

Ya, si lo del script ya se me había ocurrido pero no me apetecía nada hacerme uno [+risas]

y pensaba que ya habría algo parecido. Gracias de todos modos!

Update:
Si a alguien le interesa al final me curré yo el script y es este. Lo he usado desde windows pero os van a hacer falta un par de programas de linux que podréis encontrar en google buscando "unxutils":

@echo off
cls
mkdir tmp
cd tmp
wget --load-cookies spotify -O tmp -i input.txt
grep -i "<title" tmp >> out
cd ..

input.txt es un fichero que contiene todas las urls a las canciones de la playlist. Previamente, para usar la cookie de spotify en el script anterior hay que hacer un wget tal que así:

wget --save-cookies <nombre-cookie> --http-user <tu-user> --http-password <tu-passwd> https://www.spotify.com/en/login/

La finalidad de todo esto era conseguir exportar una lista de canciones de spotify a un formato más manejable, entiéndase un txt y no tener que copiarme toda la info a mano desde el spotify. Gracias de todos modos. Salu2!