Gnu/Linux‎ > ‎Utilidades‎ > ‎

Extraer 'Links' desde cualquier web

publicado a la‎(s)‎ 18 jun. 2014 10:53 por Juan Jose Ramirez Lama   [ actualizado el 5 ene. 2015 6:14 ]

Lo primero que necesitamos es lynx, para poder extraer los archivos, este procedimiento es todo por terminal, asi que manos a la obra.


Para instalarlo teclea:

# apt-get -y install lynx

Luego utiliza una de las siguientes comandos para extraer las direcciones url de la web que deseas:


$ lynx -dump http://www.google.com | awk '/http/{print $2}' > links.txt
Este almacena los links que comienzan con http y los almacena en el archivo links.txt

$ lynx -dump http://www.google.com | awk '/http/{print $2}' | nl > links.txt
Este almacena los links que comienzan con http y los almacena en el archivo links.txt enumerando al principio cada linea.


Si no deseas que lo almacene en archivo y los muestre en la terminal solo elimina los caracteres > links.txt


Si el url de la web que deseas extraer contiene entre medio el signo & te recomiendo usar un acortador de links como goo.gl para que no tengas problemas (funciona igual).

Comments