Recomendados: [Hispasexy] [HispaPreguntas] [Plaza]

[Volver] [Catálogo] [★]
Estás en el hilo 84232 de /t/.
Título  
Opciones
Post
Archivo URL
Pass  (Para eliminar tu post, opcional)
Lee las Reglas antes de participar.
Lee las Reglas antes de participar.
Tipos de archivo: GIF, JPG, MP3, MP4, OGG, PDF, PNG, SWF, WEBM . Tamaño máximo: 24 MB.
En este tablón puedes publicar código con [code].

Noche de música hispana
[ac]: especial día de las madres.


No abuses de los hilos de consultas técnicas. Trata de aportar contenido, opiniones, experiencias, recursos, en lugar de pedirlos.
Si quieres colaborar con el desarrollo de Hispachan, tienes toda la información en esta página.

Como Guardar Pagina Especifica con HTTrack
[A]
161980808846.png [S] ( 17.22KB , 744x446 , laweaweon.png )
84232 Como Guardar Pagina Especifica con HTTrack
Anónimo

/#/ 84232 []

lo que pasa es que quiero guardarme todo Yahoo Respuestas! ya que en unos dias mas va a desaparecer (es para conservar la pagina) pero cuando pongo el URL me empieza a guardar todo lo que hay en el servidor de Yahoo! el otro dia puse a bajar la pagina en la noche (desde el dominio answer.yahoo) y al otro dia me doy cuenta que se han bajado 10GB pero de otros servicios de Yahoo! como el Login, portales y otras cosas que no me interesan y de Yahoo Respuestas! con suerte 100kb que es el Index.

como configuro HTTrack para que solamente guarde los vinculos que esten dentros de "Answer.Yahoo.es" y que todo lo que este en otro dominio que no sea eso el programa lo ignore

>> Anónimo /#/ 84277 [X]
>>84232 (OP)
HTTrack es para pendejos, muevete a autistOS (GOONO con Linocks) y usa wget.

>> Anónimo /#/ 84278 [X]
>>84277
wget no puede hacer eso, gnutard.
Y HTTrack es multiplataforma y libre.

>> Anónimo /#/ 84280 [X]
161982757239.png [S] ( 6.41KB , 255x198 , index.png )
84280
>>84278
>wget no puede hacer eso, gnutard.

>> Anónimo /#/ 84282 [X]
>>84280
No es un argumento.
Suerte escribiendo varias líneas de shell y argumentos autistas del stdin solo para hacer una tarea simple que un programa te hace en menos tiempo kek

>> AnónimoOP /#/ 84287 [X]
>>84278
exacto por eso lo uso, quiero usarlo para poreservar la pagina de Yahoo Respuestas!, la verdad es que me quedan 4 dias para guardarla y haria eso tambien por cualquier pagina que este por desaparecer

>> Anónimo /#/ 84375 [X]
>>84282
>Suerte escribiendo varias líneas de shell
>t dunning kruger

>> AnónimoOP /#/ 84388 [X]
>>84375
ya han desviado bastante mi hilo. solo quiero saber si es posible configurar algo en HTTrack para que solo me guarde la pagina de un dominio y no todo lo que esta en el servidor

>> Anónimo /#/ 84411 [X]
>>84388
En realidad no es que se vea muy complicado, solo añade la URL de answers.yahoo.es a la caja de direcciones web y listo. No veo por qué eso no debería no funcionar.
>>84375
¿Siquiera sabes qué significa Dunning Kruger y por qué lo estás aplicando?
Lo digo porque los pubertos retrasados están obsesionados con esa palabra pero no son buenos ni para emplearla correctamente, solo la usan como insulto gratuito, lo cual no es un argumento y no estás demostrando que escribir 500 líneas de shell con tus GNU coreutils y mil expresiones regulares es mejor o más eficiente que simplemente usar el programa de OP. Estás aplicando la lógica del archkid: "me complico innecesariamente la vida y copio comandos de wikis, por lo tanto yo ser inteligente unga unga"

>> AnónimoOP /#/ 84414 [X]
>>84411
>En realidad no es que se vea muy complicado, solo añade la URL de answers.yahoo.es a la caja de direcciones web y listo. No veo por qué eso no debería no funcionar.
eso hice, pero me descarga de otros dominios como es.yahoo, mail.yahoo y todos los demas servicios siento que lo hice desde answer.yahoo por eso preguntaba si se ´podia bloquear el dominio

>> Anónimo /#/ 84416 [X]
>>84414
Puede que algunas direcciones estén dando código HTTP 100, el cual básicamente significa "redirige al programa a otra página", lo que hace que se descarguen páginas que no quieres. Tal vez haya una opción para ignorar las redirecciones (o código HTTP 100).
Otra posibilidad es que yahoo tenga un anticrawler, para lo cual debería haber una opción para falsificar el user-agent para que tu programa parezca un usuario normal de la web.
Si te aparece una opción para cambiar user-agent, pega este texto:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4371.0 Safari/537.36
No te garantizo nada, pero pueden ser algunos de los errores potenciales porque pasan cuando se intentan descargar páginas de forma automática.

>> AnónimoOP /#/ 84472 [X]
>>84416
tienes razón Yahoo Respuestas! debe tener una barrera. ya que ahora me esta empezando a descargar paginas de otro dominio que no tiene nada que ver con Yahoo. en las opciones del HTTrack no me aparece ninguna de las opciones que dices

>> Anónimo /#/ 84476 [X]
>>84472
>debe tener una barrera.
tu IQ es el que tiene una barrera.

>> AnónimoOP /#/ 84511 [X]
>>84476
definitivamente no se puede guardar y a mano no es mucho lo que se puede hacer... QEPD Yahoo Respuestas!

>> Anónimo /#/ 84523 [X]
Esa aplicación me acuerdo que se puede configurar para distintos niveles de profundidad de extracción.

Quizás te sea más fácil poniéndole una regla, pero para eso deberías mirar dónde está la falla (qué direcciones descarga que no están bien y prohibirlas con las wildcards).

>> AnónimoOP /#/ 84580 [X]
>>84523
anoche le puse la opcion de solo bajar links del sitio web y igual me guarda cosas nada que ver. el problema es que HTTrack no me guarda de answer.yahoo sino que guarda de otros servicios de yahoo o paginas externas por eso creo que protegieron yahoo respuestas! para que no pueda ser guardado

>> Anónimo /#/ 84587 [X]
>>84232 (OP)
con razón nadie descargo paginas como Jetix o tantas otras buenas que dejaron de existir por que el programa no siempre funciona. parece que solo sirve para paginas ultra-basicas que solamente tienen informacion, algo mas complejo el programa no es eficaz

>> Anónimo /#/ 84612 [X]
>>84587
>con razón nadie descargo paginas como Jetix o tantas otras buenas que dejaron de existir por que el programa no siempre funciona.
no, nadie lo hizo porque a nadie le importaba, no todos son unos pendejos como OPendeja.

>> AnónimoOP /#/ 84630 [X]
>>84612
que paginas han sido preservadas con ese programa? como te digo el programa solo me ha servido con paginas HTML simples que no tienen programación web y se descargan perfectamente. pero son paginas simples que solo tienen información de algo (a mi padre le he bajado paginas de el espacio, los planetas y todas esas paginas aburridas que no tienen ni javascript) pero paginas mas avanzadas no me ha funcionado (pero al menos he conseguido descargar algo) pero con Yahoo Respuestas! no he podido bajar nada de ese dominio como que rebota

>> Anónimo /#/ 84633 [X]
>>84232 (OP)
Los de Archive Team ya están trabajando en eso: https://wiki.archiveteam.org/index.php/Yahoo!_Answers Lo mejor que puedes hacer es instalarte el Warrior como explican en esa pagina y aportar con tu ancho de banda y espacio en disco mientras el sitio sea todavía accesible. Es mas, si te fijas en https://tracker.archiveteam.org/yahooanswers2/ ya tienen casi 5 TB archivados por lo que al menos una buena parte del sitio sera preservada.
>>84587
>nadie descargo paginas como Jetix o tantas otras buenas que dejaron de existir por que el programa no siempre funciona
Creo que eso ya es mas una cuestión cultural de no tomarse en serio la preservación de contenidos en internet (véase sino lo que paso con el primer Hispachanfiles).
>>84630
>que paginas han sido preservadas con ese programa?
Tengo algunas mierdas que baje hace bastante pero actualmente no uso el programa y los de Archive Team se lo bajan todo en formato WARC para luego subirlo a archive.org.

>> AnónimoOP /#/ 84639 [X]
>>84633
Muchas Gracias Negro. no sabia que ya estaban trabajando para preservar Yahoo Respuestas! (como lo hicieron con Geocites) estaba perdiendo el tiempo ya que se me han bajado 26GB de pura basura... jamas hubiera podido bajarme 5TB (ni tengo donde almacenar tanta cantidad de información)

>>84633
>Creo que eso ya es mas una cuestión cultural de no tomarse en serio la preservación de contenidos en internet
eso es verdad, nadie se preocupa de guardar algo que puede tener en linea (me paso recientemente con videos de pornhub que sacaron por que eran subidos por usuarios no certificados y que nunca mas he podido encontrar) desde que era niño que no entendia por que mi padre que en ese tiempo todas las paginas (en mhtml con Internet Explorer) donde había info de planetas, imagenes y todas esas cosas las guardaba (actualmente mucha de esas paginas dejaron de existir puede que mi padre solo haya guardado partes de la pagina que le gustaron pero de no haberlo hecho hubiera perdido dicha información que le interesaba de la pagina) actualmente pasa guardando videos de youtube de frank suarez (asi se llama el youtuber que ve) yo solo veo que pierde el tiempo pero puede que a futuro le sirvan

>> Anónimo /#/ 84750 [X]
>>84278
>wget no puede hacer eso
Técnicamente si puede, pero necesitas darle una leída al man para saber que parámetros usar, o revisar algo como https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget/ e ir haciendo ajustes según sea necesario.
>HTTrack es multiplataforma y libre
Igual que wget.
>>84287
>haria eso tambien por cualquier pagina que este por desaparecer
Creo que te seria mas fácil contactar a los de Archive Team en su chat ( https://wiki.archiveteam.org/index.php/Archiveteam:IRC ) cuando quieras guardar un sitio X.
>>84639
>me paso recientemente con videos de pornhub
Igual a mi; lo que hice fue comenzar a bajarme todos los vídeos que aun estaban en linea un tiempo después de enterarme de todo ese mierdero que ocurrió con Mindgeek, aunque se podría decir que tuve "suerte" ya que de mas de 300 pude recuperar como un tercio. Con Redtube me fue mucho peor ya que de mas de 200 vídeos solo pude descargar 28, (imagino que por que la gran mayoría de usuarios no estaban validados).
De todos modos mucho de lo que me interesa es mas o menos recuperable ya que no era contenido amateur precisamente, por lo que cada tanto busco alguno de los vídeos borrados en Wayback Machine para intentar extraer información (como las miniaturas, actrices u otro dato relevante) y ver si tengo suerte para dar con otra versión. Por ejemplo, hace un mes pude rastrear un vídeo de Melissa Lauren que se me estaba haciendo muy difícil de encontrar.
>todas las paginas (en mhtml con Internet Explorer) donde había info de planetas, imagenes y todas esas cosas las guardaba (actualmente mucha de esas paginas dejaron de existir puede que mi padre solo haya guardado partes de la pagina que le gustaron pero de no haberlo hecho hubiera perdido dicha información que le interesaba de la pagina)
Probablemente esa información se pueda encontrar en miles de sitios pero quizás debería considerar subir lo que tiene a archive.org para asegurarse de que no se pierda (siempre es bueno tener algo de redundancia). Solo te haces una cuenta y metes todo en un archivo comprimido para luego subirlo como una "colección" al estilo de https://archive.org/details/Hispachan
>yo solo veo que pierde el tiempo pero puede que a futuro le sirvan
Suena como a lo de https://archive.org/details/felipegonzalezguabo ¿Quien habría creído que desaparecerían casi todos sus vídeos? Pues los primeros 4 de esa lista ya no están en Youtube y solo se pudieron rescatar por que un anon se los bajo a su disco duro en el momento justo.
También esta https://altcensored.com que parece ser una buena opción para preservar canales de Youtube "polémicos y/o controversiales" que podrían desaparecer de un momento a otro.

>> AnónimoOP /#/ 84815 [X]
162024350982.gif [S] ( 1.12MB , 1920x2204 , Oh-Oh-Sherex.gif )
84815
>>84587
o es por que nadie pudo. no se si te acuerdas pero la pagina de Jetix estaba hecha a puro Flash Player. entre a WebBackMachine para recordar como era la pagina (en verdad pensaba robarle el diseño para un proyecto) tuve que instalar una extensión para habilitar Flash Player en Chrome por que sin esta no me muestra absolutamente nada. lo que note es que la mayoría de vínculos de la pagina, imágenes y todo lo que se muestran están hechos en Flash casi nada de la pagina es HTML al menos no hay una forma simple de editarlo ya que el swf esta creado con los vínculos a una dirección especifica (dominio de Jetix) cosa que guardando con HTTrack no se hubiera podido ya que solo puede detectar links en HTML pero en SWF es difícil hacerlo por eso mismo la pagina esta completamente rota en WebBackMachine. para poderse guardar la pagina tendrías que haber tenido conocimientos en Flash Player para editar los vínculos localmente (si es que se pueden editar una vez hechos) aparte viendo la pagina en un monitor de 1080p luce pésimo solamente se muestra a un costado de la pantalla ya que la pagina fue diseñada para monitores de 800x600 si nadie la guardo fue por que ni con HTTrack se podía


Eliminar hilos/posts
Reportar un hilo/post
[Volver] [Catálogo] [★]