Generación de listas de palabras personalizadas para un dominio web específico

1

Estoy buscando una herramienta que genere un conjunto de listas de palabras basadas en las palabras que encuentra en las páginas de un dominio web en particular. Esta pregunta tiene una respuesta que genera listas de palabras permutadas a partir de las existentes. Otras herramientas como crujido en backtrack / kali tienen varios modos de generación pero no tienen en cuenta una lista de palabras existente.

¿Cómo puedo generar contraseñas basadas en palabras en el dominio web?

    
pregunta Sebi 28.02.2016 - 10:26
fuente

2 respuestas

2

Una solución Python

Puede usar Scrapy que hará que la mayor parte del trabajo sea para usted. Entonces solo necesitaría usar Counter() para obtener las palabras principales (si las busca) para los conteos de frecuencia).

También puedes usar un enfoque de más bajo nivel con Beautiful Soup para obtener las 5 mejores palabras:

# coding=utf-8
import requests
import collections
from bs4 import BeautifulSoup

thesite = requests.get("http://www.lemonde.fr").text

soup = BeautifulSoup(thesite, 'html.parser')
thewords = soup.get_text().split()

print(collections.Counter(thewords).most_common(5))

Dado que la salida es

[('de', 223), ('la', 154), (':', 123), ('{', 115), ('à', 84)]

puede ver la configuración de la longitud mínima de una "palabra" (¿3 quizás?)

ACTUALIZACIÓN : el código para una lista ordenada de las palabras más comunes con 3 o más letras

# coding=utf-8
import requests
import collections
from bs4 import BeautifulSoup
import operator

thesite = requests.get("http://www.lemonde.fr").text

soup = BeautifulSoup(thesite, 'html.parser')
thewords = soup.get_text().split()

# keep only words over 3 chars

thewords = {w: f for  w, f in collections.Counter(thewords).items() if len(w) > 3}
topwords = sorted(thewords.items(), key=operator.itemgetter(1), reverse=True)

print(topwords)
    
respondido por el WoJ 28.02.2016 - 10:47
fuente
2

¿Qué te parece usar una herramienta llamada CeWL - Generador de listas de palabras personalizadas ?

  

CeWL es una aplicación de ruby que araña una url dada a una profundidad específica,   opcionalmente, siguiendo enlaces externos, y devuelve una lista de palabras que   luego se puede usar para crackers de contraseñas como John the Ripper.

    
respondido por el SilverlightFox 29.02.2016 - 10:01
fuente

Lea otras preguntas en las etiquetas