Palabras Aleatorias
Letras al azar
Pensarías que es fácil crear palabras aleatorias ... solo hay que
elegir letras al azar y juntarlas, ¡y listo! Ya tienes una palabra al
azar.
Bueno, aquí hay 20 palabras hechas de esa manera:
tldkl
oewkx dmwol vuptg hvwjk naqid avypr zwtip zgnzs bvdhd muyfd ighgd xhlng oyecn vjnsl ssjrx gxald tukxj rvfoq yxzxq |
¡Resulta que esas palabras no solo son tonterías, sino bastante
difíciles de pronunciar!
(Intenta decir "tldkl" o "xhlng")
Verás, la probabilidad de
obtener una palabra de verdad es muy baja ... tendrías
que probar muchas combinaciones aleatorias antes de tener suerte.
¿Por qué? Bueno, la cuestión es que el Español (Castellano) tiene alrededor de 88,000 palabras identificadas en el Diccionario de la Real Academia Española y además otras 70,000 palabras identificadas en el Diccionario de Americanismos, que son palabras propias del Español utilizadas en todo el continente Americano, aunque en este último hay muchas variantes de una misma palabra que en un diccionario académico ocuparían una sola entrada. Por lo tanto diremos, de forma aproximada, que el Español cuenta con 110,000 palabras.
Volviendo al tema, ¿cuántas palabras diferentes se pueden formar con solo 5 letras?
27 × 27 × 27 × 27 × 27 = ¡14,348,907 palabras posibles de 5 letras!
Y esas son solo las palabras de 5 letras ...
Supongamos que hay 35,000 palabras en español que tienen 5 letras. Entonces la probabilidad de hacer una palabra real al azar sería:
35,000 / 14,348,907 = 0.0024, es decir, una probabilidad de 0.2%
Entonces las palabras reales son raras. Y podemos ver que juntando letras al azar es muy poco probable que se produzca una palabra real.
Vocales
Podemos mejorar nuestro éxito al agregar una restricción en la que una palabra tenga al menos una vocal, ya que casi todas las palabras en español tienen una. Algo así:
ectot
gjaqv kuifg vzicu zspsu pdidb wqdis uerrs ucgej okimw fnevz ewxko ljgew aglgo jpfoq dcytu uwkcj dzioy wekdx xuybk |
Esto es una gran mejora. Se pueden pronunciar más palabras.
Pero todavía la mayoría son palabras extrañas como "zspsu"
y "xuybk"
Frecuencia de las letras
Entonces, nuestra próxima mejora es usar menos letras como
j, x, z y q y más letras como e, s y t.
De hecho, la frecuencia de las letras en el idioma Español es
bien conocida. Aquí está cuántas veces esperaría ver una letra
por cada 1,000 letras:
a | b | c | d | e | f | g | h | i | j | k | l | m | n | ñ | o | p | q | r | s | t | u | v | w | x | y | z |
124 | 14 | 46 | 59 | 137 | 7 | 10 | 7 | 62 | 4 | 0 | 50 | 31 | 67 | 3 | 86 | 25 | 9 | 69 | 80 | 46 | 39 | 9 | 0 | 2 | 9 | 5 |
¿Puedes ver que la "e" es común, pero la "w" es rara?
- "e" es probable que aparezca 137 veces por cada 1,000, o como una relación 137/1000= .137 (=13.7%)
- "w" es probable que aparezca menos de una vez por cada 1,000. De hecho, 0.1 veces cada 1,000. Esto es 0.1/1000 = .0001 (=0.01%)
Entonces, al seleccionar letras basadas en esas frecuencias (un poco como rodar un dado de 1,000 lados donde dicho dado tiene 124 a's, 14 b's ... y ninguna k ni w), podemos obtener algo como lo siguiente:
elnao
etnod reani lansi aeson siuon oenha eaoas ncoot cesoa damro dpuoh eenis ebdni laarm saucs idnos leina igame sotie |
Todavía no hay palabras reales, pero algunas están cerca. Y la mayoría de ellas se pueden pronunciar. (¡Algunas de esas palabras pueden ser muy buenos nombres si estás escribiendo una novela de ciencia ficción!)
¡Inténtalo tu mismo!
Puedes probar los tres métodos aquí ... Prueba a ver si tienes suerte y encuentras una palabra real:
pero aún podemos hacerlo mejor ...
Frecuencia de 2 letras consecutivas
Podemos llevar la idea de la frecuencia de letras un paso más allá al preguntarnos
"¿Cuál es la frecuencia de las letras que siguen a otra letra"
Por ejemplo, si ya tenemos una "s", es muy probable que la siguiente
letra sea una "a" (haciendo "sa").
Para ilustrar esto, construí un Tabla
de Frecuencias de Dos Letras (de Las Aventuras de Alicia en
el País de las Maravillas). Aquí está la línea para "s":
Frec | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o | p | q | r | s | t | u | v | w | x | y | z |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
s | 238 | 41 | 727 | 11 | 3197 | 459 | 275 | 18 | 12 | 990 | 149 | 153 | 333 | 125 | 65 | 54 |
*****
cegua
dento derda yala cimídes dondunta ciestiquejonco pexte a enscis cor der cis |
Los resultados son notables ... sin sentido, pero casi como un lenguaje
extraño.
De hecho, no solo estamos haciendo palabras al azar ahora, ¡estamos
haciendo oraciones al azar!
Frecuencia de más letras
¿Por qué parar ahí? Podemos hacer tablas de frecuencias de tres letras o más ...
Frecuencia de 3 letras consecutivas
¿Cómo funcionan las frecuencias de 3 letras?
Bueno, digamos que ya tengo dos letras (como "mo") ... entonces:
- mira el texto de muestra cada vez que aparezca "mo",
- elige al azar uno de esas
- busca la letra que sigue a "mo" (posiblemente "n").
- luego agrega la "n" para hacer "mon"
- y comienza de nuevo usando "on" (... siempre las dos últimas letras)
Aquí hay una muestra:
se par
tarse se la una en el chaleco, tuvo tuvo sorpreguntada madriguera libros, costaba ya —dijo ya |
¡Eso se ve bien! Al tomar muestras de una fuente real podemos obtener buenos resultados.
Frecuencia de 4 letras consecutivas
Usando el mismo método que empleé para grupos de 3 letras hice lo mismo con una cuarta letra y obtuve:
Ereloj que ella
nunca dejado!» (Y era del placer: había echó |
Frecuencia de 5 letras consecutivas
Y con frecuencias de 5 letras:
Porque
ella nunca de margaritas la como ésta, rodar por las para del chaleco, ni tampoco le pareció bien tirarlo en ello despacio |
¡Inténtalo tu mismo!
Sí, escribí algo para que juegues. Tiene los primeros 6 párrafos de Las Aventuras de Alicia en el País de las Maravillas), pero puedes poner tu propio texto allí.Prueba con algo de Gabriel García Márquez, tu escritor favorito, un discurso, etc., y mira lo que ocurre ... incluso podría combinar citas de diferentes autores para ver lo que surge de tal combinación.