Palabras Aleatorias

Probabilidad y Español ... ¡Vaya combinación!

Letras al azar

Pensarías que es fácil crear palabras aleatorias ... solo hay que elegir letras al azar y juntarlas, ¡y listo! Ya tienes una palabra al azar.

Bueno, aquí hay 20 palabras hechas de esa manera:

tldkl oewkx dmwol vuptg hvwjk naqid avypr zwtip zgnzs bvdhd
muyfd ighgd xhlng oyecn vjnsl ssjrx gxald tukxj rvfoq yxzxq

¡Resulta que esas palabras no solo son tonterías, sino bastante difíciles de pronunciar!

(Intenta decir "tldkl" o "xhlng")

Verás, la probabilidad de obtener una palabra de verdad es muy baja ... tendrías que probar muchas combinaciones aleatorias antes de tener suerte.

¿Por qué? Bueno, la cuestión es que el Español (Castellano) tiene alrededor de 88,000 palabras identificadas en el Diccionario de la Real Academia Española y además otras 70,000 palabras identificadas en el Diccionario de Americanismos, que son palabras propias del Español utilizadas en todo el continente Americano, aunque en este último hay muchas variantes de una misma palabra que en un diccionario académico ocuparían una sola entrada. Por lo tanto diremos, de forma aproximada, que el Español cuenta con 110,000 palabras.

Volviendo al tema, ¿cuántas palabras diferentes se pueden formar con solo 5 letras?

27 × 27 × 27 × 27 × 27 = ¡14,348,907 palabras posibles de 5 letras!

Y esas son solo las palabras de 5 letras ...

Supongamos que hay 35,000 palabras en español que tienen 5 letras. Entonces la probabilidad de hacer una palabra real al azar sería:

35,000 / 14,348,907 = 0.0024, es decir, una probabilidad de 0.2%

Entonces las palabras reales son raras. Y podemos ver que juntando letras al azar es muy poco probable que se produzca una palabra real.

Vocales

Podemos mejorar nuestro éxito al agregar una restricción en la que una palabra tenga al menos una vocal, ya que casi todas las palabras en español tienen una. Algo así:

ectot gjaqv kuifg vzicu zspsu pdidb wqdis uerrs ucgej okimw
fnevz ewxko ljgew aglgo jpfoq dcytu uwkcj dzioy wekdx xuybk

Esto es una gran mejora. Se pueden pronunciar más palabras.

Pero todavía la mayoría son palabras extrañas como "zspsu" y "xuybk"

Frecuencia de las letras

Entonces, nuestra próxima mejora es usar menos letras como j, x, z y q y más letras como e, s y t.

De hecho, la frecuencia de las letras en el idioma Español es bien conocida. Aquí está cuántas veces esperaría ver una letra por cada 1,000 letras:

a b c d e f g h i j k l m n ñ o p q r s t u v w x y z
124 14 46 59 137 7 10 7 62 4 0 50 31 67 3 86 25 9 69 80 46 39 9 0 2 9 5

¿Puedes ver que la "e" es común, pero la "w" es rara?

Entonces, al seleccionar letras basadas en esas frecuencias (un poco como rodar un dado de 1,000 lados donde dicho dado tiene 124 a's, 14 b's ... y ninguna k ni w), podemos obtener algo como lo siguiente:

elnao etnod reani lansi aeson siuon oenha eaoas ncoot cesoa
damro dpuoh eenis ebdni laarm saucs idnos leina igame sotie

Todavía no hay palabras reales, pero algunas están cerca. Y la mayoría de ellas se pueden pronunciar. (¡Algunas de esas palabras pueden ser muy buenos nombres si estás escribiendo una novela de ciencia ficción!)

¡Inténtalo tu mismo!

Puedes probar los tres métodos aquí ... Prueba a ver si tienes suerte y encuentras una palabra real:

pero aún podemos hacerlo mejor ...

Frecuencia de 2 letras consecutivas

Podemos llevar la idea de la frecuencia de letras un paso más allá al preguntarnos

"¿Cuál es la frecuencia de las letras que siguen a otra letra"

Por ejemplo, si ya tenemos una "s", es muy probable que la siguiente letra sea una "a" (haciendo "sa").

Para ilustrar esto, construí un Tabla de Frecuencias de Dos Letras (de Las Aventuras de Alicia en el País de las Maravillas). Aquí está la línea para "s":

Frec a b c d e f g h i j k l m n o p q r s t u v w x y z
s 238
41
727 11
3197 459

275 18 12 990

149 153 333 125
65
54

*****

cegua dento derda yala cimídes dondunta
ciestiquejonco pexte a enscis cor der cis

Los resultados son notables ... sin sentido, pero casi como un lenguaje extraño.

De hecho, no solo estamos haciendo palabras al azar ahora, ¡estamos haciendo oraciones al azar!

Frecuencia de más letras

¿Por qué parar ahí? Podemos hacer tablas de frecuencias de tres letras o más ...

Frecuencia de 3 letras consecutivas

¿Cómo funcionan las frecuencias de 3 letras?

Bueno, digamos que ya tengo dos letras (como "mo") ... entonces:

Aquí hay una muestra:

se par tarse se la una en el chaleco, tuvo tuvo
sorpreguntada madriguera libros, costaba ya —dijo ya

¡Eso se ve bien! Al tomar muestras de una fuente real podemos obtener buenos resultados.

Frecuencia de 4 letras consecutivas

Usando el mismo método que empleé para grupos de 3 letras hice lo mismo con una cuarta letra y obtuve:

Ereloj que ella nunca dejado!» (Y era del placer: había echó
a Alicia muy profundo, por las pareció bruscamente

Frecuencia de 5 letras consecutivas

Y con frecuencias de 5 letras:

Porque ella nunca de margaritas la como ésta, rodar por las para
del chaleco, ni tampoco le pareció bien tirarlo en ello despacio

¡Inténtalo tu mismo!

Sí, escribí algo para que juegues. Tiene los primeros 6 párrafos de Las Aventuras de Alicia en el País de las Maravillas), pero puedes poner tu propio texto allí.

Prueba con algo de Gabriel García Márquez, tu escritor favorito, un discurso, etc., y mira lo que ocurre ... incluso podría combinar citas de diferentes autores para ver lo que surge de tal combinación.