Ca idee:
In pachetele Office sunt incluse vocabularele pentru corectarea ortografica.
Descarca versiunea romana din Open Office sau Libre Office, cauta baza de date (fisierul) pentru corectare ortografica (si /sau de sinonime), de acolo poti descarca cele mai multe cuvinte. Poate va fi nevoie sa scrii o scurta rutina pentru prelucrare /extragere, dar este posibil sa gasesti codurile sursa (ambele fiind fiind Open Source).
Probabil vei gasi diferite liste, in diferite formate.
Problema ta mai mare va fi TRATAREA DIACRITICELOR.
In format pur text NU ai diacritice, doar daca utilizezi si tabelele ASCII suplimentare (extinse).
De asemenea, in documente se folosesc diferite FONTURI pentru echivalare, pe internet sunt uzuale codificarile UNICODE, UTF-8, in alte sisteme codul EBCDIC etc. etc.
Ca urmare, va trebui sa identifici intai tipul de codificare, dupa care diaciriticele, sa le compari si cu versiunile fara diacritice (doar alfabetul englez).
Succes si rabdare multa!
Multumesc mult! orice e bine venit!
Https://www.efemeride.ro/cele-mai-folosite-cuvinte-din-limba-romana/ Pe acest site ai o lista cu cele mai folosite cuvinte din limba romana sper ca ti-am fost si de ajutor, macar putin.
Multumesc, apreciez, dar vreau cam 10.000 de cuvinte.
Multumesc, la cat folosesc eu office-ul nu m-am gandit.
Ca idee:
In pachetele Office sunt incluse vocabularele pentru corectarea ortografica.
Descarca versiunea romana din Open Office sau Libre Office, cauta baza de date (fisierul) pentru corectare ortografica (si /sau de sinonime), de acolo poti descarca cele mai multe cuvinte. Poate va fi nevoie sa scrii o scurta rutina pentru prelucrare /extragere, dar este posibil sa gasesti codurile sursa (ambele fiind fiind Open Source).
" Nu vreau sa sparg parole, mai simplu este sa cauti exploituri" pai si alea iti cer un wordlist Ca in mare folosesc atacuri bruteforce folosindu-se de un wordlist.
Bine te cred ca nu vr sa faci asta (nici nu mai merge), dar am zis ca idee