|
||
![]() |
Analyseur de langue | ![]() |
SoukhineVadim |
Copyright © ESSI 1998 |
Table des matières
Introduction
Installation
Fonctionnement
Difficultés
Download
C'est un simple programme qui est capable de détecter seulement trois langues : anglais, français et allemand (en version démo). La méthode de détection de lange connue comme analyse par ngrammes (n>1) permet de dire en quelle langue écrite la page donnée avec succès jusqu'à 93%...98%. Mais cette méthode est assez complexe et amène dans le domaine de cryptanalyse et de théorie de langue (statistic philology). Ce projet été réalisé en utilisant des tables de statistique consistées en monogrammes (n=1). L'analyse par monogrammes n'est pas trop complexe mais donne des résultats moins fiables que l'analyse par bigrammes ou trigrammes, par exemple.
Pour installer le programme il faut detarer le fichier langstat.tar dans un répertoire Internet qui peux exécuter des CGI scriptes. Le fichier lui-même est une copie du répertoire /cgi-bin. Après avoir installer il suffit de lancer dans un navigateur Internet le script CGI lstat.cgi et en suit remplir le formulaire. Dans le répertoire /cgi-bin ce trouvent:
Les programmes langstat et ldetect sonne faites en C et le script CGI réalisé en Perl.
Le programme d'apprentissage
langstat peut
être appeler avec commande suivant
langstat langue
<DIR> <table>
Exemple:
langstat fr ./ ma_stat.bin
langstat va chercher les fichiers HTML dans le répertoire courent et en suit va écrire des données sur la langue français dans le fichiers ma_stat.bin.
Le programme de détection
de langue ldetect
peut être appeler avec commande suivant
ldetect file.html
<table>
Exemple: ldetect mon.html
ldetect lit des données dans le fichier par défaut langstat.tbl et en suit analyse le fichier mon.html.
Le script CGI lstat.cgi reçoit un URL comme les données d'entre, ensuit il appelle wget pour qu'il remmène un empreint digital du site en forme d'une page HTML dans le répertoire temporel /tmp. Si lstat.cgi ne trouve rien dans ce répertoire alors soit URL est erroné soit il n'y a pas de fichiers HTML à cette adresse. Si tout va bien lstat.cgi lit le nome du fichier amené par wget et passe lui comme paramètre à ldetect. ldetect analyse la page et envoie le résultat à lstat.cgi. Enfin lstat.cgi affiche le résultat de la requête et invite l'utilisateur pour nouvelle requête.
Voici le résultat d'une requête
Copie d'écrane
Ici vous pouvez télécharger la source de ce projet.
Contact