Logo

Drapeaux1 Analyseur de langue Drapeaux2
Projet Internet
SoukhineVadim
Copyright © ESSI 1998
Proposé par: Dupont Christophe
Bar

Table des matières
Introduction
Installation
Fonctionnement
Difficultés
Download

Introduction

C'est un simple programme qui est capable de détecter seulement trois langues : anglais, français et allemand (en version démo). La méthode de détection de lange connue comme analyse par ngrammes (n>1) permet de dire en quelle langue écrite la page donnée avec succès jusqu'à 93%...98%. Mais cette méthode est assez complexe et amène dans le domaine de cryptanalyse et de théorie de langue (statistic philology). Ce projet été réalisé en utilisant des tables de statistique consistées en monogrammes (n=1). L'analyse par monogrammes n'est pas trop complexe mais donne des résultats moins fiables que l'analyse par bigrammes ou trigrammes, par exemple.

Installation

Pour installer le programme il faut detarer le fichier langstat.tar dans un répertoire Internet qui peux exécuter des CGI scriptes. Le fichier lui-même est une copie du répertoire /cgi-bin. Après avoir installer il suffit de lancer dans un navigateur Internet le script CGI lstat.cgi et en suit remplir le formulaire. Dans le répertoire /cgi-bin ce trouvent:

AtomFonctionnement

Les programmes langstat et ldetect sonne faites en C et le script CGI réalisé en Perl.

Le programme d'apprentissage langstat peut être appeler avec commande suivant
langstat langue <DIR> <table>

Le programme de détection de langue ldetect peut être appeler avec commande suivant
ldetect file.html <table>

Copie d'écrane
Copie d'écrane

SkullDifficultés

  1. Le programme très critique au choix des fichiers d'apprentissage. Mauvais choix des fichiers sources amène au résultat de détection imprévisible.
    Remarque: la solution possible c'est d'utiliser l'algorithme d'analyse par bigrammes ou, encore mieux, par trigrammes.
  2. Avec cet algorithme il n'y a pas de critère pour prendre décision en cas si la page fournie écrite en langue qui n'est pas dans les tables statistiques. Par exemple, si la page est en chinois le résultat est imprévisible.
    Remarque: la solution possible c'est d'utiliser l'algorithme d'analyse par ngrammes (n > 1) et d'utiliser le critère Bayesian pour prendre la décision en cas d'une langue inconnue.


Ici vous pouvez télécharger la source de ce projet.

Download itDollarLa vache

Contact

Boîtesoukhine@essi.fr