samedi 24 janvier 2015

Nous arrivons à la fin de notre projet!!!!! Après le tableau que nous avons finalement construit, nous sommes passé au trameur. Le trameur intervient à la fin du travail pour montre la véritable vie de notre mot sur le web. Quel est la vie de notre cher mot "critique" sur le web?????? Nous vous le dirons après avoir expliquer comment nous avons procédé pour construire notre graphe à l'aide du trameur. 

Qu'est ce que le trameur?

Un aperçu!!!!!


C'est un outil développé à l'université de Paris 3 par Monsieur Serge Fleury. Il a été mis sur pied pour la lexicométrie et peut avoir plusieurs fonctions parmi lesquels l'établissement et la construction d'un contexte autour d'un mot. C'est la tâche qui nous qui nous est assigné. Pour ce faire, nous avons procédés par plusieurs étapes:
1- Chargement du texte:
 il se fait dans la fenêtre "cadre". Il faut au préalable étiqueter pour pouvoir faire la distinction entre les lemme et les formes.
2- Le paramétrage:
En fonction de l'encodage de notre texte de base, nous allons définir le codage de base et celui de la langue avec la quelle nous travaillons. Ensuite nous définissons le pôle(c'est le mot sue lequel nous travaillons et selon ses formes nous pouvons nous servir ou pas d'expressions régulières; si c'est le cas nous cochons la case "RegExp". La Co-Freq et le Seuil sont réglés en fonction de la densité ou l'extension du contexte que nous voulons établir autour de notre mot. Les délimiteur peuvent également être changés mais dans notre cas nous ne l'avons pas fait.
3- Tentative de construction de notre graphe
Il n'y a rien de fixe dans cette construction. En fonction des attente et des résultats nous pouvons faire ou non des modifications de nos paramètres. 

Le Graphes:
Après toutes ces manipulations, nous avons abouti aux graphes que nous voulions construire.








Enfin nous pouvons découvrir la vie de notre mot "critique" sur le web!!!
Le mot "critique"a une vie de rêve sur le web!!! Il est utilisé différemment en fonction de la langue.

En français:
 il  tourne autour de divers sujets. Les plus pertinents sont revue(54 coocurences, 34 contextes) et fixion. Ces mots sont fortement marqués certainement parceque le domaine de la fixion et les revues sont fortement critiqués sur internet. C'est ce qui explique la présence du mot "cinema" et "rédaction" autour de notre mot. Les mots tels que "loisir", "cinéma", "musique" montrent que ce sont des domaines fortement attaqués avec "acharnement" sur internet.

En anglais:
le mot "art" est le plus pertinent. Celà pourrait signifier que l'art est le domaine fortement critiqué par les pages web écrites en anglais avec 64 coocurrents. L'artisanat et la politique semblent également être critiqués. Nous remarquons également ici que tout comme les pages web d'expression françaises, les revues ont une présence remarquable. L'art qui englobe le cinéma, les fixions et également les revues sont de manière général les domaines qui entourent notre mot "critique" en français et en anglais.

En malgache
nous avons été obligées de séparer l'analyse des deux occurences de pôles car "tsikera" a le sens d'une critique positive, quant à "kiana" on a des critiques négatives. La principale remarque sur ce mot serait que nous avons utilisé un Seuil et une co-fréquence à "2" car les pages web ne sont pas nombreux dans cette langue et la coocurence est donc restreinte. Nous avons donc utilisé des formes des mots et non des expressions régulières. Le résultat est tel que le mot "critique" est surtout orienté vers la politique, la république, le pays, les dirigeants du pays, les journaux.

En somme le "trameur" est un merveilleux outil qui nous à permis à travers des cooccurences, de découvrir la pertinence des notions autour desquelles tourne notre mot sur le web. Nous pouvons l’apercevoir d'une manière plus clair à travers le nuage de mot obtenu à partir de "wordle".



Voici un aperçu des mots avec lesquels cohabite notre mot critique en anglais.

lundi 12 janvier 2015

suite_travaux

SUITE A LA CONSTRUCTION DE NOTRE TABLEAU DES URLS:
                                   (travaux durant le mois de Décembre)


Etape 1:  Ecrire le chemin d'entrée d'un fichier URL et le chemin de sortie est complexe dans le cas où nous avons plusieurs fichiers URL à traiter. Il est donc utile de créer un fichier de paramètre dans lequel on demandera à notre programme d'aller chercher les URLs de toutes les langues.


Mais avant, il faut savoir que nous avons lancé un programme pour constituer un dossier dans lequel nous travaillons. Nous retrouvons donc ces chemins vu dans le paramètre dans cet ensemble de dossier:

Etape 2: Travail sur les URLs que nous avons pu aspirés et dumpés précédemment. Nous allons détecter les encodages des pages que nous avons pu aspirés.
Cette étape s'effectue grâce à la commande "curl" qui permet de récupérer la page, "lynx" pour extraire le texte de la page et "egrep" pour le contexte des mots à repérer. Nous avons aussi en appuie, un fichier "detect-encoding" détecter l'encodage. Il contient une application qui programme le contenu du fichier pour obtenir une précision sur l'encodage.






Etape 3 :
Nous avons donc plusieurs conditions qui font appel à une bouche "if" selon le résultat de notre détection d'encodage. Si nous reconnaissons l'encodage de la page, nous allons extraire le contenu textuel et nous allons le convertir en UTF8, si elle n'est pas à l'origine en UTF8, avec la commande "iconv". Dans le cas contraire, nous ne faisons rien avec le contenu de la page. 
Notons que cette étape est annulée si nous n'avons pas pu aspirer la page URL. 
Nous créons donc dans notre tableau les colonnes "pages aspirées -encodage- dump initial- dump utf8 ".



Etape4:  Si finalement nous avons des problèmes pour l'aspiration des pages on ne fait rien. c'est la fin de notre boucle et nous pouvons alors fermer les balises de notre tableaux et ensuite lancer le script. Pour l'exécution c'est simple!!! il suffit de taper en ligne de commande "cd-nom du répertoire dans lequel se trouve notre dossier projet/programme.bash < parametres.txt. Après avoir fini de tourner, le tableau devrai apparaitre en fichier html dans le dossier tableau de notre projet.

si tout se passe comme prévu (dans ce cas on se croirait dans un rêve) on devra obtenir un tableaux comme le suivant (c'est celui du professeur!!!).

Mais comme tout ne peut pas être parfait!!! Encore plus en programmation, nous avons donc obtenu ce tableau.
 ce sont des captures d'écran. C'est le même tableau que nous avons capturé deux fois.

Après amélioration de notre tableau, nous obtenons celui ci
Mais le problème: nous avons des URLs qui n'affichent ni encodage ni pages aspirées, ni dump ni contexte; mais qui s'affichent pourtant lorsqu'on ouvre les pages.