lundi 12 janvier 2015

suite_travaux

SUITE A LA CONSTRUCTION DE NOTRE TABLEAU DES URLS:
                                   (travaux durant le mois de Décembre)


Etape 1:  Ecrire le chemin d'entrée d'un fichier URL et le chemin de sortie est complexe dans le cas où nous avons plusieurs fichiers URL à traiter. Il est donc utile de créer un fichier de paramètre dans lequel on demandera à notre programme d'aller chercher les URLs de toutes les langues.


Mais avant, il faut savoir que nous avons lancé un programme pour constituer un dossier dans lequel nous travaillons. Nous retrouvons donc ces chemins vu dans le paramètre dans cet ensemble de dossier:

Etape 2: Travail sur les URLs que nous avons pu aspirés et dumpés précédemment. Nous allons détecter les encodages des pages que nous avons pu aspirés.
Cette étape s'effectue grâce à la commande "curl" qui permet de récupérer la page, "lynx" pour extraire le texte de la page et "egrep" pour le contexte des mots à repérer. Nous avons aussi en appuie, un fichier "detect-encoding" détecter l'encodage. Il contient une application qui programme le contenu du fichier pour obtenir une précision sur l'encodage.






Etape 3 :
Nous avons donc plusieurs conditions qui font appel à une bouche "if" selon le résultat de notre détection d'encodage. Si nous reconnaissons l'encodage de la page, nous allons extraire le contenu textuel et nous allons le convertir en UTF8, si elle n'est pas à l'origine en UTF8, avec la commande "iconv". Dans le cas contraire, nous ne faisons rien avec le contenu de la page. 
Notons que cette étape est annulée si nous n'avons pas pu aspirer la page URL. 
Nous créons donc dans notre tableau les colonnes "pages aspirées -encodage- dump initial- dump utf8 ".



Etape4:  Si finalement nous avons des problèmes pour l'aspiration des pages on ne fait rien. c'est la fin de notre boucle et nous pouvons alors fermer les balises de notre tableaux et ensuite lancer le script. Pour l'exécution c'est simple!!! il suffit de taper en ligne de commande "cd-nom du répertoire dans lequel se trouve notre dossier projet/programme.bash < parametres.txt. Après avoir fini de tourner, le tableau devrai apparaitre en fichier html dans le dossier tableau de notre projet.

si tout se passe comme prévu (dans ce cas on se croirait dans un rêve) on devra obtenir un tableaux comme le suivant (c'est celui du professeur!!!).

Mais comme tout ne peut pas être parfait!!! Encore plus en programmation, nous avons donc obtenu ce tableau.
 ce sont des captures d'écran. C'est le même tableau que nous avons capturé deux fois.

Après amélioration de notre tableau, nous obtenons celui ci
Mais le problème: nous avons des URLs qui n'affichent ni encodage ni pages aspirées, ni dump ni contexte; mais qui s'affichent pourtant lorsqu'on ouvre les pages.


Aucun commentaire:

Enregistrer un commentaire