8 Quelques conseils utiles

D’abord, il vaut mieux se mettre à faire le projet de programmation le plus tôt possible! J’estime que vous pouvez faire un compilateur C--, sans les exceptions, en deux à trois semaines, à condition de ne pas tarder à s’y mettre. La gestion des exceptions (throw, try…catch…finally) est quelque chose d’un peu compliqué, qu’il vaut mieux aborder avec méthode.

8.2 La débrouille

Un peu de débrouille ne fait pas de mal… Si vous ne voyez pas bien comment compiler quelque chose que vous sauriez écrire en C, écrivez-le en C, appelez gcc -S pour produire le code assembleur correspondant, et déduisez-en quel code assembleur gcc fabrique. Par exemple, si vous ne savez pas comment calculer un quotient de deux entiers, créez un ficher /tmp/a.c, contenant:

et tapez gcc -S a.c dans le répertoire /tmp. Vous obtiendrez un fichier /tmp/a.s de la forme:

dont vous pourrez déduire que le quotient se calcule par une combinaison des instructions cltd et idivl: voir la section 9. (C’est l’instruction la plus compliquée à compiler, hormis les exceptions.)

8.3 Le style de programmation

On peut programmer en Caml en différents styles. Par exemple, une factorielle en style fonctionnel s’écrira:

On peut encore l’écrire en style objet, soit grâce aux caractéristiques objet d’OCaml, soit en se fabriquant des classes à la main.

Tous les styles sont bons, et l’on peut coder ce que l’on veut dans chaque style. Chacun a ses préférences. Cependant, il est bon de savoir que le compilateur que vous avez à écrire s’écrit probablement le plus naturellement du monde dans un style fonctionnel.

Par exemple, j’ai défini dans ma version du compilateur une fonction compile_expr pour compiler les expressions, de type loc_expr, et une fonction compile_code pour compiler les instructions et les programmes, de type loc_code, les deux fonctions s’appelant récursivement, et la seconde fonction appelant naturellement la première.

L’idée est que l’appel compile_expr out f env stack e, compile le code assembleur qui évalue l’expression e et retourne sa valeur dans %eax, où:

Il est quand même pratique d’utiliser quelques références (ref, !, :=), sans en abuser. Dans mon compilateur, je n’ai qu’une seule référence, qui est de plus une variable globale:

et qui sert à associer à chaque constante chaîne (par exemple, "r" dans le fichier cat.c, mais aussi les noms d’exception comme Trouve dans le fichier exc1.c) le nom d’un label où cette chaîne sera stockée. Regardez bien, par exemple, où la chaîne "r" est décrite dans le fichier assembleur cat.s. Si vous ne comprenez pas tout de suite à quoi peut servir la variable globale strings ci-dessus, vous le comprendrez en écrivant le compilateur…

8.4 Quelques trucs sur les exceptions

En ce qui concerne les exceptions, leur sémantique, décrite dans un cadre plus simple que celui de C--, est donnée en section 7. C’est un peu compliqué à compiler, et la clause finally est particulièrement retorse. (Vous comprendrez pourquoi en la compilant…) Néanmoins, et même s’il existe de nombreuses façons de le faire, vous pouvez vous inspirer de ce que mon compilateur fait. Ma version du compilateur mcc a le bon goût d’ajouter plein de commentaires dans l’assembleur produit aux alentours des throw et des try…catch…finally pour expliquer ce que le code qu’il produit est censé faire, et sur quelles conventions (usage des registres %ebx, %ecx, ce qu’il y a sur la pile, comment la pile __exception_handler des handlers d’exception courants est gérée et ce qu’elle contient, etc.) Par exemple, le fichier exc1.s, qui est un exemple très simple d’utilisation des exceptions, sans clause finally, que voici:

se compile dans l’assembleur suivant, abondamment commenté quant à la gestion des exceptions:

8.5 Les fichiers ML fournis

Dans la distribution mcc qui vous est fournie, il ne manque que le fichier compile.ml, que vous devrez écrire. Certains pensent qu’il faut qu’ils lisent les fichiers ML fournis pour comprendre comment ça marche. En principe, je favorise la curiosité: si vous pouvez apprendre quelque chose en le faisant, faites-le!

Mais, en l’occurrence, ceci ne vous servira pas à grand-chose. Le code ML est probablement trop complexe, et utilise probablement des choses que vous ne connaissez pas (ocamllex, ocamlyacc), pour que vous puissiez en tirer vraiment profit.

Lire les fichiers ML fournis est donc, en fait, essentiellement une perte de temps dans le cadre du projet.

En revanche, il peut être utile de comprendre quel genre de syntaxe abstraite est produite par mcc à partir d’un fichier source C-- donné. Je rappelle que cette syntaxe abstraite est de type Cparse.var_declaration list, le type du deuxième argument de la fonction compile que vous devez écrire.

Une façon de faire est de réserver une variable globale Caml, disons ast (pour “abstract syntax tree”), de stocker l’arbre de syntaxe fourni à compile dedans, et de demander à afficher le contenu de ast après exécution, ce qui se fait bien sous le toplevel.

Pour utiliser les fonctions du compilateur mcc sous le toplevel Caml, lancer ocaml, et taper:

Le fichier top.ml est en gros le compilateur mcc en réduction. Si l’on écrit un fichier compile.ml bidon:

puis que l’on tape make pour recompiler le tout, enfin que l’on tape #use "top.ml";; sous le toplevel Caml (ce qui charge tous les fichiers compilés, y compris compile.ml), on obtiendra une fonction teste de type string -> unit.

Donnons-lui à traiter le fichier cat.c, par exemple. Contrairement au compilateur final mcc, le programme que nous venons de charger sous le toplevel Caml ne sait pas appeler le préprocesseur C tout seul. Appelons-le donc pour fabriquer le fichier préprocessé cat1.c, en tapant la ligne suivante sous le shell (note: le faire dans une autre fenêtre, par exemple):

- : Cparse.var_declaration list ref = {contents = [CFUN (("cat.c", 12, 4, 12, 8), "main", [CDECL (("cat.c", 12, 14, 12, 18), "argc"); CDECL (("cat.c", 12, 27, 12, 31), "argv")], (("cat.c", 13, 0, 27, 1), CBLOCK ([CDECL (("cat.c", 14, 6, 14, 7), "i"); CDECL (("cat.c", 14, 9, 14, 10), "c")], [(("cat.c", 16, 2, 24, 5), CBLOCK ([], [(("cat.c", 16, 7, 16, 10), CEXPR (("cat.c", 16, 7, 16, 10), SET_VAR ("i", (("cat.c", 16, 9, 16, 10), CST 1)))); (("cat.c", 16, 2, 24, 5), CWHILE ((("cat.c", 16, 12, 16, 18), CMP (C_LT, (("cat.c", 16, 12, 16, 13), VAR "i"), (("cat.c", 16, 14, 16, 18), VAR "argc"))), (("cat.c", 16, 20, 24, 5), CBLOCK ([], [(("cat.c", 17, 4, 24, 5), CBLOCK ([CDECL (("cat.c", 18, 12, 18, 13), "f")], [(("cat.c", 20, 6, 20, 28), CEXPR (("cat.c", 20, 6, 20, 28), SET_VAR ("f", (("cat.c", 20, 10, 20, 28), CALL ("fopen", [(("cat.c", 20, 17, 20, 24), OP2 (S_INDEX, (("cat.c", 20, 17, 20, 21), VAR "argv"), (("cat.c", 20, 22, 20, 23), VAR "i"))); (("cat.c", 20, 27, 20, 28), STRING "r")]))))); (("cat.c", 21, 6, 22, 18), CWHILE ((("cat.c", 21, 14, 21, 33), EIF ((("cat.c", 21, 14, 21, 33), CMP (C_EQ, (("cat.c", 21, 14, 21, 27), SET_VAR ("c", (("cat.c", 21, 18, 21, 27), CALL ("fgetc", [(("cat.c", 21, 25, 21, 26), VAR "f")])))), (("cat.c", 21, 31, 21, 33), OP1 (M_MINUS, (("cat.c", 21, 32, 21, 33), CST 1))))), (("cat.c", 21, 14, 21, 33), CST 0), (("cat.c", 21, 14, 21, 33), CST 1))), (("cat.c", 22, 1, 22, 18), CEXPR (("cat.c", 22, 1, 22, 18), CALL ("fputc", [(("cat.c", 22, 8, 22, 9), VAR "c"); (("cat.c", 22, 11, 22, 17), VAR "stdout")]))))); (("cat.c", 23, 6, 23, 16), CEXPR (("cat.c", 23, 6, 23, 16), CALL ("fclose", [(("cat.c", 23, 14, 23, 15), VAR "f")])))])); (("cat.c", 16, 20, 16, 23), CEXPR (("cat.c", 16, 20, 16, 23), OP1 (M_POST_INC, (("cat.c", 16, 20, 16, 21), VAR "i"))))]))))])); (("cat.c", 25, 2, 25, 17), CEXPR (("cat.c", 25, 2, 25, 17), CALL ("fflush", [(("cat.c", 25, 10, 25, 16), VAR "stdout")]))); (("cat.c", 26, 2, 26, 10), CEXPR (("cat.c", 26, 2, 26, 10), CALL ("exit", [(("cat.c", 26, 8, 26, 9), CST 0)])))])))]}

En général, le fichier top.ml permet de tester son compilateur sous le toplevel Caml. Mais l’insertion de Printf.printf judicieux dans le code du compilateur peut s’avérer être une technique plus efficace de debugging…