6 La sémantique opérationnelle à grands pas de C--

Définissons, petit à petit, la sémantique de C--, hors exceptions. Les exceptions seront décrites en section 7.

Soit Z₃₂ l’ensemble de tous les entiers signés 32 bits: Z₃₂ = [−2³¹, 2³¹−1]. Soit Addr le sous-ensemble de toutes les adresses.

Nous allons présenter la sémantique de C-- en deux étapes. En section 6.1, nous présenterons une sémantique pour un sous-ensemble extrêmement réduit de C--. L’avantage est que cette sémantique sera très simple. Certaines particularités de C-- nous forceront à décrire une sémantique plus compliquée en section 6.2.

6.1 Une sémantique simple pour un sous-ensemble de C--

Pour pouvoir donner une sémantique aux appels de fonction (call), il nous faut nous donner la description d’un programme π. Pour nous, un programme π sera une fonction mathématique, de domaine fini, qui à des noms de fonction f associe un triplet (l, c, e), où l est une liste de variables distinctes deux à deux (les paramètres formels de la fonction f), c est une instruction (le corps de la fonction), et e est une expression (dénotant la valeur retournée par la fonction).

Les expressions et les instructions seront évaluées dans un environnement ρ, qui est une fonction de domaine fini associant une valeur dans Z₃₂ à des variables.

Cette règle s’applique dès que x est dans le domaine de ρ. Elle n’a aucune (autre) prémisse.

(La raison pour laquelle nous écrivons l’addition e₁ plus e₂ plutôt que e₁+e₂ par exemple est pour bien distinguer l’opération syntaxique plus de l’opération mathématique d’addition, notée +.)

pour chaque instruction c, signifiant “en partant de l’environnement ρ, l’instruction c termine sur un nouvel environnement ρ′, le programme courant étant π”. De nouveau, les jugements dérivables sont définis par des règles de déduction.

désigne la fonction de domaine dom ρ union {x}, qui à x associe V et à tout y in dom ρ ∖ {x} associe ρ (y).

Elle introduit donc un environnement intermédiaire ρ′ représentant l’environnement après l’exécution de e₁ et avant l’exécution de e₂.

Jusqu’ici, nous avions une règle de déduction par construction syntaxique. Ceci change pour le test. Nous avons une règle lorsque la condition testée est fausse, et une lorsqu’elle est vraie:

La boucle while (e) c est équivalente à if (e) then c;while (e) c else skip. Ceci donne lieu, ici aussi, à deux règles pour l’évaluation des boucles.

La seconde règle a la particularité que sa seconde prémisse ne porte pas sur une instruction plus petite que celle en conclusion, contrairement aux règles présentées jusqu’ici. Ceci mène à des comportements non terminants. Disons que c termine dans π, à partir de ρ, si et seulement s’il existe ρ′ tel que

soit déductible.

Exercice 1 Si ρ (x) n’est pas défini, while (x) skip termine-t-il?

Exercice 2 Montrer que while (x) skip termine à partir de ρ si et seulement si x in dom ρ et ρ (x) = 0.

Exercice 3 Que se passe-t-il si on appelle une fonction f sur le mauvais nombre d’arguments, i.e., si on cherche à évaluer call f (e₁, …, e_n) alors que π (f) = ((x₁, …, x_m), c) et m ≠ n? Que se passe-t-il si f n’est pas dans dom π?

Exercice 4 Montrer que cette sémantique est déterministe: si et sont déductibles, alors ρ′ = ρ″. Dites précisément sur quoi vous effectuez une récurrence, et décrivez quelques-uns des cas que vous traitez, notamment ceux utilisés lorsque c est une boucle while.

Exercice 5 En Caml, on n’a pas besoin de la construction while. Au lieu d’écrire:

while e do c;;

on peut en effet écrire

let rec f () = 
        if e
           then begin
                  c;
                  f ()
                end
        else ()
in f ();;

où f est un nom frais (non utilisé dans e ou c). Peut-on recoder les boucles while par un codage similaire dans le langage de cette section? Et en C? Et en C--?

Il manque à cette sémantique, notamment, l’allocation mémoire et les pointeurs, les variables globales, la possibilité d’effectuer des effets de bord à l’intérieur des expressions. Ceci sera réparé dans la sémantique de C--, que nous décrivons tout de suite.

De plus, la sémantique de l’appel de fonctions est en réalité un peu bricolée, autrement dit pas très élégante. On verra à la section 7.2 qu’un style de sémantique dit par continuations est plus élégant, tout en étant plus proche du code assembleur que l’on produit classiquement.

6.2 La sémantique de C--

On supposera pour simplifier que fun_π contient aussi des entrées pour toutes les fonctions de la libc, comme printf, strcpy, malloc, free, etc. Et que, de même, ρ_π contient aussi des entrées pour toutes les variables globales de la libc, comme errno par exemple.

Exercice 6 La définition de π permet-elle d’allouer deux variables à la même adresse? Ceci est-il souhaitable? Si oui, pourquoi? Si non, comment réparer la définition?

Exercice 7 La définition de fun_π n’autorise pas à avoir deux fonctions de même nom. Mais il peut y avoir deux CFUN (loc, f, params, code) avec le même f fourni à la fonction compile. Comment traduisez-vous ces dernières var_declaration en entrées pour fun_π, pour tenir compte de cette différence conceptuelle?

qui dit qu’en partant d’une mémoire

, et d’un environnement

qui dit à quelles adresses sont stockées les variables, l’expression C-- e peut s’évaluer en la valeur v in Z₃₂, et modifier la mémoire en µ′.

Il y a deux sortes de variables. Les variables locales (ou automatiques dans le jargon du C) sont données dans l’environnement ρ:

Exercice 8 Quelle règle s’applique-t-elle dans le cas d’une variable locale (x in dom ρ) qui a le même nom qu’une variable globale (x in dom ρ_π)?

Exercice 9 Que se passe-t-il si x est une variable globale pour laquelle aucune mémoire n’est allouée (ρ_π(x) n’est pas dans dom µ?)

L’évaluation des chaînes est un peu plus étrange. Elle retourne une adresse mémoire quelconque où se trouve déjà la représentation de s. Disons que s est stockée à l’adresse a si et seulement si s ne contient pas l’octet 0, il existe une adresse a+k dans la mémoire µ contenant un octet nul, avec k minimal, et la suite de tous les octets aux adresses a, a+1, a+2, …, a+k−1 vaut s.

En pratique, le compilateur devra allouer de la place pour la chaîne s à la compilation. Ceci est fait pratiquement automatiquement par l’assembleur. Par exemple,

réserve de la place pour les octets ‘r’ et 0, les place à une adresse nommée .main_3. L’instruction mystérieuse .align 4 sert à assurer que ce qui suit commencera à une adresse multiple de 4, ce qui facilite la tâche du processeur pour certaines opérations.

Exercice 10 La sémantique ci-dessus n’oblige pas à stocker toute chaîne présente dans le programme. Que se passe-t-il si s n’est stockée nulle part?

Pour toute mémoire µ, pour toute adresse a in Addr, pour toute valeur v in Z₃₂, notons

la mémoire qui à a associe v, et à toute autre adresse a′ ≠ a associe µ (a′).

On a encore deux règles pour SET_VAR, selon que la variable est locale ou globale.

Exercice 11 Que se passe-t-il si on écrit x=1 en C-- mais que x n’est pas dans dom ρ? … ni dans dom ρ ni dans dom ρ_π? Ceci arrive lorsque x n’aura pas été déclarée, typiquement par int x. Comment réagit mcc dans ce cas? Comment réagit gcc dans ce cas?

Exercice 12 Pourquoi demande-t-on ρ (x) in dom µ′, resp. ρ_π(x) in dom µ′ dans ces règles? Autrement dit, quel genre de comportement étrange l’omission de ces conditions autoriserait-il?

Passons aux instructions de la forme x[i]=e. On comprend l’addition a+v comme étant effectuée modulo 2³².

Exercice 13 Dans quel ordre cette règle évalue-t-elle e et e′? Que spécifie la norme ANSI C?

Exercice 14 Pourquoi demandons-nous que v in Z₃₂ et a+v in Addr dans ces règles?

Disons qu’une mémoire µ′ étend µ, ce que nous noterons

, si et seulement si

et µ′_{|dom µ} = µ. On note

la fonction qui à chaque x_i associe a_i, 1≤ i≤ n. Ceci est bien défini lorsque les x_i sont distinctes deux à deux.

Exercice 15 Dans quel ordre sont évalués les arguments d’un appel de fonction CALL comme ci-dessus? Que dit la norme ANSI C à ce sujet?

Exercice 16 Pourquoi demande-t-on , …, , dans (19)? Pour répondre à cette question, imaginez que µ′_n=µ_n, …, µ′₂=µ₂ dans (19), et demandez-vous si votre compilateur produit effectivement du code correspondant à la spécification.

Exercice 17 Pourquoi, sur le même principe, ne demanderions-nous pas des mémoires auxiliaires qui étendent µ′, plutôt que de réutiliser directement µ′ dans l’évaluation de e′, dans les règles (17) et (18)?

Exercice 18 Que se passe-t-il si la fonction f n’est pas définie? Si f est définie avec un nombre d’arguments différent de n? Si la liste des paramètres formels de f n’est pas de la forme CDECL (l₁, x₁), …, CDECL (l_n, x_n) mais contient un élément de la forme CFUN (…)?

Exercice 19 Pourquoi demande-t-on , …, dans les prémisses de (19)?

Exercice 20 Rien n’empêche les variables x₁, …, x_n d’être non distinctes. Si c’est le cas, la notation n’a aucun sens. Réparez la règle (19) pour tenir compte de ce fait.

Exercice 21 Dans quel cas le modulo 2³² est-il nécessaire?

Exercice 22 On aurait pu s’attendre que la négation bit à bit soit décrite en termes des bits de v. Montrer que la définition ci-dessus est équivalente, autrement dit que −v−1 est bit la négation bit à bit de v.

Exercice 23 Que se passe-t-il si on applique M_POST_INC à autre chose qu’une variable?

Exercice 24 Écrire les règles sémantiques pour M_PRE_INC, M_POST_DEC, M_PRE_DEC.

Exercice 25 Pourquoi ?

Exercice 26 Dans quel ordre sont évalués les arguments?

Exercice 27 Écrire les règles sémantiques pour S_DIV, S_MOD, S_ADD, S_SUB.