MÉMENTO D'UTILISATION DE BISON

Ce mémento résume les fonctionnalités essentielles de Bison et du couplage Flex et Bison et les illustre avec des exemples ou des liens vers les exercices adéquats. On se reportera aux pages du manuel, pour des informations plus complètes.

0. Sommaire

1. Format des spécifications
2. Couplage avec Flex
3. Traitement erreur
4. Valeurs typées de symboles
5. Priorité et Associativité
6. Quelques Outils
7. Conflits et Debug

1. Format des spécifications Bison

Un exemple couvrant l'ensemble des éléments que l'on utilisera par la suite :

---- ExoBison/memento1.bison
%{    /*========== Section : Definitions =============*/
#include <stdio.h>
extern int yylex();
int yyerror (char const *message) { 
  fputs (message, stderr); fputc ('\n', stderr); return 0;
}
%}
%error-verbose              /* message d'erreur plus complet */
%start var2                 /* Definition de l'axiome (defaut=1ere regles) */
%token TOK1 TOK2 '\n' '+'   /* Declaration des symboles terminaux (cf. partie 2)*/

   /* Typage des valeurs de symboles term. ou non-term, (cf. partie 4) */
%union {  type1  selecteur1;  type2  selecteur2; }
%token <selecteur1> TOK3
%type  <selecteur2> var1

   /* Declaration de tokens avec priorité et associativité ( cf. partie 5) */
%left <selecteur2> TOK4
%right TOK6
%nonassoc TOK7

%%   /*========== Section : Regles de grammaire ==========*/
var1 :   /* mot vide ! */        {$$=0;}
     | TOK1 var2  TOK2 '\n'      { /* Action */ }
     | var2 TOK3 var1 '+' TOK4   { $$ = fonct($2,$3,$5); /* cf. partie 4 */ }
     | error TOK6                { yyerrok; /* cf partie 3 */ }
;
var2 : TOK7 var1 TOK6    { /* ... */}
%%   /*========== Section : Code utilisateur =============*/
int main(void) { return yyparse(); }

Éléments de syntaxe :

La syntaxe Bison reprend la même structure que Flex et la même logique pour l'inclusion de code C : en prologue, dans des actions dites sémantiques , ou en épilogue.
Bison suppose :
- l'existence d'une fonction int yylex() pour la lecture des tokens (écrite à la main ou fournie par Flex),
- la définition d'une fonction int yyerror(char const *) pour l'impression des messages d'erreurs,
- une fonction main() pour l'analyseur.
Les fonctions yyerror() et main(), peuvent éventuellement être fournies par la librairie bison (gcc -ly), mais l'on préférera l'écriture explicite dans les spécifications.
Les symboles de la grammaire se déclinent en Terminaux (Tokens), et Non-Terminaux (Variables). Pour une bonne lisibilité, on différenciera le nommage ou la typographie des deux types de symboles.
Les identificateurs de symboles utilisent les lettres, les chiffres, le souligné '_' et le point '.'.
Les symboles Terminaux doivent être déclarés dans une directive %token, ou éventuellement dans une des directives %left, %right ou %nonassoc.
Les symboles Non-Terminaux n'ont pas besoin d'être déclarés (sauf si on a typage, cf. partie 4).
Les Tokens réduits à un caractère ASCII peuvent éventuellement être implicites (cf. partie 2)
Dans les règles de grammaire :
- le caractère ':' sépare les parties droites et gauches d'une règle de grammaire.
- pour des règles successives avec la même partie gauche, on peut laisser vide la partie gauche et utiliser le caractère '|' pour démarrer la partie droite.
- le caractère ';' termine (de façon optionnelle), un bloc de règle avec la même partie gauche.
- l'axiome est par défaut le symbole en partie gauche de la première règle de grammaire, il peut être changé avec la directive %start

2. Couplage avec Flex : partage des Tokens

cf. aussi l'annexe A des slides du cours

Les différents Tokens (symboles Terminaux) gérés par bison sont identifiés par des valeurs entières :

Ce sont les valeurs de retour de la fonction int yylex().
Les valeurs 1 à 255 sont implicites pour les Tokens réduits à un caractère ASCII.
Il n'est pas nécessaire de les déclarer dans une directive %token, mais cela est recommandé pour la lisibilité.
Le token 0 est réservé pour la fin de fichier "EOF",
le token 256 est réservé pour le token fictif "error",
le caractère NUL ('\0') doit être remonté explicitement si besoin.
Bison associera une valeur entière à chaque token déclaré dans la spécification, et publiera ces valeurs dans un fichier ".h".
Le lexer inclura le fichier ".h" issu de Bison, et l'utilisera comme définition des valeurs de retour de la fonction int yylex().
La commande "> bison -d -o foo.c spec.bison" produit le code de la fonction yyparse() dans "foo.c" et la définition des tokens dans "foo.h"

Exemple de fichier ".h" produit avec la spécification précédente :

/*--- memento1.h généré par bison -d ----*/
...
#define TOK1 258
#define TOK2 259
#define TOK3 260
#define TOK4 261
#define TOK6 262
#define TOK7 263

#if ! defined YYSTYPE && ! defined YYSTYPE_IS_DECLARED
typedef union YYSTYPE {
  type1  selecteur1;
  type2  selecteur2;
} YYSTYPE;
# define YYSTYPE_IS_DECLARED 1
#endif

extern YYSTYPE yylval;

Exemple d'utilisation dans une spécification Flex :

---memento1.flex---
%{
#include "memento1.h"
}%
%%
expr1    {return(TOK1);}
expr2    {return(TOK2);}
expr3    {return('+');}
.        {return(yytext[0]);
%%

On renvoie aux exercices ExoLexParse pour plus de détails, et en particulier sur l'utilisation d'un Makefile générique.

3. Traitement erreur

Cette partie est traitée spécifiquement dans l'exercice ExoLexParse/Utilisation Combinée de Flex et Bison (partie 3.4)

Les éléments de Bison concernés sont :

La fonction yyerror() définie par l'utilisateur pour l'impression des messages d'erreur,
l'option %error-verbose pour détailler les messages d'erreur,
le symbole Non-Terminal prédéfini error pour la détection d'erreur et la resynchronisation après erreur,
les macros yyerrok et yyclearin pour la reprise après erreur.

4. Valeurs typées de symboles : Tokens ou Variables

cf. aussi l'annexe A des slides du cours

Conformément aux principes de l'analyse lexicale, Flex et Bison permettent d'associer une valeur sémantique à un Token (symbole Terminal). Cette valeur est inutile pour l'analyse syntaxique proprement dite mais sera ensuite nécessaire au niveau de l'analyse sémantique ou des traitements ultérieurs.

---Exemple d'analyse lexicale :
Unité lexicale    { Identifiant de Catégorie , valeur dans la catégorie )
"234"             { Token ENTIER, valeur entière 234}
"+"               { Token OP_PLUS, nil}
"number"          { Token IDENT, pointeur dans une table de symbole }
"{1,2}"           { Token INT_SET, valeur typée à définir}

Bison permet aussi d'associer une valeur aux Variables de la grammaire (symboles Non-Terminaux). Ceci permet par exemple :

la construction explicite de l'arbre de syntaxe abstraite au cours de l'analyse,
l'évaluation à la volée de type calculatrice,
ou différents types de traitements intermédiaires entre les 2 cas précédents.

4.1) Valeur de Tokens

Pour les valeurs typées associées aux Tokens (symboles Terminaux) :

La valeur peut être définie par un type C quelconque.
Le type peut être différent pour les différents Tokens.
L'affectation de ces valeurs se fait dans l'analyseur lexical.
La lecture de ces valeurs se fait dans l'analyseur syntaxique ou plutôt dans l'analyseur sémantique

Le partage entre Bison et l'analyseur lexical se réalise ainsi :

Bison définit une variable unique yylval.
Le type de yylval est défini dans Bison avec la directive %union :
```
%union { 
  type1  selecteur1;
  type2  selecteur2;
}
```
En l'absence de déclaration, le type de yylval est par défaut int.

La définition de yylval est partagée dans le fichier ".h" issu de "bison -d" :

#if ! defined YYSTYPE 
typedef union YYSTYPE { 
  type1  selecteur1;
  type2  selecteur2;
} YYSTYPE;
#endif

extern YYSTYPE yylval;

La directive %union correspond directement à un type "union" en C. La syntaxe est identique à celle d'un type "struct", mais la différence est qu'un "union" ne contient qu'une seule valeur pouvant être de différents types au choix. Le programmeur est donc responsable d'utiliser le bon typage entre l'écriture et la lecture dans un type "union".
La déclaration d'un Token avec valeur se fait avec une directive %token (ou de façon équivalente dans %left,%right,%nonassoc) sous la forme :
```
%token <selecteur1> TOK3
%left  <selecteur2> TOK4
```
Dans Flex, l'écriture se fait en utilisant directement la variable yylval, a priori juste avant le return du token concerné :
```
yylval.selecteur1=Valeur_de_Type1;
return(TOK3);
```
Dans un bloc action d'une règle Bison, la lecture de la valeur se fait avec "$i" qui identifie la valeur du symbole en position "i" dans la partie droite de la règle :
```
Symb : Symb1 TOK3 Symb2 Symb3 TOK4 ....  { printf( "TOK3 vaut %s, TOK4 vaut %s", $2,$5);}
```
Intuitivement, Bison recopie la valeur de yylval à chaque appel de yylex(), stock cette valeur dans la pile au coté du Token à chaque opération "shift", et rend accessible ces valeurs sous forme d'un tableau "$1 $2 ...$n" à chaque opération "reduce" sur n symboles.

4.2) Valeur de Variables

Pour les valeurs typées associées aux Variables (symboles Non-Terminaux) :

La directive %union est commune pour les Tokens et pour les Variables.
La directive %type <selector> ... permet de déclarer une valeur typée associée à une Variable.
Dans une action, $1,$2,.., donnent les valeurs associées aux symboles terminaux ou non-terminaux de la partie droite d'une règle.
Dans une action,$$=... permet d'affecter une valeur à la variables en partie gauche de la règle.

4.3) Exemple : lecture en base N d'une suite de chiffres

---- ExoBison/baseN.bison
%{
#include <stdio.h>
extern int yylex(); 
int yyerror (char const *msg) { return 0;}
#define N 10
%}
%union { int entier;  char  car; }
%token <car> CHIF
%type  <entier> var
%% 
Axiome : var '\n' {printf("Val=%d\n",$1);}
var : /* vide */  {$$=0;}
    | var CHIF    {$$ = N * $1 + ($2-'0');}
%%
int main(void) { return yyparse(); }

---- ExoBison/baseN.flex
%option nounput noinput
%{
#include "yyparse.h"
%}
%%
[0-9]	{yylval.car=yytext[0]; 
         return(CHIF);}
.|\n	return(yytext[0]);
%%
int yywrap (void) {return 1;}

5. Priorité et Associativité

Avertissement : Les explications qui suivent utilisent les termes de l'analyse syntaxique ascendante LR pratiquée par Bison. Vous pouvez dans un premier temps ignorer ces éléments, en remplaçant "conflit" par "ambiguïté", "shift" par "dérivation ou évaluation droite", "reduce" par "dérivation ou évaluation gauche".

Imposer qu'une grammaire soit non ambiguë, ou sans conflit dans une résolution LR est parfois impossible, souvent très contraignant, et généralement complexifie énormément l'écriture de la grammaire.

Une solution est d'accepter certaines ambiguïtés dans la grammaire et de rajouter des règles de résolution de conflit externes à la définition des grammaires algébriques.

Bison permet ainsi de définir des règles de Priorité et d'Associativité sur des tokens qui permettront de résoudre des conflits de type shift/reduce. L'utilisation la plus directe correspond à ce que l'on appelle des grammaires d'opérateurs ou aussi à un usage pratiqué depuis longtemps par les mathématiciens.

Grammaire ambiguë

Prenons l'exemple générique, d'une grammaire d'expressions à base d'opérateurs binaires :

%%
expr : expr OP1 expr
     | expr OP2 expr
     | /* .... */
     | ATOM
;
%%

Il y a ambiguïté si l'on analyse par exemple ATOM OP1 ATOM OP2 ATOM qui peut produire deux arbres de syntaxe abstraite :

Dérivation :   Gauche     ,    Droite      
                OP2	         OP1        
                / \	        /  \       
              OP1  ATOM      ATOM  OP2     
              / \   	           / \     
           ATOM  ATOM	        ATOM  ATOM

La même ambiguïté existe aussi pour l'expression ATOM OP1 ATOM OP1 ATOM.

Dans une résolution LR, le conflit se produit donc dans la position ATOM OP1 ATOM . OP2 où l'on a le choix :

réduire OP1 avec le première règle
décaler OP2 pour espérer appliquer la deuxième règle.

Résolution du conflit

De façon générale, les règles de priorité/associativité s'appliquent quand on rencontre un conflit shift/reduce avec une opération shift qui empile un token OP2 et un reduce qui "mange" un token OP1.

Associativité, "OP1 == OP2". Le conflit shift/reduce se résout par :
- Reduce si OP1 est déclaré associatif gauche, %letf OP1
- Shift si OP1 est déclaré associatif droit, %right OP1
- Erreur de syntaxe, si OP1 est déclaré non associatif, %nonassoc OP1
- Reste un conflit sinon, %token OP1
Priorité, "OP1 != OP2". Le conflit shift/reduce se résout par :
- Reduce si OP1 est prioritaire sur OP2
- Shift si OP2 est prioritaire sur OP1
- Est défini par l'Associativité si les deux tokens ont la même priorité (et de fait la même associativité)
- Reste un conflit sinon.

La priorité est définie par l'ordre des déclarations des tokens dans des directives %letf, %right ou %nonassoc :

un token déclaré après est plus prioritaire,
des tokens déclarés dans la même directive ont la même priorité (et la même associativité)

NB: Des tokens déclarés dans une directive %token n'ont aucune priorité et aucune associativité.

%letf OP1 OP2  // OP1 et OP2 meme priorite
%right OP3     // OP3 prioritaire sur OP1 et OP2
%left OP4      // OP4 prioritaire sur OP1,OP2,OP3

Exemples sur des opérateurs usuelles

5+2+4 == (5+2)+4 == 5+(2+4)    %right '+' ou %left '+'
5-2-4 == (5-2)-4 != 5-(2-4)    %left '-' 
idem pour '*' et '/'

en C  : A=B=5  == A=(B=5)      %right '='

5+2*4 == 5+(2*4) != (5+2)*4    '*' prioritaire sur '+'
5-2+4 == (5-2)+4 != 5-(2+4)    même priorité '-' et '+', %left '-' '+'
-3^2 == 9  ou -9 ?             '^' prioritaire sur '-' unaire semblerait le bon usage

Cf. exercice ExoBison/"Calculatrice Arithmétique" pour la mise en oeuvre.
On y trouvera quelques commentaires sur la "bonne" priorité des opérateurs usuels
On y trouvera aussi l'utilisation de priorités spécifiques avec la directive %prec.

6. Quelques Outils : Arbre.c, symtab.c...

Quelques codes éventuellement utiles pour la construction d'analyseurs syntaxiques sont fournies : Tools Page.

En particulier, on pourra trouver des implémentations basiques pour la gestion d'Arbres de Syntaxe Abstraite et de Tables de symboles. La mise en oeuvre dans ces 2 cas est illustrée dans les exercices "ExoBison/calculette*"

7. Conflits et Debug

Le debuging et la résolution de conflit dans le cas d'une Analyse Syntaxique LR n'est que partiellement abordé dans ce cours.

Bison dispose de fonctionnalités de traçage (YYDEBUG, option --debug,..) qui permettent à l'exécution de l'analyseur de tracer chaque appel à yylex(), chaque Shift et chaque Reduce ainsi que l'état de la pile. L'utilisation de ces informations nécessite une bonne compréhension de l'analyse LR et de l'automate construit automatiquement par Bison.

Bison fournit d'autre part l'accès à l'automate LR généré à partir d'une spécification. Ceci s'obtient avec les options "--report", "--report=state" ou "--verbose" de la commande Bison. Ceci produit un fichier "xxx.output" contenant une description textuelle de l'automate à pile d'analyse LR. Suivant les versions, il existe aussi des possibilités de générer une version graphique de l'automate.

Le format détaillé du fichier ".output" est changeant avec les versions de bison ou avec la langue utilisée. On notera que :

$accept, et $end sont des symboles conventionnels pour identifier le début et la fin de fichier. Pour un axiome START, bison produit une règle conventionnelle R0 "$accept : START $end"
Chaque état de l'automate est caractérisé par une liste d'Items LR, c'est-à-dire de "règles de production partiellement reconnues". Le caractère point '.' indique le pointeur de lecture, ce qui est avant le point est l'état de la pile.
Les états de l'automate LR sont aussi empilés dans la pile à chaque opération "Shift".
Lors d'une opération "Reduce", on aura donc de façon implicite un retour de l'automate à l'état empilé juste avant le nouveau symbole terminal produit en sommet de pile.
Dans chaque état, on a 2 types d'actions possibles :
- les actions associées au prochain Token à lire (lookahead). Elles sont identifiés par un Nom de Token, ou $end (EOF), ou $default (ANY token)
- les actions associées à une retour dans l'état après un "Reduce". Elles sont identifiés par le symbole terminal maintenant réduit en sommet de pile.
Les actions qui ne sont pas explicitement décrites sont des erreurs de syntaxe.

Une première utilisation de l'accès à l'automate Bison est illustrée dans l'exercice "3.3 Suppression de conflits" des Exercices de Grammaire ExoGram

Pour plus de détails, Cf. slides du cours sur la définition d'automates LR(0) ou cf. Manuel de Bison.

CSC 4508, TELECOM SudParis, P Hennequin
Last modified: Mars 2015