CSC4251_4252 — Compilation : du langage de haut niveau à l'assembleur

Exercices d'utilisation de JFlex (seul)

0. Prologue

0.A. Installation logicielle pour le module

Pour le module, vérifier l'installation qui suit :

on programme en JAVA car c'est le langage appris dans le module CSC3101. Vérifier que vous avez une version ≥ 21 ;
on construit les compilateurs avec l'outil Maven, qui est présenté lors du premier cours. Vérifier que vous avez une version ≥ 3.8.6. Cf. les instructions d'installation de Apache Maven ;
les quelques scripts utilisés sont écrits en Bash, car c'est le langage appris dans le module CSC3102. Vérifier que vous pouvez exécuter des scripts Bash.

Par exemple, voici l'installation de JAVA et de Maven sur les machines des salles de TP :

$ java -version
openjdk version "21.0.8" 2025-07-15
OpenJDK Runtime Environment (build 21.0.8+9-Ubuntu-0ubuntu124.04.1)
OpenJDK 64-Bit Server VM (build 21.0.8+9-Ubuntu-0ubuntu124.04.1, mixed mode, sharing)
$ mvn -version
Apache Maven 3.9.9 (8e8579a9e76f7d015ee5ec7bfcdc97d260186937)
Maven home: /opt/maven
Java version: 21.0.8, vendor: Ubuntu, runtime: /usr/lib/jvm/java-21-openjdk-amd64
Default locale: fr_FR, platform encoding: UTF-8
OS name: "linux", version: "6.14.0-35-generic", arch: "amd64", family: "unix"

0.B. Mise en place de l'environnement du cours

Récupérer le code des exercices JFlex (seul) et JFlex+CUP, qui est sur la plateforme GitLabEnse.

pour se connecter sur la plateforme GitLabEnse, utiliser le bouton « SSO IMTPS-TSP Campus Shib » pour la connexion, et ne surtout pas saisir vos adresse courriel et mot de passe dans la page d'accueil GitLabEnse.

Voici à titre indicatif les commandes afférentes :

$ mkdir -p $HOME/CSC4251_4252
$ cd $HOME/CSC4251_4252
# si vous préférez, connectez-vous à l'adresse https://gitlabense.imtbs-tsp.eu/enseignants-csc4251_4252/csc4251_4252-exercices
# et téléchargez l'archive via le bouton/menu « Code » puis « zip » ou une autre archive
$ git clone git@gitlabense.imtbs-tsp.eu:enseignants-csc4251_4252/csc4251_4252-exercices.git
$ cd csc4251_4252-exercices
$ ls *
Makefile

CUPJFlexExercices:
CUPJFlexExercice01  CUPJFlexExercice03	CUPJFlexExercice05  CUPJFlexExercice07	CUPJFlexExercice09
CUPJFlexExercice02  CUPJFlexExercice04	CUPJFlexExercice06  CUPJFlexExercice08	pom.xml

JFlexExercices:
JFlexExercice01  JFlexExercice04  JFlexExercice07	 JFlexExerciceEnVrac04	JFlexExerciceEnVrac07  JFlexExerciceEnVrac10
JFlexExercice02  JFlexExercice05  JFlexExercice08	 JFlexExerciceEnVrac05	JFlexExerciceEnVrac08  pom.xml
JFlexExercice03  JFlexExercice06  JFlexExerciceEnVrac03  JFlexExerciceEnVrac06	JFlexExerciceEnVrac09

Dans le répertoire, construisez tous les projets Maven en exécutant la commande make.

Pour les projets JFlex (seul), c.-à-d. dans le répertoire JFlexExercices, l'arborescence d'un exercice, par exemple JFlexExercices/JFlexExercice01, est la suivante :

src/main/resources/ : le fichier de spécification JFlex (spec.jflex) ;
src/test/resources/ : un exemple de fichier de données à analyser (input.txt) ;
src/main/java/compil/ : quelques classes JAVA permettant d'exécuter l'analyseur lexical généré par JFlex (compil.Compiler avec la méthode main) ;
src/test/java/ : les classes pour les tests (compil.TestCompiler analyse par défaut le fichier de données en entrée cité ci-avant, c.-à-d. input.txt).
target/classes/compil/Yylex.class : le répertoire target n'existe qu'après la construction du logiciel, c'est-à-dire après l'exécution de la commande mvn install, ou au minimum mvn generate-sources.

Selon le processus de construction du compilateur défini dans le fichier pom.xml, les cibles principales suivantes sont disponibles (voir aussi la figure qui suit) :

mvn clean generate-sources : créer l'analyseur lexical, c'est-à-dire la classe Yylex sans compiler ni exécuter les tests ;
mvn clean install : construire et exécuter les tests du compilateur ;
mvn test : une fois le compilateur construit (incluant aussi les classes de tests), exécuter les tests sur le contenu d'un des fichiers à analyser par le compilateur. Cette cible est utile lorsque l'on veut tester sans changer le compilateur mais sur un autre contenu, c.-à-d. sur au autre fichier à analyser.

La figure qui suit présente les étapes de construction du compilateur avec la commande mvn clean install. La maîtrise de ce processus de construction vient avec la pratique. Donc, prendre cette figure et les instructions qui suivent comme une référence et penser à y revenir :

Processus Maven de construction du compilateur avec l'exécution des tests

Quelques adaptations possibles simples :

changer le fichier de spécification JFlex dans le fichier pom.xml en modifiant le contenu de la balise <lexDefinition> ;
changer le fichier pour les tests dans la classe TestCompiler ;
créer un nouveau test avec un nouveau fichier en entrée en créant un nouveau test par mimétisme de la méthode TestCompiler::test1 ;
ne tester que la génération de l'analyseur lexical Yylex avec la commande mvn clean generate-sources ;
lorsqu'il y a plusieurs classes de test, n'exécuter qu'une classe de test particulière avec la commande mvn test -Dtest=compil.TestCompiler ;
lorsqu'il y a plusieurs méthodes de test dans une classe de test donnée, n'exécuter qu'une méthode de test particulière avec la commande mvn test -Dtest=compil.TestCompiler#test1.

0.C. Utilisation de l'IDE Eclipse

avant de charger un projet Maven dans Eclipse, nous vous conseillons de construire le projet en mode commande avec la commande mvn clean install.

Dans la section précédente, nous avons observé le projet Maven JFlex (seul) de nom jflex_exercice_01. Nous rappelons ici son arborescence :

$ cd $HOME/CSC4251_4252/csc4251_4252-exercices/JFlexExercices/JFlexExercice01
$ tree --charset=ascii
.
|-- pom.xml
|-- readme.md
|-- src
|   |-- main
|   |   |-- java
|   |   |   `-- compil
|   |   |       |-- Compiler.java
|   |   |       `-- util
|   |   |           |-- CompilerException.java
|   |   |           `-- Debug.java
|   |   `-- resources
|   |       |-- Jflex8bits.include
|   |       |-- JflexCup.include
|   |       |-- Jflex.include
|   |       `-- spec.jflex
|   `-- test
|       |-- java
|       |   `-- compil
|       |       `-- TestCompiler.java
|       `-- resources
|           |-- input1b.txt
|           |-- input1c.txt
|           `-- input.txt
`-- target
    |-- classes
...

Pour créer le projet, Eclipse demande deux fichiers de configuration : .project et .classpath. Voici la manière de procéder :

il s'agit d'utiliser le greffon m2e (Maven to Eclipse) de Eclipse : au lieu de créer le projet dans Eclipse comme un projet JAVA, importez-le comme un projet Maven (menu File > Import > Maven > Existing Maven Projects > Next puis Browse > $HOME/CSC4251_4252/csc4251_4252-exercices et enfin Finish). Dans ce cas, c'est Eclipse qui crée les fichiers de configuration .project et .classpath. Dans la vue « package explorer » de Eclipse, un « M » est ajouté à côté du « J » sur l'icone du projet et les cibles Maven sont disponibles dans le menu contextuel : clic droit > Run As :
- Maven clean : supprimer le répertoire target pour effacer tout ce qui a été généré et compilé. Un effet de bord est de voir des erreurs de compilation dans Eclipse : en effet, la classe de l'analyseur lexical Yylex a disparu ;
- Maven generate-sources : exécuter JFlex pour générer la classe de l'analyseur lexical Yylex. Comme Eclipse s'aperçoit que le code a changé, le projet est re-compilé et l'erreur de compilation disparaît lorsque la génération JFlex s'est déroulée sans erreur ;
- Maven test : exécuter les tests JUnit selon les classes dans l'arborescence src/test/java et qui comportent dans leur nom la chaîne de caractères Test ;
- Maven install : construire le compilateur en enchaînant generate-sources, compile, test-compile, test, etc.

On peut réaliser la génération JFlex soit de façon externe à Eclipse avec les commandes Maven, soit de façon intégrée dans Eclipse avec le menu contextuel : une fois le projet sélectionné, Run as.... Dans les deux cas, la commande Eclipse > File > Refresh (F5) est utile pour assurer la bonne synchronisation d'Eclipse avec le système de fichiers. Pour limiter le recours au Refresh (F5), on peut activer la préférence Eclipse > Window > Preferences > General > Workspace avec « Refresh using native hooks ».

Enfin, lorsque le code du compilateur a été généré dans Eclipse, on peut exécuter une classe de test ou même une méthode d'une classe de test en sélectionnant l'élément et en utilisant le menu contextuel Run as > JUnit.

Premiers pas – Analyse lexicale d'un langage de programmation

Utilisation simple de JFlex, unité et catégorie lexicale, Règle-balai, ECHO().

Exécution manuelle (optionnelle)

[Lire la section 1 du Memento JFlex]
Avant d'utiliser uniquement les modules Maven, regardons une curiosité (le mode « traditionnel » appelé standalone) de JFlex en utilisant l'archive jflex.jar (à télécharger).
Soit une spécification JFlex : first0.jflex avec Jflex.include et un exemple de données : first0.data Construire l'analyseur lexical, exécuter sur l'exemple, et suivre les explications qui suivent.

$ java -jar jflex.jar first0.jflex
$ javac Yylex.java
$ java -cp $PWD Yylex first0.data

Dans cet exemple de spécification JFlex, tout est reporté en sortie, mais on identifie les fragments reconnus (ici les identificateurs) en les marquant entre crochets. Il s'agit du fonctionnement « traditionnel » de lex/flex qui applique une règle-balai implicite qui imprime les caractères non reconnus. Dans toute la suite, on oubliera ce fonctionnement « traditionnel » et le mode %standalone de JFlex et on écrira toujours une règle-balai explicite pour définir le traitement des caractères non reconnus.

Environnement du cours

[Lire les sections 1, 2 et 3 du Memento JFlex]
Dans le prologue de cette page, vous avez récupéré le projet Maven JFlex jflex_exercice_01.
Refaire la question précédente avec l'environnement du cours :

Remplacer le contenu de la spécification JFlex dans le fichier src/main/resources/spec.jflex par le contenu du fichier qui suit :

first1.jflex
Regarder en particulier la définition des méthodes ECHO(), WARN() et WHERE() dans le fichier src/main/resources/Jflex.include.
Dans la classe de test TestCompiler, remplacer le fichier input.txt par le fichier input1b.txt
Tester la spécification avec des commandes Maven, c.-à-d. :
- dans un terminal, avec la commande mvn clean install ;
- dans Eclipse, avec l'utilisation par le menu contextuel du projet Maven, Run As > Maven clean puis Run As > Maven install.

Une fois la classe JAVA de l'analyseur lexical Yylex générée et toutes les classes JAVA compilées, on peut tester le compilateur sans commande Maven :

dans Eclipse, sélectionner la classe des tests à exécuter TestCompiler et utiliser le menu contextuel Run As > JUnit Test ;
dans Eclipse, sélectionner la classe du compilateur Compiler et utiliser le menu contextuel Run As > JAVA Application. Dans la vue « console » de Eclipse, le message suivant est affiché :
=== Étape 1 Analyse Lexicale === Reading standard input Analyse Lexicale (type any text) :
On peut alors entrer des lignes de texte à analyser. Pour terminer cette saisie interactive, le caractère de fin de fichier EOF s'obtient avec Ctrl-d.

Attention aux potentiels « ... » dans le code inséré !

...
%%
%include Jflex.include
...
...
%%
[a-zA-Z] [a-zA-Z0-9]*  { ECHO("ID"); }
[^]                    { ECHO(); }
...

Analyseur lexical d'un langage de programmation

[Lire la section 4 du Memento JFlex]
Modifier et compléter la spécification précédente pour reconnaître les catégories lexicales suivantes :

identificateur,
mot-clé du langage : for, while, if...
opérateur arithmétique : + * / -,
opérateur de comparaison : < >,
opérateur d'affectation et d'incrément : = += ++ ,
séparateur : () {} ; , [],
nombre entier ou flottant.

Les classes [+-*/], [-+*/], et [+*-/] sont différentes. Pourquoi ?

Compléter avec :

une règle-balai générant un avertissement pour les caractères non reconnus (méthode WARN(..)),
une catégorie "commentaire" pour ignorer les commentaires de style C++ (//... fin_de_ligne),
d'autres catégories jusqu'à éliminer les caractères non reconnus. (blancs, etc.).

Exemple de résultat attendu :

first2.out

Attention aux potentiels « ... » dans le code inséré !

...
%%
[-+*/]                 { ECHO("OP");  }
[<>]"="?               { ECHO("CMP"); }
[(){},;\[\]]           { ECHO("SEP"); }
[-+*/]?"="             { ECHO("AFF"); }
"++"                   { ECHO("INC"); }
for|if|else|while      { ECHO("KW");  }
[a-zA-Z] [a-zA-Z0-9]*  { ECHO("ID");  }
[0-9]+ \.?             |
[0-9]* \.? [0-9]+      { ECHO("NUM"); }
[ \t]+                 { /* ignore espaces  */ }
"//".*                 { /* ignore comments */ }
\R                     { ECHO(); }
[^]                    { WARN("Invalid char : " + yytext()); }
...

Les mots-clés doivent être reconnus avant les identificateurs, sinon aucun mot-clé ne sera reconnu.
Noter la gestion des caractères spéciaux ou méta-caractères JFlex :

On peut utiliser le \, ou les classes de caractères [..]. Les expressions \<|\> et [<>] sont équivalentes.
À l'intérieur d'une classe de caractères, les seuls caractères réservés sont -, ^, \ et ]. De plus, le ^ n'est spécial que en première position et le - n'est plus spécial en première ou dernière position. Par exemple, la classe [-+=] contient bien 3 caractères alors que la classe [+-=] contient les 19 caractères ASCII entre le + (0x2b) et le = (0x3d).

le Graal

Pour réaliser une analyse lexicale complète et conforme du langage C 2011, il faut de l'ordre de 150 lignes de spécification lexicale : spécification Lex/Yacc pour ISO-C 2011.

Oulipo

Priorité des règles, Action nulle, Classe de caractères.

Les questions sont courtes et indépendantes. Elles reprennent des extraits de l'Oulipo Ouvroir de Littérature Potentielle.

Cf. le répertoire JFlexExercice02 avec le projet Maven jflex_exercice_02.

Lipogramme sans e

Un lipogramme est un texte d'où une lettre est bannie. Cet exercice est à faire "ni six moins cinq, ni dix moins huit" (Lipogramme sans "e" pour "ni une, ni deux" !).

Écrire un analyseur lexical qui n'affiche que les lettres "e" ou "E" d'un texte.
Tester sur un extrait de "La Disparition" de Georges Perec : fichier src/test/resources/input2a_oulipo_lipogramme_sans_e.txt

Attention aux potentiels « ... » dans le code inséré !

...
package compil; // nom du paquetage à adapter
%%
%include Jflex.include
%%
[eE]  {} /* { ECHO("E!" + WHERE()); } */
[^]   { ECHO(); }
...

Asphyxie ou Lipossible

En asphyxiant un texte, c'est-à-dire en le privant de la lettre "r", on obtient un autre texte qui est dit anaérobie du premier.
Écrire un analyseur supprimant les "r".
Exemple dans le fichier src/test/resources/input2b_asphyxie_ou_lipossible.txt

Attention aux potentiels « ... » dans le code inséré !

...
package compil; // nom du paquetage à adapter
%%
%include Jflex.include
%%
[rR]    { }
[^]     { ECHO(); }
...

Variante sans haine

Écrire un analyseur supprimant les "n".
Exemple dans le fichier src/test/resources/input2c_variante_sans_haine.txt.

Attention aux potentiels « ... » dans le code inséré !

...
package compil; // nom du paquetage à adapter
%%
%include Jflex.include
%%
n|N    { }
[^]    { ECHO(); }
...

Abécédaire

Écrire un analyseur affichant la première lettre de chaque mot (Indication : utiliser la méthode String.CharAt(int i)).

Qu'est-ce qu'un mot ?

1 ou 2 mots ? : « Aujourd'hui », « l'amusement », « amuse-toi », « amuse-gueule »
Et le « qu'en-dira-t-on » de la « pomme de terre » quand tout va « à vau-l'eau »
Bref, le Mot est une notion sémantique qui ne répond pas toujours à une définition lexicale rigoureuse.

On pourra, au choix, définir un mot à partir des caractères qu'il peut contenir ou bien à partir des caractères qui séparent les mots.
Exemple dans le fichier src/test/resources/input2d_abecedaire.txt.

Attention aux potentiels « ... » dans le code inséré !

...
package compil; // nom du paquetage à adapter
%%
%include Jflex.include
%eof{  /* code en action final */
System.out.println();
%eof}

MOT = [-[:letter:]] +
MOT2 = [^ \n\t,.!?\'():] + // autre solution

%%
{MOT}      { System.out.print(yytext().charAt(0)); }
{MOT2}     { ECHO("MOT2"); }
[^]        { }
...

Recherches dans un dictionnaire

Expressions régulières, Contexte et gestion des lignes.

Les questions sont indépendantes et de difficulté croissante. On considère un dictionnaire comme le fichier /usr/share/dict/words qui contient des « mots » ligne à ligne, et l'on désire extraire les mots vérifiant certaines propriétés. Ceci s'apparente directement à la commande UNIX grep. (N.B. le fichier /usr/share/dict/words est très dépendant de la distribution Unix, les résultats donnés ne sont que indicatifs)

Rappel sur la gestion des lignes :

[^xyz] reconnaît la fin de ligne,
. ne reconnaît pas la fin de ligne,
^ et $ reconnaissent la fin de ligne sans la "manger",
^ regexp $ est interdit, si l'expression regexp peut être vide.

Le projet de cet exercice, nommé jflex_exercice_03 est dans le répertoire JFlexExercice03.

Du cul pas cucul

Lister les mots contenant une lettre « q » non suivie de la lettre « u ». Ceci comprend les mots terminant par « q ».

Résultats sur /usr/share/dict/words : 308 mots comme « Aqaba », « antiq », « FAQ », « FQDN »...

Exemple dans le fichier src/test/resources/input3a_du_q_pas_culcul.txt.

Attention aux potentiels « ... » dans le code inséré !

...
/* Au moins 1 q non suivi de u : 308 mots sur /usr/share/dict/words */
package compil; // nom du paquetage à adapter
%%
%include Jflex.include
MOT = .* [qQ] ( [^uU\n] .* )?
%%
^ {MOT} \R { ECHO(); }
[^]        { }
...

Scrabble

Dans la version anglaise du Scrabble, les lettres les plus chères (10 points) sont « z » et « q ».

Lister les mots contenant au moins un « z » et au moins un « q »

Résultats sur /usr/share/dict/words : 253 mots comme Byzantinesque, benzoquinoxaline, quartz, Velasquez...

Exemple dans le fichier src/test/resources/input3b_scrabble.txt.

Attention aux potentiels « ... » dans le code inséré !

...
/* au moins 1 z et 1 q : 253 mots sur  /usr/share/dict/words */
package compil; // nom du paquetage à adapter
%%
%include Jflex.include
MOT  =  .* [zZ] .* [qQ] .*
     |  .* [qQ] .* [zZ] .*
%%
^ {MOT} \R { ECHO(); }
[^]        { }
...

Top Scrabble

Lister les mots contenant exactement un « z » et un « q ».

Résultats sur /usr/share/dict/words : 219 mots.

Exemple dans le fichier src/test/resources/input3c_top_scrabble.txt.

Attention aux potentiels « ... » dans le code inséré !

...
/* exactement 1 z et 1 q : 219 mots sur /usr/share/dict/words */
package compil; // nom du paquetage à adapter
%%
%include Jflex.include
OTH = [^zZqQ\n]
MOT  =  {OTH}* [zZ] {OTH}* [qQ] {OTH}*
     |  {OTH}* [qQ] {OTH}* [zZ] {OTH}*
%%
^ {MOT} \R { ECHO(); }
[^]        { }
...

Super Top Scrabble

Lister les mots contenant au moins un « z », au moins un « q » et au moins un « x ».

Résultats sur /usr/share/dict/words : 6 mots, benzofuroquinoxaline, benzoquinoxaline. extraquiz, quixotize, soixante-quinze, squeeze-box.

L'utilisation des expressions régulières n'est pas la solution la plus simple pour cet exercice. Il est plus rapide d'écrire directement du code.

Exemple dans le fichier src/test/resources/input3d_super_top_scrabble.txt.

Attention aux potentiels « ... » dans le code inséré !

...
/* Au moins 1 z, 1 q , 1x : 21 mots sur le dictionnaire /usr/share/dict/french
   désintoxiquassiez désintoxiquerez désintoxiqueriez désintoxiquez désintoxiquiez
   expliquassiez expliquerez expliqueriez expliquez expliquiez extorquassiez
   extorquerez extorqueriez extorquez extorquiez intoxiquassiez intoxiquerez
   intoxiqueriez intoxiquez intoxiquiez quartzeux
 */
package compil; // nom du paquetage à adapter
%%
%include Jflex.include
MOT = .* [zZ] .* [qQ] .* [xX] .*
    | .* [zZ] .* [xX] .* [qQ] .*
    | .* [qQ] .* [zZ] .* [xX] .*
    | .* [qQ] .* [xX] .* [zZ] .*
    | .* [xX] .* [zZ] .* [qQ] .*
    | .* [xX] .* [qQ] .* [zZ] .* 
%%
^ {MOT} \R { ECHO(); }
[^]        { }
...

Dead Beef – hexspeak – leet speak

On cherche des chaînes hexadécimales qui peuvent avoir un sens « littéral . De façon stricte, cela consiste à utiliser uniquement les chiffre-lettres « a » à « f ». De façon plus approximative d'utiliser la proximité graphique entre certains chiffres et certaines lettres comme « 0 » et « O » ou « 2 » et « Z »...

Lister en même temps les mots du dictionnaire :

contenant uniquement des lettres a, b, c, d, e ou f,
contenant uniquement des lettres a, b, c, d, e ou f, ou encore 0, I, Z, S ou G (approximations de 0, 1, 2, 5 ou 6),
de 4 lettres contenant uniquement des lettres a, b, c, d, e ou f,
de 4 lettres contenant uniquement des lettres a, b, c, d, e ou f ou 0, I, Z, S ou G.

Exemples : DEADBEEF, CAFEBABE, DICECA5E, B16B00B5...

Exemple dans le fichier src/test/resources/input3e_dead_Beef_hexspeak_leet_speak.txt.

Attention aux potentiels « ... » dans le code inséré !

...
/* DeadBeef */
package compil; // nom du paquetage à adapter
%%
%include Jflex.include
STRICT = [a-fA-F]
APPROX = {STRICT}|[oOiIzZsSgG]
%%
^ {STRICT}{4} $ { ECHO("4-STRICT"); System.out.println(); }
^ {APPROX}{4} $ { ECHO("4-APPROX"); System.out.println(); }
^ {STRICT}+   $ { ECHO("*-STRICT"); System.out.println(); }
^ {APPROX}+   $ { ECHO("*-APPROX"); System.out.println(); }
[^]             { }
...

ABBA

[Lire les sections 5 et 7 du Memento JFlex]

Expressions régulières non triviales, Négation d'expressions régulières, Point de vue théorie des langages.

La théorie des langages montre que l'ensemble des langages réguliers est fermé pour l'opération ensembliste « complémentaire ». La construction du complémentaire est facile si l'on se place du point de vue des automates finis, mais devient rapidement très difficile du point de vue des expressions régulières.

Pour chacune des questions, il s'agit de reconnaître les mots qui appartiennent et ceux qui n'appartiennent pas à un langage donné en écrivant une expression régulière explicite pour chacun des deux cas. On s'interdit de tricher en utilisant des mécanismes de JFlex comme les règles-balais ou l'opérateur de négation.

Cf. le répertoire JFlexExercice04 avec le projet Maven jflex_exercice_04.

On se place sur l'alphabet {a, b}* et on validera les solutions en testant sur tous les mots de taille fixée. On donne le programme Astar.java qui génère ligne à ligne tous les mots de taille égale (resp. inférieure ou égale) à N sur un alphabet de taille M (documentation dans le code ou à l'exécution sans argument). Voici un fichier de données exemple résultant de la commande java Astar.java ab 10 : astar_ab_10.txt.

On utilisera le squelette suivant comme spécification JFlex :

abbaProto.jflex

Seules les lignes OK= et NOT= sont à éditer pour chacune des questions.

Une solution est correcte si :

Réunion « pleine » : aucun mot n'est reconnaissable par la règle-balai [ab]*.
Ceci sera validé à la compilation par JFlex avec un message Rule can never be matched pour la règle [ab]*.
Intersection vide : le résultat ne dépend pas de l'ordre des 2 premières règles.
Ceci sera validé en testant sur un grand nombre de mots.

Ancien Alcoolique Anonyme

Trouver les expressions régulières pour reconnaître le langage des mots commençant ou finissant par la lettre « a » et le complémentaire de ce langage

Indication : Astar avec ab -10, puis analyse lexicale donne « OK = 1534, NOT = 513 ».

Exemple dans le fichier src/test/resources/input4a_abba_ancien_alcoolique_anonyme.txt.

Attention aux potentiels « ... » dans le code inséré !

...
OK  =  a .* | .* a
NOT =  ( [^a] (.* [^a])? )? 
// Astar ab -5   : OK = 46, NOT = 17
// Astar ab -10  : OK = 1534, NOT = 513
...

Bébé bègue

Trouver les expressions régulières pour reconnaître le langage des mots ne contenant pas 2 occurrences consécutives de la même lettre et le complémentaire de ce langage.
Indication : Astar avec ab -10, puis analyse lexicale donne « OK = 21, NOT = 2026 ».

Exemple dans le fichier src/test/resources/input4b_bebe_begue.txt.

Attention aux potentiels « ... » dans le code inséré !

...
OK =  a? (ba)* b? 
NOT =  .* ( aa | bb ) .* 
// Astar ab -5  : OK = 11, NOT = 52
// Astar ab -10 : OK = 21, NOT = 2026
...

Béaba ou b.a.-ba (difficile !)

Trouver les expressions régulières pour reconnaître le langage des mots ne contenant pas la chaîne « aba » et le complémentaire de ce langage.
Indication : Astar avec ab -10, puis analyse lexicale donne « OK = 814, NOT = 1233 ».

Exemple dans le fichier src/test/resources/input4c_beaba_ou_b_a_ba.txt.

Attention aux potentiels « ... » dans le code inséré !

...
// la solution traditionnelle calculée par négation
// d'automate et recurrence de McNaughton & Yamada
// OK  =  b* (a+bb+)* (a*|a+b)

// variante lemme de Arden et reduction de Gauss au lieu de McNaughton & Yamada
// OK = (a+bb|b)* (a+b)?

// La solution habile de Paul VANCAUWENBERGHE CSC4536 2021-2022
OK  =  b* (a|bb+)* b*
NOT =  .* aba .* 
// Astar ab -5  : OK = 47,  NOT = 16
// Astar ab -10 : OK = 814, NOT = 1233
...

Preuve mathématique dans les diapositives du cours.

Défi

Pour valider les réponses précédentes, on peut aussi utiliser l'opérateur de négation présent dans JFlex (et correcte depuis JFlex 1.8.2, merci au cours Compil !). Il suffit de vérifier que JFlex indique à la génération que la règle balai ne sera jamais appliquée pour les 2 spécifications suivantes :

%%
^ ({OK} |  {NOT}) \R  { }   /* Union */
^ [ab]* \R            { OUT("UNK"); }

%%
^ (!{OK} | !{NOT}) \R { }   /* Complémentaire de l'intersection */
^ [ab]* \R            { OUT("UNK"); }

Commentaire en C

Expressions régulières non triviales, Utilisation des « super-états ».

Cf. le répertoire JFlexExercice05 avec le projet Maven jflex_exercice_05.

Le but est de reconnaître et de supprimer les commentaires C du type /*... */. Pour le débogage, l'analyseur indiquera clairement les commentaires reconnus même s'il n'en affiche pas obligatoirement le contenu.

Un exemple pour tester :

comment.data

Expression régulière

Expliquer pourquoi les expressions régulières "/*".*"*/" ou "/*"[^]*"*/" ne sont pas satisfaisantes.
Écrire une expression régulière pour reconnaître un commentaire C.
Trouver une négation pour .* "*/" .*.
Tester l'expression "/*" ~"*/" (opérateur UpTo de JFlex), et utiliser cette expression pour valider votre solution.
Deux expressions sont équivalentes si quelque soit l'ordre dans la spécification la première règle empêche la deuxième de s'appliquer (message Rule can never be matched à la compilation JFlex).

Exemple dans le fichier src/test/resources/input5a_commentaire_en_c_expression_reguliere.txt.

Attention aux potentiels « ... » dans le code inséré !

...
START = "/*"
END   = "*/"
// mauvaise solution : monoligne, glouton
COMMENT0 = {START} .* {END}
// mauvaise solution : multiligne, mais tres glouton !
COMMENT1 = {START} [^]* {END}
// solution OK (vincent PESENTI, promo ASR3 2011-2012)
COMMENT2 = {START} ( [^*] | "*"+ [^*/] )* "*"* {END}
// solution spécifique JFlex avec opérateur UpTo
COMMENT3= "/*" ~"*/"

%%
{COMMENT2}    { ECHO("COMMENT"); }
{COMMENT3}    { ECHO("COMMENT3"); } // ne paire pas !!
"//".*        { ECHO("COM_C++"); }
[^]           { ECHO(); }
...

Super-état (défi)

[Lire la section 6 du Memento JFlex]
Reconnaître les commentaires en utilisant les super-états de JFlex (directive %state ou %xstate)

Exemple dans le fichier src/test/resources/input5b_super_etat.txt.

Attention aux potentiels « ... » dans le code inséré !

...
%xstate COMMENT

START = "/*"
END   = "*/"

%%
{START}        { yybegin(COMMENT);  System.out.print("/*.."); }

// syntaxe v1 
<COMMENT>{END} { yybegin(YYINITIAL); System.out.print("..*" + "/"); }
<COMMENT>[^]   { }

// syntaxe v2
// <COMMENT>{
//  {END}  { yybegin(YYINITIAL);  System.out.print("..*/"); }
//  [^]    { }
// }

[^]           { ECHO(); }
...

Commentaires sans automate (optionnel)

Les commentaires imbriqués n'existent pas en C.
Ce que l'on cherche à faire sort du domaine des langages réguliers et concerne les langages algébriques. On triche donc avec l'objectif de JFlex.

Reconnaître les commentaires sans utiliser d'automates (expressions régulières ou super-états) mais en utilisant une variable entière qui compte le niveau d'imbrication. Accepter et identifier les commentaires imbriqués avec leur niveau d'imbrication.

Exemple dans le fichier src/test/resources/input5c_commentaires_sans_automate.txt.

Attention aux potentiels « ... » dans le code inséré !

...
%{
int level = 0;
%}

%%
"/*"   { level++; System.out.print("/*" + level + " "); }
"*/"   { System.out.print(" " + level + "*/"); level--; }
[^]    { if (level == 0) ECHO(); }
...

WC

[Lire la section 7 du Memento JFlex]

Utilisation de variables, Code utilisateur, Traduction lexicale à la volée.

Cf. le répertoire JFlexExercice06 avec le projet Maven jflex_exercice_06.

Écrire l'équivalent de la commande UNIX wc qui affiche le nombre de lignes, le nombre de mots et le nombre de caractères d'un fichier texte. Les mots sont ici des séquences de caractère séparées par des « espaces ».

Exemple dans le fichier src/test/resources/input6_wc.txt.

Attention aux potentiels « ... » dans le code inséré !

...
%{
  int nb_car = 0, nb_mot = 0, nb_ligne = 0;
%}
%eof{
  System.out.println("Lignes : " + nb_ligne
                     + ", Mots : " + nb_mot 
                     + ", Car. : " + nb_car
                     );
%eof}

CAR = [^ \t\n\r]

%%
{CAR}+  { nb_mot++;   nb_car += yylength(); }
\R      { nb_ligne++; nb_car += yylength(); }
[^]     { nb_car++; }
...

La Vengeance de l'Oulipo

[Lire la section 7 du Memento JFlex]

WC++, Utilisation de variables, Code utilisateur.

Tautogramme – texte dont les mots commencent par la même lettre.

Cf. le répertoire JFlexExercice06 avec le projet Maven jflex_exercice_06.

Écrire un analyseur comptant simultanément :

le nombre total de mots,
le nombre de mots commençant par la lettre « v »,
le nombre de caractères de ponctuation,
le nombre de lignes.

Avec les exemples issus du discours prononcé par V dans le film « V pour Vendetta » (Traduction française par Féodor Atkin) : fichiers src/test/resources/input7_la_vengeance_de_l_oulipo_francais.txt et src/test/resources/input7_la_vengeance_de_l_oulipo_english.txt.

Résultats attendus :
v_oulipo.data : nb_v = 52, nb_mots = 143, nb_punct = 21, nb_lignes = 14
v_oulipo-VO.data : nb_v = 49, nb_mots = 127, nb_punct = 20, nb_lignes = 10

Attention aux potentiels « ... » dans le code inséré !

...
%{
  int nb_v = 0, nb_mots = 0, nb_lignes = 0, nb_punct = 0;
%}
%eof{
  System.out.println("\n nb_v = " + nb_v +
                    ", nb_mots = " + nb_mots +
                    ", nb_punct = " + nb_punct +
                    ", nb_lignes = " + nb_lignes);
%eof}

NL = \R
BLANC = [ \t]
MOT = [-[:letter:]] +
PUNCT = [,.!?\'():-;]

// v_oulipo.data :  nb_v = 52, nb_mots = 143, nb_punct = 21, nb_lignes = 14
// v_oulipo-VO.data :  nb_v = 49, nb_mots = 127, nb_punct = 20, nb_lignes = 10
%%
[vV]{MOT}? { ECHO("Vmot");  nb_mots++; nb_v ++; }
{MOT}      { ECHO("Mot");   nb_mots++; }
{PUNCT}    { nb_punct++; } /* NB : pas les - internes ! */
{BLANC}    { }
\R         { ECHO(); nb_lignes++; }
[^]        { WARN("Unknown"); }
...

Filtres

Gestion de lignes, Code Utilisateur, Ordre des règles.

Les questions sont indépendantes.

Cf. le répertoire JFlexExercice08 avec avec le projet Maven jflex_exercice_08.

Lignes vides

Écrire un filtre qui supprime :

les lignes vides,
les lignes blanches (uniquement espaces et tabulations),
les blancs inutiles en fin de ligne.

Exemple dans le fichier src/test/resources/input8a_filtres_lignes_vides.txt.

Attention aux potentiels « ... » dans le code inséré !

...
BLANC = [ \t]
NL = \R

   // NB : ne gere pas la fin de fichier sans \n avant EOF ...   
%%
^ {NL}          { }  /* ligne vide */
^ {BLANC}+ {NL} { }  /* ligne blanche */
{BLANC}+ $      { }  /* blanc en fin de ligne */
{BLANC}         { System.out.print("."); /* juste pour voire */ }
[^]             { ECHO(); }
...

Lignes vides et `cat -s`

Écrire un filtre qui remplace des lignes blanches ou vides consécutives par une seule ligne vide.

Comparer avec la commande UNIX cat -s.

Exemple dans le fichier src/test/resources/input8b_lignes_vides_et_cat_moins_s.txt.

Attention aux potentiels « ... » dans le code inséré !

...
^ [ \t]* \R+  { System.out.println(); }
[^]           { ECHO(); }
...

Numéros de ligne, `cat -n` et `cat -b`

Écrire l'équivalent des filtres cat -n et cat -b qui numérotent les lignes d'un fichier.

Exemple dans le fichier src/test/resources/input8c_numeros_de_ligne_cat_moins_n_b.txt.

Attention aux potentiels « ... » dans le code inséré !

...
%{
  int linenum = 1;
  void OUTLN() { System.out.print(linenum++ + "\t");}
%}

%%
  /* Permuter les 2 lignes "^\n", pour choisir entre cat -b ou cat -n */
^\R  { ECHO(); }          /* cat -b */
^\R  { OUTLN(); ECHO(); } /* cat -n */
^.   { OUTLN(); ECHO(); } /* Line Number */
[^]  { ECHO(); }
...

Détabulation, `expand` ou `col -x`

Écrire l'équivalent des filtres expand ou col -x qui remplacent les tabulations par des espaces.

On suppose que l'on a des « taquets » de tabulation tous les 8 caractères, et qu'une tabulation aligne sur le prochain taquet du texte.

Exemple dans le fichier src/test/resources/input8d_detabulation_expand_ou_col_moins_x.txt.

Attention aux potentiels « ... » dans le code inséré !

...
%{
  int car_pos = 0;
  void OUTSPACE() { System.out.print(" "); }
%}

%%
\t    { OUTSPACE(); car_pos++;
        for(; (car_pos%8) != 0; car_pos++) OUTSPACE();
      } 
\R    { ECHO(); car_pos = 0; }
[^]   { ECHO(); car_pos++;   }
...

Justification, `fold -s`

Écrire un filtre qui fait la justification d'un texte sur des lignes de 80 caractères. Les césures se font sur des caractères blancs. Les tabulations et espaces consécutifs sont remplacés par un seul espace. Les fins de ligne en entrée sont ignorées sauf pour les lignes vides qui sont conservées.

Comparer avec la commande UNIX fold -s.

Exemple dans le fichier src/test/resources/input8e_justification_fold_moins_s.txt.

Attention aux potentiels « ... » dans le code inséré !

...
%{
  static int MAXLINE = 80;
  int car_pos = 0;
  void NL() { System.out.println(); car_pos = 0; } 
%}

NL = \R
SP = [ \t\n\r\f\v]
CAR = [^ \t\n\r\f\v]

%%
^{SP}+   { }
{NL}{NL} { NL(); NL(); }
{NL}     { }
{SP}+    { if (car_pos != MAXLINE-1) {System.out.print(" "); car_pos++; } }
    /* nb : il reste des blancs en fin de ligne */
{CAR}+   { if ((car_pos + yylength() ) > MAXLINE-1) NL(); 
           ECHO(); car_pos += yylength(); }
[^]      { ECHO(); car_pos++; }
...

CSC4251_4252, Télécom SudParis, ≤ 2024, Pascal Hennequin, ≥ 2024, Denis Conan, J. Paul Gibson.

CSC4251_4252 — Compilation : du langage de haut niveau à l'assembleur

Exercices d'utilisation de JFlex (seul)

0. Prologue

0.A. Installation logicielle pour le module

0.B. Mise en place de l'environnement du cours

0.C. Utilisation de l'IDE Eclipse

Premiers pas – Analyse lexicale d'un langage de programmation

Exécution manuelle (optionnelle)

Environnement du cours

Analyseur lexical d'un langage de programmation

le Graal

Oulipo

Lipogramme sans e

Asphyxie ou Lipossible

Variante sans haine

Abécédaire

Recherches dans un dictionnaire

Du cul pas cucul

Scrabble

Top Scrabble

Super Top Scrabble

Dead Beef – hexspeak – leet speak

ABBA

Ancien Alcoolique Anonyme

Bébé bègue

Béaba ou b.a.-ba (difficile !)

Défi

Commentaire en C

Expression régulière

Super-état (défi)

Commentaires sans automate (optionnel)

WC

La Vengeance de l'Oulipo

Filtres

Lignes vides

Lignes vides et cat -s

Numéros de ligne, cat -n et cat -b

Détabulation, expand ou col -x

Justification, fold -s

Lignes vides et `cat -s`

Numéros de ligne, `cat -n` et `cat -b`

Détabulation, `expand` ou `col -x`

Justification, `fold -s`