Posted 2020-02-10 Erick Navarro Computer Science / Compilers

Mi primer proyecto utilizando JavaCC

Se desarrollará un intérprete que recibe como entrada varias expresiones aritméticas y presenta como salida el resultado de dichas expresiones.

Las tecnologías para utilizar son:

JavaCC: Generador de analizadores léxicos y sintácticos.
Windows 10: Sistema operativo.
Netbeans 8.2: IDE (entorno de desarrollo integrado)
Java 8: Lenguaje de programación.

El proyecto completo del ejemplo puede descargarse del siguiente enlace:

Mi primer proyecto utilizando JavaCC

JavaCC

Java Compiler Compiler es un generador de analizadores para utilizar en java. Este generador es una herramienta que lee la especificación gramatical y la convierte en un programa de java que puede reconocer coincidencias con la gramática. Además del generador de analizadores en sí, JavaCC proporciona otras capacidades estándar relacionadas con la generación de analizadores, como la construcción de árboles (a través de una herramienta llamada JJTree incluida con JavaCC), acciones y depuración. Todo lo que se necesita para ejecutar un analizador JavaCC, una vez generado, es Java Runtime Environment (JRE).

Características

JavaCC utiliza un analizador descendente lo que permite el uso de gramáticas más generales.
Por defecto JavaCC genera un analizador LL(1), aunque JavaCC ofrece capacidades de anticipación sintáctica para resolver ambigüedades.
JavaCC permite la utilización de BNF Extendido, o lo que vendría siendo utilizar expresiones regulares tanto en la parte léxica como gramatical.
JavaCC permite la utilización de estados para manejar de mejor forma las expresiones regulares.
Para más información visitar la página oficial de JavaCC.

Prerrequisitos

Para este este ejemplo necesitamos las siguientes herramientas

Java Development Kit (JDK)
NetBeans (o cualquier IDE de nuestro agrado)
JavaCC

Agregar jdk a las variables de entorno

Debemos asegurarnos de que la carpeta bin del JDK haya sido agregada a nuestra variable de entorno Path, para ello vamos a la configuración de dicha variable de entorno

Clic derecho en Este equipo
Propiedades

Configuración avanzada del sistema
Variables de entorno
Variable Path
Editar

y si no existe agregamos la ruta a la carpeta bin del JDK, que en mi caso es:

1	C:\Program Files\Java\jdk1.8.0_211\bin

Descarga e instalación de JavaCC

Nos dirigimos a la página oficial de JavaCC, al ingresar hacemos clic sobre el botón de Download[Version].zip

Una vez descargado el archivo, lo extraemos y podremos ver el siguiente contenido:

El archivo que nos interesa es javacc.jar que se encuentra en la carpeta bootstrap:

Por conveniencia, vamos a trasladar el archivo .jar a la carpeta C:/javacc, sin embargo, podría guardarse en otra ubicación.

Más adelante le daremos uso a nuestro archivo javacc.jar.

Crear el proyecto utilizando NetBeans

Como mencionamos vamos a utilizar NetBeans, sin embargo podría usarse cualquier otro IDE. Vamos a mostrar la creación del proyecto y su estructura.

Seleccionamos la opción de nuevo proyecto.
Ahora seleccionamos el tipo de proyecto, en este caso Java Application y damos clic en siguiente.

Por último, agregamos el nombre del proyecto y finalizamos.

Vemos el resultado de la creación del proyecto.

A continuación, creamos un nuevo paquete llamado Analizador, produciendo el siguiente resultado.

Dentro de este paquete vamos a crear un nuevo archivo llamado Gramatica.jj, este archivo contendrá la gramática para reconocer el lenguaje que vamos a realizar.
Para facilitar la compilación de la gramática vamos a crear un archivo compilarGramatica.bat, con el siguiente contenido, siempre en el paquete Analizador.

1 2	java -cp C:\javacc\javacc.jar javacc Gramatica.jj pause

Lo que indican estas sentencias:

Agregar el archivo jar al classpath mediante el argumento -cp (classpath) – -cp C:\javacc\javacc.jar (o la ubicación de nuestro archivo javacc.jar)
Ejecutar java – java
Pasar el main del archivo jar – javacc
Pasar la gramática a compilar – Gramatica.jj
Evitar que se cierre la ventana de comando para ver el resultado – pause
Nota: utilizamos el argumento classpath para indicarle a java donde debe buscar los paquetes y clases a ejecutar, mas información en el siguiente link.

Construcción del lenguaje en JavaCC

Luego de esta introducción vamos a construir una programa que reconozca un lenguaje compuesto por una lista de instrucciones Evaluar que reciben una expresión aritmética para ser evaluada, por ejemplo:

1	Evaluar [34-29]

Explicación de la estructura del archivo Gramatica.jj

Sección de opciones: Esta sección es opcional, el área de opciones permite especificar algunas directrices que ayuden a JavaCC a generar analizadores léxico-sintácticos más eficientes y adaptados a las necesidades concretas del desarrollador. Existen muchas, si quieres conocerlas mejor puedes verificar la página 132 del libro Compiladores, de Sergio Gálvez Rojas Y Miguel Ángel Mora Mata. En este caso particular utilizamos solamente dos:
- Ignore_Case = true, para no hacer distinción entre mayúsculas y minúsculas.
- Static = false, para que los métodos que genere la compilación no sean estáticos.
1
2
3
4
options {
IGNORE_CASE = true;
STATIC = false;
}
Clausulas PARSER_BEGIN – PARSER_END: Sirven para indicarle a JavaCC el nombre de nuestra clase principal, así como para englobar tanto a esta como a cualquier otra que se quiera incluir de apoyo. En este ejemplo no definimos ningun método main, solo una clase llamada gramática para nuestro parser, por supuesto que esta clase gramática es la que debemos utilizar para invocar a nuestro parser, y el main lo incluimos fuera de este para tener un código más claro.
1
2
3
4
5
6
PARSER_BEGIN(Gramatica)
/** Analizador de expresiones aritmeticas sencillas. */
package Analizador;
public class Gramatica {
}
PARSER_END(Gramatica)

Sección para definición léxica: Esta sección contendrá los tokens permitidos por nuestro lenguaje, contiene distintas clausulas, pero las que utilizamos son:

Token: Constituyen los tokens que nuestro analizador va a reconocer, generalmente aquí se incluyen todos los terminales de nuestro lenguaje, aunque también se pueden utilizar tokens en la definición sintáctica sin haberlos definido en esta sección.
Skip: En esta sección se incluyen los tokens que se van a ignorar durante el análisis, por ejemplo, los espacios o saltos de línea.

/** Lexico */
SKIP : {
	" "
	| "\t"
	| "\r"
	| "\n"
}

TOKEN : {
	<NUMERO: (["0"-"9"])+>
	| <DECIMAL: (["0"-"9"])+"."(["0"-"9"])+>
	| <EVALUAR: "Evaluar">
	| <PCOMA: ";">
	| <PARENI: "(">
	| <PAREND: ")">
	| <CORI: "[">
	| <CORD: "]">
	| <MAS: "+">
	| <MENOS: "-">
	| <POR: "*">
	| <DIV: "/">
}
/** Fin Lexico */

Sección para definición sintáctica: Aquí vamos a definir las producciones para nuestro analizador, estas están definidas como funciones. A continuación explicamos la estructura:
- Como buena práctica es recomendable agregar en un comentario la producción en formato BNF para que sea más fácil entender la producción actual, ya que las reglas sintácticas en JavaCC pueden ser un poco confusas.
- La definición de un método incluye:
1
2
3
<TIPO> <NOMBRE> () :
{Sección para código de java, generalmente para declaraciones}
{Producciones, estas pueden incluir notación de expresiones regulares}
- Si quisiéramos invocar a otra producción, agregamos su llamada a método y para obtener su valor lo hacemos de la siguiente manera
1
2
3
4
5
6
/** Instruccion -> evaluar [ Expresion ]; */
void Instruccion() :
{double e;}
{
<EVALUAR> <CORI> e=Expresion() <CORD> <PCOMA> {System.out.println("El valor de la expresion es: "+e);}
}
- En tal caso necesitásemos obtener el valor de un terminal, debemos utilizar el atributo image, ya que cada terminal es un objeto de tipo Token, para obtenerlo hacemos lo siguiente
1
2
3
4
5
6
7
8
9
double Primitivo() :
{double e;}
{
<NUMERO> {return Double.parseDouble(token.image);}
|
<DECIMAL> {return Double.parseDouble(token.image);}
|
<PARENI> e=Expresion() <PAREND> {return e;}
}
- Algo a tomar en cuenta es que, podemos declarar variables de tipo Token y asignarlas al terminal, esto es por si tuviéramos varios terminales en una misma producción y así sepamos diferenciar cada uno.

Compilación de la gramática

Una vez finalizado nuestro archivo Gramatica.jj, vamos a compilar este para generar los archivos necesarios para su ejecución, vamos a utilizar el archivo compilarGramatica.bat creado al inicio. Al ejecutar el archivo veremos lo siguiente:

Como resultado de esto, en nuestro paquete analizador se crearon los siguientes archivos

Gramatica.java: Este archivo contiene las funciones de cada no terminal de la sección sintáctica
GramaticaConstanst.java: Esta interfaz contiene las constantes de tipo entero que identifican a cada token de nuestro lenguaje y son asignadas a las variables kind.
GramaticaTokenManager.java: Se encarga de reconocer los tokens durante el análisis léxico.
ParseException.java: Se utiliza para lanzar los errores durante el análisis sintáctico.
TokenMgrError.java: Se encarga de manejar los errores léxicos.
Token.java: Representa cada token definido en nuestra sección léxica.

Clase Principal

Por último, vamos a invocar a nuestro parser en el método main, para utilizar nuestro parser basta con crear la clase Gramatica y pasar por parámetro nuestro archivo de entrada, luego de crear la instancia invocamos al método inicial que en nuestro caso sería el método analizar.

package proyectojavacc;

import Analizador.Gramatica;
import Analizador.ParseException;
import Analizador.TokenMgrError;
import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.util.logging.Level;
import java.util.logging.Logger;
/**
 *
 * @author Pavel
 */
public class ProyectoJavaCC {

    /**
     * @param args the command line arguments
     */
    public static void main(String[] args) {
        try {
            Gramatica parser = new Gramatica(new BufferedReader(new FileReader("./entrada.txt")));
            parser.Analizar();
        } catch (ParseException e) {
            System.err.println(e.getMessage());
        } catch (FileNotFoundException e) {
            Logger.getLogger(ProyectoJavaCC.class.getName()).log(Level.SEVERE, "Error al intentar leer el archivo.", e);
        } catch(TokenMgrError e){
            System.err.println(e.getMessage());
        }
    }
    
}

Ejecución del archivo de entrada

El archivo que vamos a utilizar debe encontrarse dentro de la carpeta de nuestro proyecto.

Y su contenido es el siguiente:

Evaluar[1+1];
Evaluar[1+1*2];
Evaluar[-(1+1*6/3-5+7)];
Evaluar[-(1+1*6/3-5+1*-2)];
Evaluar[-(1+1)];

Ejecutamos nuestro programa y vemos la siguiente salida:

Acerca del autor:

Este tutorial fue elaborado por el Auxiliar de Cátedra Pavel Vásquez, como contribución al curso de Organización de Lenguajes y Compiladores 2 de la Universidad de San Carlos de Guatemala.