SAS Utility: Lex for Delphi(3)

2013年9月16日月曜日

Lex for Delphi(3)

連休の合間を使って字句解析のプログラム(dlex.exe)を調べています。
文字を保持する型が集合型(CClass)なので、Unicodeの文字を格納することができません。ここは、安直にString型に置き換えてみます。問題なのが、以下の部分です。

集合型の演算（和集合、差集合、積集合）
定数の連続値（1...128)

集合型であれば要素の順番に気を配る必要はありません。しかし、文字列に置き換えると、重複を除く必要があります。また、集合型であれば、#1...#128と短く書けますが、文字列で扱うとなると記述が長くなり、文字列定数の長さ制限に引っかかります。

騙しだましにプログラムを直して字句解析のパーサ(dlex.exe)をビルドして、サンプルの字句解析プログラムを生成してみました。しかし、サンプルとして出力されたコードと比較すると、微妙に差が出ています。惜しい！

文字列の重複を排除するためにTStringListを使っていますが、英字の大文字/小文字を無視しているように見えます。CaseSensitiveのプロパティをTrueにして、まだコード生成、比較をします。これで差異を生じている部分は残り2箇所になりました。

さらに、Unicodeの字句定義が通るか検証します。exprlex,lを修正して、指数表現の[eE]の部分をひらがなの”あ”に置き換えます。

dlex.exeで字句定義からコードを生成します。

字句定義を修正する前後で、コードと比較します。右側の集合型の定数部部分にひらがな”あ”の文字がありません。うまくすれば、"あ"の文字が入るかと思いましたが、いずれにしろ集合型だと日本語の判定は正しく判定されないので、これで当面はOKです。

残りの作業を整理します。

コード生成でcc:の集合型の部分を出力している箇所を突き止める。
サンプルの出力コードと一致するように調整する。
出力されるコードを集合型から文字列に直す。
文字コードの判定で#128...#255までの指定が意味あるか調べる。

続きはまた来週

1 件のコメント :

mining2013年9月16日 21:37
関数writeccの中で、文字を判定して集合型のコードを生成しています。
返信削除
返信

コメントを追加

登録: コメントの投稿 ( Atom )