補遺 II. フランス語とHTML



 以下の内容は現在のWeb 上でのフランス語表示法の解説としては不十分なものになっています。ご了承下さい。[2001年12月14日]


 フランス語のテキストとHTMLの問題について以下にふれてみたい。ただし、フランス語のホームページの作り方の実際について解説しようとするものではない。これについては適宜参考書などを参照していただきたい。なお、以下の内容に関しては 粕谷祐己さんから多くの情報をお寄せいただいた。
[このページの公開日、1997年 1月 8日。更新日、1998年 3月23日]


(1)フランス語HTML化の二方式

 WWW で文書を公開するには、まず自分のパソコン上でエディタなどを使って文書にHTMLタグを書き加え、文書をHTML形式に整える。次にこのファイルをWWW サーバーの自分用のディレクトリにFTP ソフトを使って転送すればよい。
 ところで、フランス語のテキストをHTML化する場合には、アクサン付き文字などの特殊文字をWWW 上で表示させるために2種類の方法がある。

 一つは、フランス語のテキストのレベルでたとえば é と記述してHTML文書とすると、WWW ブラウザ上ではこの記述部分が e accent aiguとして表示されるという方法である。これはエスケープシーケンスという技術を使っているようであり (藪、田辺『HTML早わかり』1995, オーム社、pp.201-202) 、仮に「エスケープシーケンス方式」と呼ぶことにしたい。

 フランス語特殊文字のそれぞれに対応するエスケープシーケンスについては、この書のほか、たとえば吉村信、他『インターネット・ホームページデザイン』1995, 翔泳社、p.84-87 でもふれられている。
 (*) 「エスケープシーケンス方式」によるフランス語のホームページ作成法については、三上吉彦 さんによる「フランス語・ドイツ語・スペイン語ホームページの書き方」[http://www.threeweb.ad.jp/logos/mlweb/weurope.html] を参照することもできる。ここでは「エスケープシーケンス」は Named Character Reference と (おそらくより適切に)呼ばれている。

 Windows 系では、たとえばMS-Word95(日本語版) に、同じマイクロソフト社が無料で配付している "Internet Assistant" というソフトを組み込むと、このエスケープシーケンス方式でフランス語のHTMLファイルを出力する。Macintosh 対応の Adobe Page MillというHTML作成ソフトも、自動的にエスケープシーケンス方式でフランス語のHTMLファイルを出力する。

 次に、フランス語の特殊文字をWWW 上で表示させるには、テキストのレベルで特殊文字を含んでいるフランス語の文章に、タグを付け加えてHTML化してもよい。WWW でも特殊文字はそのまま表示される。この方法は仮に「テキスト方式」と呼ぶことにしたい。

 なお、WWW 上でアクサン付きのフランス語で書かれているページを正しく表示するため操作はブラウザによっていくらか異なる (フランス語と日本語が混在しているページについては後で述べる) 。
 マイクロソフト社のブラウザ Internet Explorer 3.0日本語版ならば、「エスケープシーケンス方式」で作られたフランス語のページなら文字コードを「日本語 (自動判別) 」にしたままでも正しく表示するが、「テキスト方式」で書かれたページはアクサン付き文字が文字化けする (Windows版の場合。Mac版Internet Explorer の場合については確認していない) 。文字化けが起きる場合には、文字コードセットを欧文用 (Internet Explorer の場合には Windows-1252)に設定し直す必要がある。
 一方、Netscape (Version3.0) では、文字コードが「日本語」のままでは、どちらの方式でつくられたフランス語のページも文字化けが起こる。文字化けが起きる場合には、やはり文字コードセットを欧文用 (Latin1) に設定し直さなければならない。

 (*) ただし、ここで Netscape またはInternet Explorer で文字化けが起こるケースでも、フランス語のホームページを発信する側からそれを避けることができる。ホームページ側で「METAタグ」を使えば、ブラウザ側のコードの設定が「日本語」になっていても、自動的に「Latin1(ISO-8859-1)」のコードでそのホームページを読むように指令を出すことができる。
 具体的には、<HEAD>の部分の <TITLE>の次の部分に
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=ISO-8859-1">
というタグを記述すればよい。
 ふだんブラウザのコードを「日本語」に設定している日本人を想定した場合には大変便利な技法である。また、例えばこの同じタグで charset=x-sjis とすれば、ブラウザに「sjis」の日本語コードでそのページを読むように指令を出すこともできる。この技法については 三上吉彦さんにお教えいただいた。なお、「METAタグ」については、三上さんの著作『マルチリンガルWEB ガイド』1997, オライリー・ジャパン/オーム社) p.282 でこの他の例も含めてより詳しくふれられているので参照していただきたい。

 以下では、今見た二つの方式それぞれについて関連する問題を見ることにしたい。


(2)エスケープシーケンス方式をめぐって

・テキストの復元
 一般にHTMLの文書は、そのままでWWW ブラウザ以外のエディタなどで扱おうとするとHTMLのタグが余計である。また、エスケープシーケンス方式の場合には、WWW のブラウザ上では特殊文字が表示されても、テキストには &eacute; などと記述されているので、そのままではブラウザ以外のソフトでは扱えない。何らかの方法で特殊文字を含むテキストを復元しなければならない。文学作品の電子テキストなどで特にこうした復元が問題になろう。以下、こうした復元の方法について見てみたい。

 エスケープシーケンス方式によって特殊文字を表示しているHTML形式のフランス語の文章をブラウザ上から「コピー」してエディタなどのソフトに「ペースト」し、それをテキスト・ファイルとして保存すると、ブラウザ上で見られるような特殊文字も含んだテキスト文書とすることができる。HTMLのタグも省かれる。これはWindows でもMacintosh でも同様である。ただ、長い作品などだと、ハードウェアの条件によって何度にも分けてペーストしなければならなくなる。

 (*) Internet Explorer (v.3.0) でHTMLの文書を表示させ、「名前をつけて保存」を選び、ファイルの形式を本来の「*.htm (あるいは *.html)」から「*.txt」に書き換えておいてから、保存の操作をすると、ブラウザ画面で見られるような特殊文字も含んだテキスト文書として保存される。この文書は、単語の途中で改行されることもないので検索などに利用できる。一方、Netscape (v.3.0)の場合は、やはり「名前をつけて保存 (Save as ...)」から同様の操作をするとテキスト文書にすることができるが、単語の途中でも改行されてしまい、このままでは検索などに利用できない。Internet Explorer の場合は、この方法は簡便でもあり、長い作品もテキスト文書化できるようなので利用することができそうだ。ただし、フレームを使っているページで、この方法で保存してもHTMLタグが残る場合もあるようだ。また、以上はWindows95 における場合で、Macintosh については確認していない。
 したがって、以下に述べるエスケープシーケンスからのテキストの復元は、ここまでに見た方法をとらない場合に必要とされることになる。

 エスケープシーケンスの復元のためには、テキストエディタなどで &****; を当該の特殊文字に置換することができる。この場合、マクロを組んでこの作業を自動的に行わせることもできる。以下、 中尾浩さんに教えていただいた「秀丸エディタ」 (Windows 対応) のマクロの利用法を紹介したい。
 「秀丸エディタ」用のマクロ "html2txt.mac" はニフティ・サーヴで入手できるHTMLのタグをはずすためのマクロである (ニフティのプロンプトでGO WINFFと入力し、 "Windows File Finder"でキーワード「hidemaru」、「macro 」、「html」で検索してからダウンロードすればよい) 。このマクロにエスケープシーケンスを本来の特殊文字に置換するための記述を追加すれば、HTMLのタグをはずすことからエスケープシーケンスの復元まで一度に行うことができる。
 秀丸のマクロでは欧文特殊文字は「\x00」の書式で16進コードで指定する。たとえばWWW 上で e accent aiguを表示するためのエスケープシーケンスの記述 &eacute; を、ANSIコードの e accent aigu (コードテーブルでE9の位置) に置換するためには、次のように記述すればよい。
replaceallfast "&eacute;", "\xE9", casesense;
ここで casesense; は "&eacute;" と "&Eacute;" とを秀丸に区別させるための記述である。
 これをフランス語特殊文字の分だけ記述し、"html2txt.mac"に追加すればよい。こうして作成したマクロファイルを秀丸本体(HIDEMARU.EXE)と同じフォルダに置いておき、秀丸で開いたエスケープシーケンス方式のHTMLのフランス語テキストに対してこのマクロを実行すれば、テキストの復元を行うことができる。
 なお、"html2txt.mac"の中の 1行当たりの桁揃えのマクロは単語の途中でもかまわず改行してしまうため、この桁揃えが特殊文字への置換に先行していると置換できないものが出るし、最後に桁揃えするとしてもその後検索などができなくなる。このマクロの部分は削除してしまうのがよい。改行しなければ画面の幅に合わせて「折り返され」るが、これなら検索などには差し支えない。
 中尾さんに作っていただいたマクロの追加部分 ("esc2ansi.mac") は、この色文字部分をクリックしてダウンロードできるので、別途入手した "html2txt.mac" に貼り付けるなどして利用していただきたい。 (Netscapeではクリックすると直接ファイルの内容を見ることができ、次に保存 (Save) の操作をすればよい。Internet Explorer では指示に従ってダウンロードする。ダウンロードしたファイルをエディタなどで開けば内容を見ることができる。) なお、HTMLのマークアップの中には、"html2txt.mac" + "esc2ansi.mac" のマクロを通しただけでは残ってしまうものもあるので、それらについては適宜対応していただきたい。

 Macintosh でも、たとえば Nisus Writer のマクロの「記録」で検索・置換を自動記録し、それを必要な文字分だけ繰り返し、その記録を一つにまとめて保存すれば、次からはそのマクロを立ち上げるだけですべてを自動的に変換してくれるようである。

・フランス語と日本語の混在
 エスケープシーケンス方式のHTMLはそのままではブラウザ以外のソフトで処理するには不便な面があった。だが、この方式ならではの利点もある。この方式でフランス語を記述すると、ブラウザによっては、一つのHTML文書の中で特殊文字を含むフランス語と日本語とを混在させて表示することができる。マイクロソフト社のブラウザ Internet Explorer 3.0 日本語版でこの表示が可能である。文字コードを「日本語 (自動判別) 」にしておくと、フランス語特殊文字も正しく表示される。 (Windows版の場合。Mac版Internet Explorerについては筆者は確認していない。)
 たとえば、WWW ページ「世界の言葉をコンピュータとインターネットで/フランス語」[http://www.threeweb.ad.jp/logos/french.html] を開けばこの混在表示が確認できる。
 ただし、Netscape (v.3.0) では日仏文字の混在表示はできない。

 この混在はフランス語をエスケープシーケンス方式で記述することを前提としている。すでにふれたように、フランス語の特殊文字を直接入力したテキストをHTML文書としても、WWW 上で特殊文字をそのまま再現できる。だが、こうした直接入力の特殊文字は日本語とコード上で衝突しており、WWW 上で日本語と両立させるためには、特殊文字は「エスケープシーケンス」で処理しなければならないのだと思われる。


(3)テキスト方式をめぐって

 フランス語の特殊文字をWWW 上で表示させるには、テキストのレベルで特殊文字を含んでいるフランス語の文章をHTML化してもよいことはすでにふれた。WWW でも特殊文字はそのまま表示される。この「テキスト方式」は、テキストの文字コードに自分のパソコンが対応していれば、テキスト部分はそのままブラウザ以外のアプリケーションソフトで扱うことができる。

 WWW 上のフランス語の電子テキストのかなりの部分は、アクサン付きのテキストにタグをつけるだけで、インターネット上の標準の "ANSI/ISO 8859 Latin1" のコードで発信している (ABU の多くのテキストなど) 。WWW 上の電子テキストにはエスケープシーケンス方式のものもあるが、テキスト方式のものの方が多数のように思われる。

 Windows はこの ANSI/ISO 8859 Latin1 のコードとほぼ同じコード (Windows-1252) を使っているので、Windows95 日本語版上でフランス語入力機能などを使って特殊文字を含むフランス語の文書を作成し、そのままタグを付けてHTML文書とすれば、WWW でフランス語の文書を公開することができる。

 Latin1のコードによる「テキスト方式」でWWW 上で公開されているフランス語の文書は、Windows 上ではWWW ブラウザでも、ブラウザでDocument Source を表示させても、SaveしてWindows 上の欧文対応のエディタやワープロから開いてみても、すべて正しく表示される。ただし、ワープロは、MS-Word95 日本語版 (文書を開くときに「ANSIテキスト」と指定) 、欧文 (英文) ワープロ、「秀丸」 (フォントを欧文用に設定) などを使う。普通の日本語対応のワープロでは漢字に文字化けする場合が多い。

 一方、Macintosh 上のSimpleTextなどのエディタで特殊文字を含むフランス語の文書を作成し、タグをつけてHTML文書とし、Mac 用の代表的FTP ソフトである "Fetch"でWWW サーバーに転送して、文書を公開することもできる。特殊文字についてMac は独自のコードを使っているのだが、Mac の文書はサーバーに送られた段階で ANSI/ISO 8859 Latin1 のコードに変換されるようだ。この変換は、"Fetch" が行っているらしい。Mac でフランス語の文章を入力してHTML化し、転送する際に Format を Text に設定しておくと、Macintosh 以外のマシンに接続した場合には、Fetch がMac のコードを自動的に ISO Latin1 のコードに変換するらしい。なお、Mac 用のコード変換ソフトであるTower of Babel (ダウンロードはここ をクリックし1997年 2月の時点では tower-of-babel-13.hqxというファイルを入手) を用いてMac のコードをLatin1に変換してから、Fetch のFormatを RawDetaに設定して転送しても同じことになる。

 なお、Mac では Latin1 のコードのフランス語は保存してからワープロなどから「開いた」のでは正しく表示しないが、Netscapeなどのブラウザの画面からNisusWriter などいくつかのワープロに「貼り付け」ると正しく読めるようだ。また、Tower of Babelなどのソフトを使えばMac で扱える形式に変換できる。

 以上、フランス語のテキストをHTML化する二つの方法について見たが、電子テキストの公開については、私としては Latin1 のコードでの「テキスト方式」での公開の方が利用しやすい気がする。Mac ユーザーの立場からも、上述のTower of Babelを使えば容易にMac で扱える形式への変換ができるようである。ただ、WWW はこの Latin1 の 8bit コードを通すはずだが、データを転送する経路などの関係で 8bit の特殊文字部分が文字化けする可能性はわずかながらあるかもしれない。このわずかの可能性も避けたいというのであれば、7 bit 文字の範囲内で特殊文字も表現するエスケープシーケンス方式の方が転送の過程でより安全かもしれない。また、日仏混在のテキストを表示する必要のある場合はエスケープシーケンス方式を使うことになる。