Web ページでの Unicode 文字の使用の概要 (&#、\u など)

$Web ページでの Unicode 文字の使用の概要 (&#、\u など)$

初期のコンピュータでは ASCII 文字しか使用できませんでしたが、コンピュータのアプリケーションの範囲が拡大するにつれて、多くの国がコンピュータ用の特別な文字セットを設計し、中国の GB2312 コードなど、自国や国民の文字やテキストをコンピュータで表示および処理できるようにしました。その後、インターネットが登場して全世界がつながり、複数の国や民族のテキストを 1 台のコンピューター、あるいは 1 つのインターフェースで表示することが実際的なニーズとなりました。国際組織が、世界中のすべてのテキストと記号に対応できる文字エンコード方式を開発しました。これは、Universal Character Set の略称である Unicode と呼ばれ、言語間およびプラットフォーム間のテキスト変換と処理の要件を満たすために使用されます。1994 年のリリース以来、継続的に拡張され、現在はバージョン 10 に達しています。

最新バージョンのコードテーブルのダウンロードなど、詳しい情報については、https://www.unicode.org/ をご覧ください。

Web ページを設計するときに、Unicode 文字セットを使用できます。HTML、CSS、JavaScript のいずれで使用するかに応じて、使用方法が異なります。

1) HTML での使用: &#dddd; または &#xhhhh;

このうち、dddd は 4 桁の 10 進数値を表し、hhhh は 4 桁の 16 進数値を表します。2 つの形式にはそれぞれ &# と &#x がプレフィックスとして付いており、10 進コードまたは 16 進 Unicode コードであることを示します。また、どちらもセミコロンを末尾に付ける必要があります。現在、4 ビットの 16 進コードを使用する Unicode 文字は十分にサポートされており、そのほとんどは Web ページで正常に表示できますが、他の多くの Unicode 文字は表示されないことがよくあります。これは、使用しているコンピュータープラットフォームに関連する Unicode サポートがインストールされていないためです。例：
<p>Unicode 文字 --∰ を表示します</p>
これは、Unicode コード 2230 の数学記号を示しています。この特殊文字を出力するには、「∰」または「∰」を使用し、ページに表示することができます。

2) CSSでの使用: \hhhh

Unicode 文字は CSS ではほとんど使用されませんが、時々使用されます。Unicode 文字は通常、先頭にバックスラッシュが付いた 4 桁の 16 進 Unicode コードで表されます。

3) JavaScript での使用: \uhhhh

JavaScript コードでは、特殊文字がよく使用されます。たとえば、ギリシャ文字やローマ数字などを使用して、要素内に温度や角度の記号を出力するには、4 ビットの Unicode 16 進コードの前にプレフィックス「\u」を追加するだけです。例：

ドキュメントのbody要素を次のように変更します。

Unicode コード 25D0 が使用されます。幾何図形表では、半月のように、通常は白で塗りつぶされ、半分が黒で塗りつぶされた円形のパターンです。

もちろん、中国人による Unicode の最も一般的な使用は、漢字です。より多くの中国語の文字を表示するために、中国語の文字ライブラリはまず GB2312 から GBK に拡張され、現在は GB18030 に拡張されています。 GB18030 の最新バージョンには、70,000 を超える中国語の文字、さまざまな少数言語、および一部の特殊文字が含まれています。この標準は、Unicode コード方式と一致しています。もちろん、一部のコンピュータにはサポートソフトウェアの完全な新しいバージョンがインストールされていないため、一部の文字しか表示できない場合があります。

中国語文字の Unicode コードを取得するには、JavaScript 関数 charCodeAt() を使用できます。次に例を示します。

var ucode="赵".charCodeAt();

このようにして、変数 ucode に漢字「赵」の Unicode コードが格納され、得られた Unicode コードは 36213 となり、これは 10 進 Unicode コードです。 toString(16) メソッドを使用して、この 10 進コードを 16 進コードに変換できます。

var ucode="赵".charCodeAt().toString(16);

これにより、中国語の文字「赵」の 16 進 Unicode コードが得られ、値は 8d75 になります。

一般的に、中国語の文字を出力する場合、中国語の文字を含む文字列をそのまま表示することができます。中国語文字の Unicode コードを使用して、対応する中国語文字やその他の文字を出力することもできます。

文字列.fromCharCode(36213);

これにより、10 進 Unicode コード 36213 の文字が文字列に変換され、この文字列を出力すると、中国語の文字「赵」が表示されます。入力メソッドを使用して中国語の文字を直接文字列に変換できるため、このメソッドはいくつかの特殊文字を出力するためによく使用されます。

&#エンコーディングを文字に変換する

これは Unicode エンコーディングであり、エンコーディングプロセスは次のとおりです。

たとえば、「杨」をエンコードする場合は、新しいメモ帳を作成し、「杨」と入力して Unicode エンコードとして保存することを選択し、ファイルのバイナリコンテンツを表示します。最初の 2 バイト FF FE は Unicode エンコードファイルヘッダーフラグであり、次の 2 バイト 68 67 は「杨」の Unicode エンコードです。計算機を使用して 10 進数に変換すると、26472 になります。これで、HTML ファイルに「杨」と書き込むことができ、IE で開くと「杨」という単語が表示されます。

もちろん、一般的な ASCII コードの場合、Unicode エンコーディングは ASCII エンコーディングと一貫しているため、A は大文字の「A」を表示できます。

&#エンコーディングを文字に変換する

関数 uncode(str) {
str.replace(/&#(x)?([^&]{1,5});?/g を返します。関数 (a, b, c) {
String.fromCharCode(parseInt(c, b ? 16 : 10)) を返します。
});
}

文字を&#エンコーディングに変換する

関数encode(str) {
var a = []、i = 0;
(; i < str.length ;) の場合、a[i] = str.charCodeAt(i++);
"&#" + a.join(";&#") + ";" を返します。
}

ウェブページでの Unicode 文字の使用 (&#、\u など) に関するこの記事はこれで終わりです。より関連性の高い Unicode コンテンツについては、123WORDPRESS.COM の過去の記事を検索するか、以下の関連記事を引き続き参照してください。今後とも 123WORDPRESS.COM をよろしくお願いいたします。

<<: CSS を解析して画像のテーマカラー機能を抽出する (ヒント)

>>: HTML iframe で親ページと子ページ間の双方向メッセージングを実装する例