文字

コンピュータは文字のそのものは記憶できないので、数値化します
いいかえれば、文字に数字を対応付けて処理します。
メモリやハードディスクは数字は二進数として記憶できるので、結果として文字も記憶できます。

コンピュータが出来た初期では、 小文字26+大文字26+数式算術記号+ピリオド、カンマ、空白+特殊用途  で初めは94種類の文字が必要とされました。

メモリーの1や0が入る場所が6か所(6ビット)だと64通りでたりません
7か所(7ビット)なら128通りなのでOKです
というわけで、一文字記憶させるのに、0か1が入る場所が最低7か所必要となります。

実際はいろいろな理由で8か所(8ビット)で一文字記憶します。

歴史的に最初に定められたものは、以下のようなものです。(ASCII アスキー文字といいます)
左上が0番で、右に進み、二段目に進みます。

背景が黄色のものは、制御用の特殊なもので、水色の部分が普通の文字です。

例えば、 A は65番目です。65は二進数で01000001です。
したがって、メモリが
                             
こんな状態になっていれば、これは A という文字を記憶している状態です。

8ビットにしたので、256パターンの文字が扱えます。そのため、後半部分はいろいろな国で独自に使っていいことにしました。
前半は全ての国で共通で

ですが、我が国の場合は、後半にはカタカナを収納しました。

しかし、これは 半角カタカナ といわれているものですが、字体としてもかっこ悪いし インターネットとの相性も悪いです。
そのため、最近ではあまり使われていません。

全角文字

漢字を扱おうとすると、8bit=1Byte=256パターンでは足りません。
16bit=2Byteなら65536種類の収録が可能です。
そこで、漢字入りの文書は16bit=2Byteで扱います。

8bitで表す文字を半角文字、16bitで表す文字を全角文字といっています。

半角文字=1Byteで表現。アルファベット、数字、算術記号など
全角文字=2Byteで表現。漢字など。アルファベット、数字、算術記号なども収録

また、同じ文字でも、半角と全角では字体が少し違うので注意してください。
例: 全角文字の 9 半角文字の 9

パスワードやメールアドレスなどで使うのは、普通は半角文字だけなので、注意してください。

全角文字の問題点と歴史的変遷

当初は、コンピュータネットワークが未発達なので、とりあえず自分のところだけで処理できればよかったのです。
そのため、 JIS、Shift−JIS(Mac Windows)、EUC(UNIX) EBCDIK(IBM)、NEC漢字など日本語だけでもいくつかの規格が乱立してしまいました。
さらに中国でGB2312-80、台湾でcns11643-1986、韓国でKSC5601-1992などの規格ができました。
つまり、どの漢字にどの数字を当てはめるかというのが、ばらばらになってしまいました。

これでは、自分の国のなかにとどまっている限り、あるいは自分が使っているシステムにとどまっている限り問題ないが、国際化に対応できません。

そこで、世界的に相談して、全世界共通に文字と数字の対応を取ったものが unicode(ユニコード)と呼ばれるものです。


ASCII文字   コンピュータはアルファベットと数字しか使えない
 
ASCII文字+拡張(半角カタカナなど)   コンピュータはいろいろな言語の文字が扱える。ただし漢字は無理
 
全角文字   漢字もOKだが、国やメーカによって不統一な部分有り
 
ユニコード   全世界の文字に統一的な番号をふる。 どこの国で買ったコンピュータでも正しく文字を扱える


ユニコードの文字と数字の対応はこちらを参照
(但し、一斉にやると遅くなるので、すみませんが、授業中はやめてください。休み時間などで見てください。)

インターネットでは、ユニコードを使うことが推奨されていますが、まだ昔のコード表も使われています。
将来はユニコードに一本化されるのでしょうが、我が国では現在、Shift-JIS(シフトジス)、EUC(イーユーシー)、ユニコードがよく使われています。

文字データの保存形式とデータ量1(半角文字)

windwso10:スタート→(アプリ一覧)→Windowsアクセサリ→ワードパッド を開きます。



Windows8:Winキー+q→ワードパッド を開きます。

バージョンで少しデザインが違いますが、使い方はほぼ同じです。

まずは改行なしで、半角文字で abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ と打ちましょう。
(全部で52文字です。)

ファイル→名前をつけて保存 を選びます。

ドキュメントの授業用のフォルダを選びます。

テキストドキュメント(*.txt)を選びます。

ファイルの種類をテキストドキュメントにして、名前をつけて保存します。簡単のため、1.txt にしました。(拡張子の.txtは打たなくても、テキストドキュメントを選んだことで自動的につくので、書かなくてもかまいません)

以下のような画面が出たら、「はい」を押します。

再び ファイル→名前をつけて保存 を選びます。

こんどは、リッチテキスト形式で保存します。
これも1.rtfで保存しました。

(教科書では、このあと、改行を入れたものを作っていますが、時間がないので省略します。)

エクスプローラで、1.txtと1.rtfができたことを確認します。

その上1.txt の上で右クリックして、メニューを出し、プロパティ を選びます。

そうすると、以下のような画面が出ます。

1.txtのデータ量は52バイトです。
同じように、1.rtfのサイズも見てみましょう。
また、リッチテキスト形式(rtf)は、いろいろな装飾の情報(文字の大きさ、色など)が入るため、データのサイズがずっと大きくなります。



発展(時間があればやってみよう)
上のファイルの大文字と小文字の間に改行(return)を入れて、2.txt、2.rtfで保存してみよう。
サイズはどうなるだろうか?

(改行は表示されないが、「ここで改行」という見えない記号が入るため、文字数は同じでもサイズは大きくなる。)

文字データの保存形式とデータ量2(全角文字)

ワードパッドで、ファイル→新規、リッチテキストドキュメント で新しい画面を出します。

あいうえおかきくけこ と打ち、テキストドキュメントで保存します。(3.txt)。

3.txtは10文字で、一文字が2バイトなので20バイトです。



これも、他の形式ではデータサイズが大きくなります。



発展(時間があればやってみよう)
上のファイルの あいうえお と かきくけこ の間に全角スペースを入れて、4.txt で保存してみよう。
サイズはどうなるだろうか?

(「ここに全角スペース行」という見えない記号が入るため、文字数は同じでもサイズは大きくなる。)

発展(時間があればやってみよう)
上のファイルの あいうえお と かきくけこ の間に改行を入れて、5.txt で保存してみよう。
サイズはどうなるだろうか?

(2.txt と同じく、改行は表示されないが、「ここに全角スペース」という見えない記号が入るため、文字数は同じでもサイズは大きくなる。)

次へ