Skip to content

1.2 日本語で使用する文字

yamahige edited this page Oct 31, 2023 · 15 revisions

1.2 日本語で使用する文字

日本語で使用する文字(抽象概念としての文字のこと。デザインされて実現されたグリフに関しては次の章)の簡潔な説明。図示を多く。

文字を決める規格についてごくごく軽く。常用、JIS、AdobeJapan。これらの規格はそれぞれ性質は異なるが、事実上、もしくは明示的に、文字のセットとその文字の字形の両方を決めている。下の数字を数字を使って軽くまとめる。

  • 教育漢字:1026字
  • 常用漢字:2136字。人名用漢字:745字,字体の字数としては863字(2017年)
  • 表外漢字字体表:1022字
  • JIS X 0208:6355字
  • JIS X 0213:1万0040字
  • AJ1–7:1万4670字(組合せ文字および記号付き漢字を除く)
  • 角川 新字源 改訂新版:約1万3500字(異体字を含む)

田嶋:Unicodeには日本語ではまず使われない漢字も大量に収録されていますがそれについては触れなくてもよい?

〈binn:常用漢字表は“法令,公⽤⽂書,新聞,雑誌,放送など,⼀般の社会⽣活において,現代の国語を書き表す場合の漢字使⽤の⽬安を⽰すもの”と言っているが,それは,どの程度守られているのか,その実情を少しだけ解説した方がよいかもしれない.字体は,ほぼ実現されている(最近は過去の出版物を刊行する,あるいは引用する場合でも,ほぼ常用漢字表に示されている字体に直して使用する例がほとんど,それでないと若い人は読めない)が,字種と読みは?? でも,結構みんな気にしていて(常用漢字表は内閣訓令だから公⽤⽂では守らないといけない,一般国民は告示だから,“あっそう”と聞いておくだけでよいが,中には厳守しないといけないと思っている人もいる),その範囲での表記を考えているようだが,新聞でも結構,一般の表記で表外字を使う例もある.ましてや書籍では……〉

〈binn:読売新聞(2023.7.30(朝刊),書評欄での常用漢字表に従っていない漢字の使用例,外部執筆者の場合は,けっこう表外字の使用を認めている.)

御留書(おとめがき) 表外音訓:御(お)
郡方(こおりがた) 表外音訓:郡(こおり)
偲(しの)び 表外字:偲
美味(うま)い 表外音訓
呵成(かせい)に 表外字:呵
躊躇(ちゅうちょ) 表外字:躊躇
俯瞰(ふかん)的 表外字:俯瞰
王笏(おうしゃ) 表外字:笏
数多(あまた) 表外音訓
辛(つら)い 表外音訓:辛(つら)
噓(うそ) 表外字
騙(だま)す 表外字
攪乱(かくらん) 表外字:攪
未(いま)だ 表外音訓:未(いま)
眼(め) 表外音訓:眼(め)
濠(ごう) 表外字
滄海(うみ) 表外字:滄,表外音訓:滄海(うみ)
偲(しの)び 表外字
汀(なぎさ) 表外字
合祀(ごうし) 表外字:祀 澪(みお) 表外字
禍(わざわい) 表外音訓
砧(きぬた) 表外字
手榴弾(しゅりゅうだん) 表外字:榴
怯(おび)え 表外字
漏洩(ろうえい) 表外字:洩
海神(わだつみ) 表外音訓

固有名詞の例
文藝峰 通用字体でない:藝
澤地久枝 通用字体でない:澤
池澤春菜 通用字体でない:澤
李恢成 表外字:李恢
李瑛恩表外字:李瑛
片渕美穂子 表外字:渕
苅部直 表外字:苅
塙宣之 表外字:塙之
根本正之 表外字:之
砂原浩太朗 表外字:浩
河合隼雄 表外字:隼
高瀬庄左衛門 表外字:庄
芥川賞 表外字:芥
村上靖彦 表外字:靖彦〉

田嶋:例が多いとここで離脱する人が出そうなので数例を残して他はnoteに移動が良いかと思います

1.2.1 仮名(のちの漢字の説明をスムースにするために仮名を先に)

ひらがなとカタカナ、まとめて仮名、は日本語の発音を表す表音文字であり、後に述べる漢字から派生した日本独自の文字。同じ数のひらがなとカタカナがあり、一対一に対応している。

ひらがなとカタカナには別々の起源がある。ひらがなは日本語を書き表すものとして作られ(漢字かな混【交】じり文について触れる?)、カタカナは漢字の発音を示すルビ(後述)のために作られた。

〈binn:ここにある程度の説明で,詳しい説明はなくてよいのでは,漢文,漢字+ひらがな,漢字+カタカナで,文章のステイタスを示すこともあった(入口敦志著“漢字・カタカナ・ひらがな 表記の思想”(平凡社(ブックレット〈書物をひらく〉,2016.12)に説明がある)が,今日は,ほぼ“漢字+ひらがな”の漢字仮名交じり文であり,カタカナは,特別な用語(外国の国名・地名・人名,外来語の表記,擬声語・擬音語,動植物名,化学物質名(ヘリウム,ナトリウム,オゾン,ベンジンなど),俗語・隠語,強調する言葉など)に限られて使用する,ということ程度でよいのでは〉

読みにくくはあるが日本語は全てひらがな(もしくはカタカナ)で表すことができ、言語を学び始めたばかりの子どもの教科書はすべてひらがなである。子供達はまずひらがな、カタカナ、そして簡単な漢字の順に文字を学び始める。

(平仮名曲線、カタカナ漢字から直線)

(side note?  日本語の発音、すなわちそれぞれの仮名はラテンアルファベットを使って transcribe することができるが複数の方法がある。一つはラテンアルファベットの英語における発音を基礎に作られた方法、もう一つは、日本語という言語をラテンアルファベットを使って表す目的で作られた綴り(50音表を示す))

ひらがなは機能語として内容語を繋げ、または活用語の活用語尾となる。また、ひらがなは内容語にも使われる〈binn:仮名書きが望ましい語に代名詞,副詞,接続詞,助詞,助動詞などがある〉。典型的な日本語は漢字列とひらがな列の繰り返しのように見える。〈binn:最近刊行の書籍でも,引用などでごくたまに見かける.〉

現代日本語において、カタカナは、外国語の単語をtranscribeし、音を直接表し、またオノマトペ(Onomatopoeia)に使われる。

〈binn:注でよいが,仮名遣いは,“内閣告示の“現代仮名遣い”があり,ほんの少しのゆれがあるが,現代文は,ほぼ,これに従っている.送り仮名は,漢字の読み方を示すためにつけるもので,どの程度の送り仮名を付けるかにゆれを伴うが,内閣告示の“送り仮名の付け方” を基準にしている.ただし,“表す・表わす,行う・行なう,終わる・終る”など揺れがある例がある.〉

side note: 変体仮名 変体仮名についても一言。以前は一つの発音に複数の仮名文字が対応していた。明治になって一つの発音に一つの文字に統一されたが(これ知らない人多い)、現代でも使用例がある。京都の街を歩くと店舗の名前などで出会うことができるだろう。

side note: 濁音半濁音つき仮名、非標準的な濁音半濁音つき仮名 ひらがな、カタカナの右肩に濁音、半濁音の記号がついているもの…発音をmodifyする。UとVのような関係。伝統的な組み合わせ以外に、近年、本来は濁音のつかない仮名に濁音をつける用例が見られるようになっている「あ゙」。特に漫画などで例がみられる。これら非標準的な濁音つき仮名は、Unicode符号で表すことができる。目的の平仮名の後に合成濁音(U+3099)合成半濁音(U+309A)を置く。しかし多くのフォントにはこれらに対応する専用グリフがなく、その表現はシステムやアプリケーションに依存する。

1.2.2 漢字

漢字は中国で生まれた表意文字。それぞれの文字が一つもしくは複数の概念を表し、非常のに多くの文字がある。複数文字で熟語を作る。この様子は英語の文字というより単語に似ている。日本語において漢字は内容語 conent word を作る。

中国語と異なり一つの漢字に典型的に複数の読み方がある。中国の違う時代の読み、およびその漢字に対する日本語元来の言葉が対応するからである(例)。さらに固有名詞の場合、個々の漢字の本来の読みから乖離していることがある。漢字の読みは多くの場合は文脈から判断できるが(例:read の現在形と過去形)、特に固有名詞を中心に、読みを特定することができない場合も多く存在する(ここ重要)。すなわち日本語には表記と音声の二重の構造がある。日本語の住所録やその他のフォームにおける表記に並列な読み仮名フィールド(例)や、ルビ(後述)はこのために存在している。(この部分、少し詳しいが、基礎なのでちゃんと説明する、と考えるか、省いて side note にするか、どちら?)

異体字について。特に固有名詞。

〈binn:固有名詞だけでなく,一般用語でも揺れがある.
常用漢字表で,“曽(曾)・痩(瘦)・麺(麵)”の3字で簡易慣用字体が採用されたが,これを使う出版社(例:岩波書店)と,使わないで括弧内の字体を使う出版社(例:新潮社)がある.“曽・曾”でいえば,けっこう“曾”が使われている(未曾有,曾孫).また,“表外漢字字体表”に従った例と従っていない例は,書籍に限れば,前者が6割くらいかな.また,それらの字は,JIS X 0213で区別できるもの(摑・掴,噓・嘘,蟬・蝉)と,IVSなどを利用しないと区別できないもの(迦・祇・餌)がある.ただし,“常用漢字表”で“表外漢字字体表”にしたがった字体でも,できない場合はいいんだよ,とも言っている.)

文字数についてごく軽く。日常使う範囲、固有名詞、書籍。これも英単語に例えられる。基本英単語と、歴史上存在したスペリング、地名を合わせると膨大になるであろう。

1.2.3 数字、英字

数字 ちょうどローマ数字やspell outされた数字のように、歴史的には漢字で数字を示していたが、アラビア数字の使用が増えている。漢字を使う例(熟語の中)。

英字 用途:英字は、名詞を表すために、また記号的に使われる。外国語、特に欧米の言葉はラテンアルファベットの綴りそのままを用いるか、カタカナでtranscribeする。

1.2.4 約物

英字用の約物が起源のものが多く、見かけが似ているものが多い。ただし、デザインが似ているものでも、それぞれの文字に合わせたデザインになっているので混用は望ましくない(括弧の例、カバーする範囲が違う)。(約物の使い方は、別セクションに、と誘導)

1.2.5 デジタルデバイス上の日本語に独特な文字達

1.2.5.1 全角英数字

この二重符号化が歴史的な理由から存在する。活字では全角でない文字が含まれると行の調節が面倒だったので、全角の英数字が便利だった。またコンピューター上では全角英字は縦書きにした時に自動的に正立するので、英字が記号的に使われる時、日本語の単語の一部として使われる場合(e.g. Tシャツ)などに便利に使われる。web などスタイル付きテキストでは明示的に正立させることができるので本来の英字を使って必要な場合には正立させるのがより正しい方法である(理由!このように書いたら必ず理由を書く)。本来の英字と混ぜて使うとデザインが不統一になることがあるので、使用に注意が必要である(理由その1)。 以降の章で英数字という言葉は、プロポーショナルなラテンスクリプトの文字を示し、ここで述べた全角英数字は、明示的に全角英数字と言う。 日本語フォントに中途半端に含まれるギリシャ文字や数学記号などについて言及。

1.2.5.2 半角カタカナ

初期のコンピューターではターミナル画面上の1:2の縦長の固定した箱にアルファベットを表示するようになっていた。そのようなデバイス上に日本語を表示するために作られた文字でカタカナのみが存在する。

もはや必要なく、互換性のために存在する。他の文字とデザインが合わず、レイアウト的にも美しくないのでもはや日本語の中で使用するべきではない。これらの文字が入力できないデバイスも多い。

1.2.5.3 絵文字

日本の i-mode とよぶインターネットができる携帯電話上で発明されたピクトグラム。Unicode 化され、世界中に広まった。メッセージソフトで見られるスタンプと異なり、文中、他の文字と同じポイント数で使われることを意図しており、文字と同じポイント数で判別することのできる単純化したシンボルであるべきである(ちょっと Apple の絵文字に対する反論)。

1.2.5.4 結合文字

(山口) 書く場所はここではないかもしれませんが

「が(U+304B,U+3099)」は1文字。「が(U+304C)」と「が(U+304B,U+3099)」は同じ文字です。検索で、相互にヒットすべき。

  • 文字数を数えるとき、1文字として数える。
  • カーソルは「か」と「゜」の途中に入らない。途中まで/途中から範囲選択できない、させない。
  • 途中で改行/改ページしない

ただし

  • 他の言語の結合文字でも、カーソル移動などの要件は同じか?
  • Unicodeが初めて日本語にもたらしたのか、もっと前から概念はあったのか、昔の日本語の読み手にも結合文字の概念はあったのか?