目次
『日本語レトリックコーパス』について
はじめに
日本語レトリックコーパス (The Corpus of Japanese Figurative Language; J-FIG) は、典拠のある日本語のテクストから抽出され、言語学、および修辞学を背景とした分析に関する注釈の情報(アノテーション)が付与されているレトリックの用例を、ウェブで容易に参照することができる言語コーパスです。
現在約2,400例(約20万語規模、調査対象テキストの文字数約94万字)が収録されています。将来的には、収録用例数を増やす予定です。データ利用に関する規約、全データのダウンロードはデータ利用ガイドラインを参照して下さい。
- 基本的な使い方は、使い方チュートリアルを見て下さい。
- アノテーションの様式を見ると、ページの詳しい見方が分かります。
ご質問、ご意見は info[at]kotorica.net ([at]を@に変更して下さい)まで。(参考:よくある質問)
コーパスの目的と特徴
目的
このコーパスの目的は、多角的なアノテーションがほどこされた典拠のあるレトリックの用例に、容易にアクセスできるようにすることです。
レトリック
レトリックは、言語の可能性を引き出して伝達する表現法です。
レトリックは、簡単には真似することができず、ちょっとみただけではどうやって作られたか分からないほど巧みな表現で出来ています。このようなレトリックの用例を保存し、分かりやすく理解できるように系統立てて分類することには、学術的、文化的な価値があると考えます。
用例
創造的なレトリックは、形式的には固定されていない(=検索しても集められない)表現であるため、機械的に用例を収集することは困難です。そこで、簡単に用例にアクセスできるデータベースがあれば便利であると考え、このコーパスを構想しました。このコーパスには、創造的な意味や印象的な効果をもつ用例が多数収録されています。
アノテーション
すべての用例に、修辞技法のカテゴリー、意味のパターン、レトリックの構文、修辞的効果のような分析に関する注釈情報(アノテーション)を付与することで、レトリックの多様な側面を理解しやすくしています。研究者でない人でも、コーパスに収録された印象深いレトリックの表現を味読すると、面白いと感じるかもしれません。
特徴
このコーパスには、以下のような特徴があります。
このような特徴を備えたコーパスの構築は、初めての試みであると思われます。比喩表現の他のコーパスと本プロジェクトとの比較については「レトリックのデータベース」を参照して下さい。
実例
実際の言語使用から抽出されたレトリックの用例テクストを収録しています。(将来的にはさまざまなジャンル、年代の用例を収録する計画です。)
修辞学的アノテーション
広範囲の修辞技法のカテゴリーの用例を収録しており、レトリックとして認められる言語表現全般を多角的に記述します。用例を修辞学用語によって分類します。
意味論的アノテーション
『分類語彙表-増補改訂版データベース』をシソーラスとして、レトリックの意味を体系的に記述します。メタファー、メトニミー、コントラストの意味のパターンを記述します。
文法論的アノテーション
『「現代語の助詞・助動詞」データベース版』を用いて、「XのようなY」「まるでXのように感じる」といったレトリックの構文を構造と機能の面から分析します。
語用論的アノテーション
メタデータ
著者名、作品名、用例の出典のメタ情報を付与し、『Web NDL Authorities』『国立国会図書館サーチ』などの外部データベースと可能な限り連携します。
基本方針
このコーパスは、「認知言語学」とよばれる言語の理論を背景とした、以下の基本方針にもとづいて編集されています。
- 用例重視
- マキシマルな収集
- 厚い記述
- 多人数による記述
- 多重分類
用例重視
このコーパスは、一つの用例を一つのページとし、用例を基本的な情報の単位としています。
用例の分類や記述を行いますが、これが一般的になるほど、理論的なバイアスがかかります。しかし、どのような分析を行うにしても、用例そのものの価値は揺らぎません。
修辞学の体系は、いわば用例の体系です。歴史的に見ると、厳密な言語学的な基準によってレトリックの現象が明確に切り分けられてきたというわけではなく、表現効果を生み出す名言や技巧的表現が収集され、分類されてきたと言えます。
認知言語学では、一般的な規則は、具体的な用例をボトムアップに積み上げていくことによって創発すると考えます。この点で、用例重視の方針は、伝統的な修辞学の考え方に沿ったものであるだけでなく、認知言語学の用法基盤 (usage-based) の考え方とも親和性があります。
マキシマルな収集
このコーパスでは、できるだけ多くのレトリック表現を手作業で収集します。
前もって収集の基準を設定するのではなく、以下の方針に沿って、“レトリックらしさ”が感じられる表現をマキシマル (maximal) に収集します。大量の資料を収集した後、様々な角度から特徴を分析することで、収集されたデータの記述の品質を高めます。
- 慣習的な修辞表現よりも、新奇的な修辞表現を収集する。
- 重点的に収集するレトリックを主に収集する。
- 修辞性を感じる表現は、分類しにくい場合でも広く収集する。
- テキスト内の修辞表現をできるだけ網羅的に収集する。
厚い記述
理論を知らない人でも、レトリックがよく理解できるような記述を目指します。
厚い記述 (thick description) の方針は、用例重視の方針を補います。用例群を体系的に理解するためには、理論的なパースペクティヴが必要ではありますが、整然とした理論は「薄い記述」にとどまる傾向があります。
人類学の行動記述に文脈が必要であるように、言語学の言語記述にも文脈が必要です。レトリックの効果は、前後の文脈によって生まれます。より厳密には、その表現の背景となる情報すべてが、レトリックの意味に影響します。どのようなコンテクストによって、どのような意味が生まれているかを詳しく記述することで、レトリックはより深く理解することができると考えます。
多人数による記述
多人数による記述は、レトリックの定義と分類における主観性のリスクを軽減します。
具体例の一つ一つについて、誰もが満足する分析、分類を行うことは容易ではありません。多くの人が用例記述を編集することは、この問題に対する素朴な解決策になります。レトリックは多くの人を納得させる言語表現です。1人が納得できる記述よりも、5人が納得できる記述の方が、レトリックの分析としては妥当だと言えるでしょう。
このコーパスでは、できるだけ多くの研究者がアノテーションを確認しています。また、アノテーションに関する議論は、閲覧者の皆様にも開かれています。多数の目にさらされた分析は、よりよいものになることが期待されます。
多重分類
ある用例ページは、さまざまなカテゴリーに多重に分類されます。
このコーパスでは、タグ機能によって、用例にさまざまなアノテーションを付けます。複数の用例に同じタグがつくと、タグは用例のカテゴリーになります。このコーパスでは、各用例を排他的に分類することはありません。あるカテゴリーの定義特性を備えているならば、アノテーションはいくらでも多重化し、多層的な情報がタグづけされ、分類されます。
さらに、カテゴリーのカテゴリー(抽象的なカテゴリー)を作る際にも、多重分類の原則がはたらきます。これによって、特定の理論のバイアスに左右されにくく、用例記述に沿った分類体系を構築することができると考えます。
データの収集方針について
このコーパスは、日本語のレトリック全体の代表的なデータを収集することを視野に入れています。どのようなリソースから用例を収集すればよいかという、いわゆる「均衡性」の問題がありますが、少なくとも、年代とジャンルについては、バランスの取れたデータ収集源を選ぶことが望ましいと考えます。
ベータ版構築にあたり、日本近代文学から用例を収集しました。特に、著作権が既に切れており、『青空文庫』に本文の電子テキストがあるものを選んでいます。これにより、本文手入力の問題と、著作権処理の問題を回避しました。
もちろんレトリックが使用されるジャンルは、文学だけではありません。少なくとも、以下のようなジャンルがデータ収集の対象になり得ます。
- 伝記、ノンフィクション、エッセイ、評論、コラムなどの散文
- 詩、短歌、俳句、歌詞などの韻文
- スピーチ、映画、テレビ番組、ウェブ上の動画などの話し言葉
- ブログ、SNSなどのウェブ言語
- CM、ポスター、キャッチフレーズなどの広告
コーパスの活用法
このコーパスは、少なくとも以下のようなレトリック研究の資料として用いることができます。
- レトリック研究における例示
- 修辞表現に生起する語の意味論的な分析
- 修辞表現の構文的な使用環境の解明
- テクストレベルの修辞表現の文脈解析
- レトリックの言語処理における検証データ(または学習データ)
また、認知科学的な観点からのアプローチにも有用です。
- 修辞表現の基盤になる概念体系の調査
- 修辞的効果の発生条件の解明
作者と作品のコーディングを利用して、文体論や文学の研究にも利用できる可能性があります。
- 特定のレトリックをよく使うジャンルの特定
- 作者の執筆時期ごとの文体的な遷移の分析
- 作品中に生起するレトリックの位置的分布の調査
収集されたデータは随時研究に利用し、活用の方法についてもプロジェクト全体を通して今後探っていきたいと考えています。このコーパスを利用して行った研究成果があれば、ぜひご報告ください。(これまでの研究成果)
プロジェクト沿革
このコーパスの構築は、小松原哲太を代表者とするJSPS科研費(JP17K13451; 2017年度から2019年度)の助成を受け発足された、『日本語レトリックコーパス』構築プロジェクト(通称 KOTORICA )を基盤としています(プロジェクト協力者一覧)。2020年度から現在まで、JSPS科研費(JP20K13016; 2020年度から2023年度)の助成を受け、コーパスの整備を引き続き行っています。
『日本語レトリックコーパス』構築プロジェクトは、用例収集と分析のトライアルを経て、2017年4月に始動しました。これまでの成果として、多様なレトリック表現の用例を約2,400例を手作業で収集し、これにアノテーションを付与し、Wiki上で実装しました。現在のバージョンをもとにして、用例数を拡大し、アノテーションの体系を開発することを目指します。
- 2017年5月〜2017年6月(第1期): 用例収集と分析、記述フレームワーク開発
- 2017年8月〜2017年9月(第2期): 用例収集と分析、意味のアノテーション基準の精緻化
- 2017年11月〜2017年12月(第3期): 用例収集と分析、修辞性指標の記述フレームワーク開発
- 2018年2月〜2018年3月(第4期): 用例収集と分析、収集例の傾向分析、記述フレームワークの整理と改訂
- 2019年1月〜2019年3月(第5期): Wikiでの実装、意味クラスページの導入、意味クラスの記述
- 2019年4月〜2019年6月(第6期): 意味クラスの記述、写像ページの機械生成
- 2019年7月〜2019年9月(第7期): 修辞性構文の記述、修辞的効果の記述フレームワーク開発
- 2019年10月: ベータ版公開
- 2020年6月〜2020年9月(第8期): 修辞的効果の記述、修辞性構文のフレームワーク改訂
- 2021年9月〜2021年12月(第9期): 直喩の文法分析と用法記述
- 2022年8月〜2023年1月(第10期): 修辞的効果の記述の整理と分類
- 2024年1月: 正式版公開(修辞学用語のアノテーションページは未完成)