データセット
OSDG コミュニティデータセット
概要
OSDG コミュニティプラットフォームのボランティアが作成した英語データセット。公開文書のテキストを対応する SDGs ゴールにラベル付けしたもので、約 43,000 件を収録。
採用理由
各取組と SDGs ゴールの関係を示す大規模な英語データとして一般公開されており、分類タスクの教師データとして活用した。
SDGs 未来都市データセット
概要
2025 年度までに選定された全 215 自治体の SDGs 未来都市計画から抽出した日本語データセット(約 2,000 件)。取組内容・SDGs ゴール・評価指標の三つ組を収録。
採用理由
国内事例に対応した日本語データであり、分類・生成の両タスクに用いることができる唯一のデータセットとして採用した。
テキストベクトル化
GLuCoSE V2(PKSHA Technology)
概要
株式会社 PKSHA Technology が公開した日本語テキスト埋め込みモデル。文章を高次元ベクトルに変換し、コサイン類似度によって文書間の意味的類似度を算出できる。
採用理由
商用利用可能なライセンスで公開されており、言語処理学会の性能評価ベンチマークで高性能と評価されたモデルであるため採用した。
クラスタリング
k-means 法
概要
非階層型クラスタリング手法。各データ点をクラスター重心との距離に基づいて k 個のクラスターのいずれかに分類し、クラスター内の分散を最小化する。
採用理由
HDBSCAN・DBSCAN・階層的クラスタリングとシルエット係数で比較した結果、k-means 法が最も高い値(0.204)を示したため最適な手法として採用した。
分類モデル
xlm-roberta
概要
大規模な多言語コーパスで事前学習された Transformer ベースの言語モデル。取組内容の文章から寄与する SDGs ゴールを予測するマルチラベル分類タスクに使用した。
採用理由
英語(OSDG)と日本語(SDGs 未来都市)の混合教師データを扱う必要があり、多言語性能に優れたモデルが求められた。既往研究でも同様のタスクに採用実績がある。
フルファインチューニング
概要
事前学習済みモデルの全パラメータを教師データで微調整する学習手法。モデルが持つ汎用的な言語表現を特定のタスクに最適化する。
採用理由
分類タスクでは十分な教師データ(43,000 件超)が確保できており、全パラメータを微調整することで高い精度(F1: 0.78)を達成できると判断した。
生成モデル
retriva/t5-xl
概要
株式会社レトリバが公開した日本語特化の T5 系テキスト生成モデル。入力テキストから条件に沿った出力テキストを生成する Seq2Seq アーキテクチャを持つ。
採用理由
評価指標名のみを出力する条件付き生成には T5 系が適しており、教師データがすべて日本語であることから日本語特化モデルを選択した。
LoRA(Low-Rank Adaptation)
概要
モデルの重み更新を低ランク行列の積に限定することで、学習するパラメータ数を大幅に削減するファインチューニング手法。元のモデル重みは凍結したまま追加の低ランク行列のみを学習する。
採用理由
利用可能な GPU が A100 1 枚に限られており、生成モデルの全パラメータを微調整することは計算資源的に困難だった。LoRA を用いることで効率的な学習が可能となった。
ハイパーパラメータ最適化
Optuna
概要
ベイズ最適化に基づくハイパーパラメータ自動探索フレームワーク。モデルの性能評価関数を確率モデルで近似し、獲得関数によって次に評価すべきパラメータを効率的に選択する。
採用理由
ハイパーパラメータの網羅的な探索は計算コストが非常に高い。Optuna のベイズ最適化を用いることで 20 回の学習・評価サイクルに抑えつつ最適なパラメータを得られた。
学習環境
Google Colab / NVIDIA A100 80GB
概要
クラウドベースの Python 実行環境。本研究では 2026 年 1 月時点で利用可能な最高性能 GPU として NVIDIA A100 80GB を使用してモデルの学習・推論を実施した。
採用理由
機械学習モデルの学習・推論には高性能 GPU が必要であり、手元の環境では確保できないため Google Colab を活用した。より高性能な H100 は安定した利用ができなかったため A100 を選択した。