メインコンテンツへスキップ
一般社団法人 社会構想デザイン機構
ISVD-LAB-006基盤構築

豊島区議会 2024-2025 パイロットデータの構造分析 — 特別区における議会答弁データ蓄積の初期状況

ヨコタナオヤ
約8分で読めます

machikarte 議会答弁データベースに収録された豊島区議会の 2024-2025 パイロットデータ (2,211 件の発言 / 65 名の発言者 / 18 会期) を対象に、収録初期段階のデータ構造とカバレッジを正直に示しつつ、集計単位で観察可能な範囲を型として提示する。世田谷区含む他特別区の未収録状況を「収録が未着手」として扱い、意味の反転を回避する。

XFBThreads

このノートは、マチカルテ研究室(ISVD-LAB-004)の事例研究ノートである。全国 1,788 議会規模を目標に置く議会答弁コーパスのうち、特別区に該当する豊島区議会の 2024-2025 パイロットデータ 2,211 件の発言を対象に、収録初期段階で観察可能な範囲を型として整理する。個別議員・会派の評価は扱わない。

何が起きているのか

マチカルテの中核テーブル correlate-workspace.machikarte.speeches には、2026-07-02 時点で豊島区議会の 2024 年度分 1,669 件の発言 と 2025 年度分 542 件の発言、合計 2,211 件の発言 が収録されている。2024 年度は 18 会期65 名の発言者、総文字数 1,161,170 文字。2025 年度は年度途中で、収録は継続中である。

これは特別区における議会答弁データベース化の初期段階に相当する。豊島区の 2018-2023 年分は現時点でコーパスに不在であり、世田谷区は 2024-2025 年分を含め収録が未着手である。マチカルテ全体の目標規模は 1,788 議会・約 1.26 億件の議会発言だが、その広がりは自治体ごとに段階的で、豊島区の 2 年分 2,211 件の発言はそのうちの初期スナップショットに位置する。

「収録済 = 分析可能」という単純図式にはこの段階で慎重でありたい。2,211 件の発言の中で観察可能なことと、単一自治体・2 年分では原理的に観察不可能なことは分離が要る。本稿は個別議会・議員の評価を扱わず、収録断面そのものを構造として読む立場を取る。この立場は マチカルテ研究室ハイポシシスマップ が示す 3 段階の公開粒度ルールに沿うもので、本稿の分析は第一段階(自治体集計)に留まる。

背景と文脈

コーパス全体規模と特別区の位置

マチカルテが目標とする収録規模は、全国 1,788 議会、約 1.26 億件の議会発言である。研究室の先行分析では、2024 年時点で 100 万件超の議会発言を含むデータセットに基づく都道府県別集計や、870 自治体・約 1,897 万件を対象とした答弁表現の分布分析が公開されてきた(答弁における「検討」表現の全国分布)。

これらの記事が扱う「全国規模」は、自治体・年度の組み合わせを広く束ねた集計である。他方、本稿の対象である豊島区 2024-2025 は、コーパスの中で一つの点であり、初期スナップショットに近い。この位置関係を先に可視化することで、後続の節で扱う「観察可能なこと/観察不可能なこと」の区切りが読者側でも辿れる。

特別区は東京都の基礎自治体レベルに相当し、地方自治法上の特別地方公共団体の一種である。基礎自治体レベルの意思決定は、住民生活に近い政策論点(子育て・介護・住宅・区民サービス)が集中する場である。この層の議会答弁データが横断分析の素材として蓄積されることの意味は大きいが、蓄積の進捗そのものは自治体ごとに段階的で、横断比較を語る前提となる収録カバレッジは今なお不揃いである。

議会公開の法的枠組みとデータ取り込みの技術的課題

地方議会の会議は原則として公開である。地方自治法第 115 条が本会議の公開を定め、傍聴の自由と議事録公開の制度的基盤を与えている。豊島区議会の議事録は 豊島区の公式サイト経由で公開されており、この点で制度的公開は達成されている。

にもかかわらず、収録が段階的にしか進まない理由は、公開の形態が自治体ごとに異なることに起因する。PDF・HTML・独自 CMS・外部ベンダー製検索システムが混在し、期間・委員会種別の収録範囲も揃わない。scraper(取得プログラム)を自治体ごとに設計し、共通スキーマに正規化し、品質検証を通した上で BQ(BigQuery、Google Cloud のデータウェアハウス)に格納する工程は、自治体ごとに独立の作業を要する。この工程の詳細は同研究室の 議会コーパス構築方法論 にまとめてある。

豊島区 2024-2025 の 2,211 件の発言が現時点で収録済で、2018-2023 年分と他特別区(世田谷区を含む)が未収録である状態は、この工程の段階的性質そのものの反映である。

構造を読む

収録データの断面(2024 年度: 1,669 件の発言 × 65 名の発言者 × 18 会期)

2024 年度の豊島区議会分について、単純な平均値を並べる。1 会期あたりの平均発言数は約 1 会期あたり平均 93 件の発言、1 発言者あたりの平均発言数は約 1 発言者あたり平均 26 件の発言、1 発言あたりの平均文字数は約 696 文字である。

この規模で観察可能なことは、会期単位の議論構造の初期記述、発言者単位の発言量分布の断面、平均文字数の分布形態といった、集計値の輪郭に限られる。特定のキーワードが 2024 年内でどの会期に集中しているか、発言者別の発言量が長い尾を持つか短い尾で終わるかといった問いは、この規模でも接近できる。

一方で、この規模で観察不可能なことは、時系列変化の追跡と、他特別区との横比較の再現性である。7 年推移の観察には最低 7 年分の収録が要り、2024-2025 の 2 年分では policy lag(政策の反映遅延)の観察に届かない。他特別区との比較は、比較対象の収録がゼロである以上、そもそも成立しない。この 2 種の観察不可能領域は、収録が進むまで待つほかない。

衝突回避と一意コード主義

municipality_code 列の値 131164 は総務省の全国地方公共団体コード体系上、豊島区(東京都特別区)を一意に指す。基礎となる JIS X 0402 コードは 5 桁の 13116(2 桁の都道府県コード「13 = 東京都」+ 3 桁の市区町村コード「116 = 豊島区」)で、総務省が管理する全国地方公共団体コードはこれにチェックデジット 4 を末尾に加えた 6 桁形式(131164)を採用している。JIS X 0402 と総務省コードは別規格として並存し、本稿は後者を主キーとして扱う。

「豊島区」という区名は、東京都特別区の中では一意で、同名衝突の実務リスクは他自治体名と比べて低い。しかしこの安全性は自治体名スラグ(正規化された文字列)に依存しており、他自治体の集計クエリで同名衝突が起きた場合、豊島区分だけを安全と扱う根拠は消える。北海道福島町と福島県福島市の同名衝突事案では、名前・スラグベースの相互参照(別テーブルとの結合)が別自治体の発言を片方に誤って結合する事故を招いた。

対策として研究室では、相互参照は全て municipality_code(主キー)で行い、name / slug / display_name は表示用の従属列に留める運用を採る。詳細は 議会コーパス構築方法論 の一意識別子主義の節に整理してある。本稿の集計値は全て municipality_code = 131164 の条件で抽出されており、区名文字列を一切経由していない。

3 段階公開粒度と本記事のスコープ

マチカルテ本体と研究室の連携は、3 段階の公開粒度ルールで運用される。第一段階は自治体集計(本記事採用)、第二段階は会派集計、第三段階は逐語引用である。会派集計と逐語引用は個別議員特定に近づく粒度で、慎重運用の対象となる。

本記事の抽象度は自治体集計に限定され、個別議員名・会派名は登場しない。65 名の発言者の内訳や 18 会期の議題内訳といった、さらに詳細な集計は、公開粒度ルールを個別に判断した上で別記事で扱う可能性がある。今の記事の役割は、収録初期段階の断面を型として可視化することにあり、個別評価はスコープの外に置く。

「収録なし」= 「無」ではないことの誠実な扱い

世田谷区のコーパス内発言数は、2026-07-02 時点で 0 件である。これは「世田谷区議会で議論が存在しない」を意味しない。世田谷区議会は独自の議事録公開システムを運用しており、そこで公開されている議事録の量は豊島区より少ないと考える根拠は何もない。0 件は「収録が未着手」を意味する数字であって、議論の不在を意味する数字ではない。

同じ整理は、豊島区の 2018-2023 年分にも当てはまる。この期間の豊島区議会答弁は当然存在するが、マチカルテのスクレイパー(取得プログラム)が対応する時期がまだ来ていないだけである。「収録数 = 議論量」の等号を安易に置く読み方は、この段階では避けたい。

収録拡張ロードマップの全体像はマチカルテ本体側のドキュメントに委ね、本記事は現時点の断面と限界に留まる。次段階の課題との接続点は次節で扱う。

観察範囲の限界と次段階

単年・単区のパイロットデータで観察可能な範囲は狭い。7 年時系列の推移は 2 年分では追えず、特別区 23 区の比較は 1 区分では成立しない。時系列と横比較という、コーパス研究の 2 大観察軸が、この段階では両方とも封じられている。この事実を率直に扱うことが、本稿の主目的の一つである。

収録拡張後に可能になる観察は、収録が進んだ順に段階的に開く。豊島区 2018-2023 が加わった時点で、単区の 7 年時系列(policy lag(政策の反映遅延)、主題集中の年次変化、発言量の年次分布)の観察が可能になる。他特別区が加わった時点で、特別区間の横断集計(区間分布の幅、都道府県内での特別区の位置)に接続する。全 23 区が揃った時点で、東京都議会と特別区議会の関係を含む多層構造の分析に届く。

これらの次段階の課題は、研究室内の他記事群(都道府県分布分析、7 年時系列分析、主題別集計)と自然に接続する。本稿の役割は、その入口となる初期スナップショットを型として置くことに限られる。

方法論の側からの接続点は 議会コーパス構築方法論 にある。同記事は、本稿が扱った収録段階と、そこから 1,788 議会規模へ至る設計の全体像を整理している。姉妹記事として並走する 2 本と読んでほしい。

参考文献

machikarte — 全国地方議会発言検索基盤(β 版)一般社団法人 社会構想デザイン機構(ISVD). ISVD

machikarte (GitHub) — schema、aggregation queries、ライセンス(MIT + CC BY 4.0)一般社団法人 社会構想デザイン機構(ISVD). GitHub

地方自治法日本国政府. e-Gov 法令検索

全国地方公共団体コード総務省. 総務省

豊島区議会東京都豊島区. 豊島区公式サイト

→ 関連: 議会コーパス構築方法論 | 答弁における「検討」表現の全国分布 | マチカルテ研究室ハイポシシスマップ

関連コンテンツ

XFBThreads

研究への参加・ご支援

ISVDの研究にご関心のある方は、賛助会員としてのご支援をお待ちしております。