本号より、統計利用についてのTipsやお奨めの統計データをご紹介する記事を配信することにしました、担当のニカワです。一応連載予定ですが、不定期連載になるかもしれません、いきなり弱腰ですみませんが、よろしくお願いします。(^^;>
さて、今号は農林水産省がWebで配信している統計データについてです。農林水産省が提供しているものですから、インターネットを利用できる環境があれば、統計データを入手することができます。配信しているデータの種類も多岐にわたっています。重要なのは以下の5カテゴリーです。
・最近公表した統計:最近公表した統計結果の概要
・農林水産統計データ:統計結果の概要(時期別、分野別、品目別)
・農林水産統計情報総合データベース:累年の統計データ
・農畜産物市況等:青果物と畜産物の卸売市場情報
・海外の統計情報:世界各国の農林水産関連情報や貿易データ
なかでも注目すべきは、「農林水産統計情報総合データベース」です。データベースというだけあって、累年の統計データ(現在のところほぼ2000年以降のデータ、一部統計については、長期累年統計もあります)が、統計表
単位で検索でき、必要な場合は、Excel形式でダウンロードすることができます。
書籍で発行されている大部分の統計書については、このデータベースに収録されています。ただし自分のパソコンで、このデータを利用して、グラフを書いたり、加工利用するためには幾つかのカスタマイズが必要になります。
ダウンロードしてみるとわかるのですが、Excelファイルに入っているデータの書式や罫線が全て統計書(報告書)と同じなっていることです。自分が利用したい主要なデータ部分以外に空白行や空白列が多数入ってるはずです。
余分な空白行や空白列があると、いきなり全域の地域を対象にしたグラフや加工計算を行うことができない場合があります。例えば、何行おきかに空白行や空白列がはいっていると、Excel上では、連続したデータとみなしてもらえませんし、項目名が、複数行にわたって、構成されている場合もあり、そのままでは、ラベル(グラフの項目軸や数値軸の名称)として扱うことが難しい場合があります。またデータ部分も記号(ハイフンやエックスなど)や空白(3桁毎の空白やカンマ区切り)など文字と数字が混在しているため、そのまま利用するのが難しい場合などもあります。
さらに統計書や年次で書式が異なる場合もあります。例えば生産農業所得統計という統計を例にしますと、5市町村毎に区切りの空白行があります。項目名の部分も農業産出額の下に耕種計、畜産、さらに細かい部門名と数行にわたって構成されているのがわかると思います。
なお、これら書籍と同じ書式系の統計データとは別に、複数の市町村別統計を整理・再構成したデータもあります。例えば「農林水産市町村別データ(年産)」というおすすめの統計があります。複数の市町村別統計をまとめて整理してあるところが特徴です。下記の項目であれば全市町村のデータを一括して入手することもできます。またこのデータは書籍の書式が適用されておらず、極力余分な書式が省いてあるところがお得です。
農林水産市町村別データ(年産)
・耕地面積
・稲、麦類、大豆、かんしょ、飼料作物、甘味資源作物、茶、花き
・野菜、果樹
・小豆、いんげん、らっかせい、そば、こんにゃくいも、い
・畜産(乳用牛、肉用牛、豚、採卵鶏、ブロイラー、養蚕)
このように様々な書式のデータがあるのですが、それらを編集してしまえばマイデータとして自由に編集加工することができるようになります。
ただしこのデータベースを利用する上で、注意が必要というか、各々の統計データをダウンロードする前に、是非確認していただきたいのは、これら統計値がどういう素性のものでどのように作成されたかを必ず確認しておくことです。役所が出している数字だからという理由でひとくくりにせず、調査方法や数字が実調査値なのか、推計値なのか、また加工値なのかも知っておくことは大切です。
くれぐれも、「数字が独り歩きした」なんて話にならないようにしてください。さらに当然のことですが、資料などをお作りになる場合も、出典を明らかにしておくことが必要です。グラフや文章を見た人がデータの特性や背景をあとで、このサイトを利用して確認してもらうこともできますので、忘れないようにしてください。
確認の方法は各統計のページに統計値の作成や利用の仕方についての文書が年次別にPDFなどで閲覧できるようになっていますので参照されるとよいでしょう。
では実際にExcelでサクっとつかえるデータにするための編集作業の一例ご紹介しておきましょう。基本的には次のような形式への編集が望ましいです。

先述した生産農業所得統計のような書籍の書式系データについては、罫線や複雑な書式を一発解除する方法として、一度CSV形式(カンマ区切りのテキスト形式)へ保存し、再度読み込んで編集されるとよいでしょう。あとは、空白行、空白列、不要行(タイトルなどデータ以外の行)を削除してください。データ部分のセルについては主に次の置換作業を行ってください。
X(秘匿)→0
−(数値なし)→0
…(事実不詳または調査を欠くもの)→0
△(マイナス)→−
半角の空白(3桁の区切り)→削除
「X」や「−」、「…」はそれぞれ意味があるのですが、Excel上で連続した数字として扱うためにはゼロに置換するのがよいと思います。ただ分析上、区分が必要な場合はなんらかの代替数字をあてはめて区分してください。また秘匿などの部分をゼロにした場合は市町村の合計値が都道府県の計と一致しません(その他単位の四捨五入の関係で一致しない場合もあります)ので注意が必要です。
余計な書式やセルを削除するとシンプルな上記であげたような形式の行列データになります。これでExcelでグラフを作成したり数値加工などがしやすくなったと思います。(^^)v
一方、これらの編集方法があてはまらない書式のものもあります。先述した「農林水産市町村別データ(年産)」もそのひとつです。たとえばCSV形式にすることで書式が解除されるのはいいのですが、CSV形式への保存はExcel上でみたままの表示(ただし罫線は保存されませんので対象外です)で保存されます。そのため、「農林水産市町村別データ(年産)」の数字は3桁区切りのカンマが入った書式で作成されていますので、CSV形式で保存した場合、データの区切りのカンマと数字の3桁区切りのカンマを区別するために、4桁以上の数字は文字列として保存されてしまいます。そこでこのような場合はCSV形式での保存はやめて、Excel上での編集を行った方がよいでしょう。
[戻る]