C1M2 データを探す - okfj/schoolofdata GitHub Wiki
データを探す
導入
さて、私たちはデータとは何なのか、そして興味のある疑問を知っており、オンライン上でそれのために狩りに出かける準備が整いました。
このチュートリアルでは、どこからデータを探し始めれば良いかを学びます。このコースでは、データを自分で見つけるようにあなたを野放しにする前に、データを手にする様々な方法を見ていきます!
データソース
データを手に入れるには3つの基本的なやり方があります。
- データを見つける -これは、すでに公表されているデータの検索や発見を含みます
- より多くのデータを手に入れる -例えば情報要求の自由法を通じて、公式の情報源からの「新しい」データを求めます。データは、ウェブサイト上で公開されていても、一括して入手するためのダウンロードリンクが無いことがよくあります。でも、あきらめないでください!このデータは、データ格闘者がスクレイピングと呼んでいる手法で開放することができます。
- 自分でデータを収集 -これは、ひとりでやるにせよ共同作業するにせよ、データを収集してそれをデータベースやスプレッドシートに入力することを意味しています。
このチュートリアルでは、すでに公表されているデータを見つけることに焦点を当てています。将来のコースでは、より多くのデータを取得したり、データを自分で収集することを扱います。
ステップ1: あなたのデータソースを特定する
公共利用できるデータを頻繁に公表しているところはたくさんあります。次のようなものです:
- 政府 政府は近年、 国民にそのデータの一部を解放することを始めています。多くの政府は、自ら作成したデータのための特別な(オープン)ガバメント・データのプラットフォームを主催しています。例えば、英国政府はそのデータセットを公表するためにdata.gov.ukを始めました。同様のデータポータルは、内に存在し、米国 、 ブラジルおよびケニアや他の多くの国で- !あなたの国は、(オープンデータポータルを持っていますDatacatalogs.orgは良い出発点ですか)?
- 組織 データの他の供給源は大規模な組織です。例えば世界銀行と世界保健機関(WHO)は、定期的にレポートとデータセットを公表しています。
- 科学 科学プロジェクトや機関は科学界や一般市民へデータを公表しています。オープンデータは例えばNASAも生み出していますが、特定の分野の多くは、オープンなものを含む独自のデータリポジトリを持っています。既に公開されているデータ(例えばDryad )へのアクセスを提供しようと試みている取り組みは多数存在します。
人々がデータを見つけるのを手助けするために、オープン・アクセス・ディレクトリのデータリポジトリ一覧のようなプロジェクトやオープン・ナレッジ・ファウンデーションのdatahub.ioが始まっています。これらは、データのソースを収集したり、様々なソースから異なるデータセットを収集したりすることを目指しています。
ステップ2: 必要とする形式でデータを取得する
「データとは何か」のコースでは、機械可読データの重要性についてごく簡単に話しました。データを扱う際には、最初に正しい形式でデータを取得しておけば自分自身の手間と時間を大幅に節約できます。こちらにあるのは、あなたがどの形式を探しているのかをGoogle に知らせる方法についての便利なヒントです。
Googleを使ってもっとデータを探す
Googleの検索窓で検索文字に続けて「+filetype:csv」とタイプするとCSVファイルを探すことができます。「South Africa +filetype:csv」で検索すると、南アフリカについて記述されたCSVファイルが見つかるでしょう。他にもいろいろなファイル種別を試してみましょう(xls,pdfなど)。
やってみよう
疑問に答えるためのデータの使い方
これで、あなたはデータに関連する重要な概念について、ある程度概要を把握しました。さぁ、いよいよあなた自身で狩りを開始する時間です!データの基礎シリーズの次のコースにかけて、私たちは「データとは何か?」コースで自ら提起した疑問を探索するのでしょうか?**医療費はいかに平均寿命に影響を与えるでしょうか?**このコース用のデータを取得するには「世界銀行のデータを取得する」にあるレシピを参照してください。
タスク: この疑問に答える、自身の代替データを発見したのなら、おめでとうございます!少し時間を割いてDataHubにアップロードして、他のスクール・オブ・データの学習者が発見したことを見てみてください。
拡張タスク: ウェブを探して、どんなオープンデータを見つけられるか調べてみてください。もしあなたが本当に面白いものを見つけて、指摘を手助けするエキサイティングな疑問を思いついた場合は、@SchoolofData 宛にtweet するか、またはスクール・オブ・データのブログに短い記事を書いてください。
まとめ
このチュートリアルでは、議論に答えるために、データを取得する方法について説明しました。私たちは、データソースにアクセスするためのさまざまな方法を調べ、異なるデータポータルや検索エンジンをリストするいくつかのリソースを紹介しました。
データの基礎の初めに、私たちは自身で次のような疑問を提起しました: 「医療費はいかに平均寿命に影響を与えるか?」、そしてレシピに従って、その疑問に答える手助けとなるデータセットを世界銀行で発見しました。
参考資料
- 世界銀行のデータポータルからデータを取得する方法
- データジャーナリズムハンドブックの「5分間フィールドガイド」には有用なデータソースを検索するための便利なヒントがたくさんあります
クイズ
次のクイズで、どこでデータを探せば良いかを理解できたかどうか確認してください。
1.Googleで +filetype:csv を使うとデータセットを探せます
(1)はい (2)いいえ
2.データカタログとは?
(1)みんなが作ったもの! (2)オンラインショッピングサイト (3)データ閲覧用ソフトウェア (4)データセットを集めるサービス
3.非公開の行政データはどうやって入手できますか?
(1)情報公開請求 (2)イエローページ (3)プレスリリース (4)ミスカトニック大学の図書館
4.データを公開している組織は政府だけ
(1)はい (2)いいえ