C1M1 データとは何か? - okfj/schoolofdata GitHub Wiki
データとは何ですか?
導入
スクール・オブ・データの初心者コースへようこそ。このコースでは、データとの格闘と可視化の基礎をカバーし、データセットの中にある物語を発見し、教えてくれます。
このモジュールでは、どこからデータを探し始めれば良いかを学びます。データと格闘する人にとって何度も繰り返し登場する、定性的、定量的、機械可読、離散及び連続データ、などの主要な用語でデータの基礎の一部を紹介するところから始めます。
たいていの始まりは疑問から
たいていの人は楽しみのためだけにデータと格闘したりはしません。彼らは伝えるべき物語や解決すべき問題を抱えています。
事の起こりは心の中の疑問から、という場合が多いでしょう。これは「私の故郷の日照時間はどの程度?」から「私の政府はどれくらいお金を使っているの?そして、どこからそれを得ているの?」」まで、何でもありえます。疑問は、あなたのデータを探索するための良い出発点です - それはあなたを集中させ、データに興味深いパターンを検出するのに役立ちます。あなたの疑問は誰にとって興味深いのかを理解することは、あなたがどんな聴衆のために働くのかを定義したり、あなたの物語を描き出したりするのに役立ちます。
疑問無しに始めた場合はどうでしょうか?あなたは単に探しているだけです。データセットの中に面白そうなものを見つけた場合、あたかもあなたが念頭に置いていた疑問であったかのように、調べ始めることができます。データ内のパターンは、そのパターンを引き起こしている原因を調査することで説明できる場合があります。これは、しばしば伝える価値のある物語となります。
疑問から始まったかどうかに関わらず、あなたは常に予想外のパターン、異常な結果、あるいはあなたを驚かせる何かのために目を見開いておく必要があります。最も興味深い物語があなたが探していたものではないということはよく起こります。
このコースでは疑問から始めて、次にその疑問を心に留めながらデータセットを探ります。私たちはまた、周辺を探りながらデータに隠された興味深いものがあるかどうかを検討します。
データの基礎コースで焦点を当てる疑問は次のとおりです: 医療費はいかに平均寿命に影響を与えるでしょうか?
タスク:データを使って答えたい疑問を考えます。
データとは何ですか?
データはそこらじゅうにあります。しかし、正確にはそれは何なのでしょうか?データとは物事に割り当てられた値です。例えば下図でボールを取り上げます。
市場のゴルフボール(CC) by Kaptain kobold on Flickr
これらについてどんなことが言えるでしょうか?ゴルフボールですよね?ですから、私たちが持っている第一のデータポイントの1つは、これがゴルフで使われるものだということです。ゴルフはスポーツのカテゴリですので、これはボールを分類する手助けになります。しかし、それ以外にもあります。色は「白」で、状態は「中古」ということが分かります。これらには全てサイズがあり、何らかの数字があり、おそらく何らかの金銭的価値があり、等々。
平凡な対象物であっても、それらに添付されているデータはたくさんあります。あなたもそうです。あなたには名前(たいていの人には苗字と名前があります)、生年月日、体重、身長、国籍などがあります。これらは全てデータです。
上記の例では、すでにさまざまな種類のデータがあることがわかります。二つの主要なカテゴリは、質的データと量的データです。
質的(定性的)データとは、何らかの品質を指すもの全てです。対象物の色、質感の説明や感触、体験の説明、およびインタビューは全て定性的データです。
量的(定量的)データとは、数値を示すデータです。例えば、ゴルフボールの数、サイズ、価格、テストの点数など。
しかし、他にもよく出会うカテゴリがあります。
カテゴリカルデータとは、あなたが論じているアイテムをカテゴリに入れるものです:私たちの例では「中古」の状態は分類(「新品」「中古」「破損」などのカテゴリを持つ)データです。
離散データ とは、例えばゴルフボールの数といった刻みを持つ数値データです。ゴルフボールまるごとの数だけがありえます(0.3個のゴルフボール、といったものはありません)。他の例としては、テストの点数(例えば7/10だったとか)や靴のサイズなどです。
連続データとは、連続的な範囲での数値データです。例えばゴルフボールのサイズ(例えば10.53mmや10.54mmあるいは10.536mmといった)や(離散的である靴のサイズに対して)あなたの足のサイズは任意の値を取ることができます。連続データでは、間に刻みの無い全ての値を取ることができます。
タスク:ゴルフボールの例を見てみましょう。あなたはすべての異なるカテゴリのデータを見つけることができますか?
データから情報、そして知識へ。
データは収集して構造化すると、突如として様々なことに使えるようになります。それでは、以下の表でこれをやってみましょう。
キー | 値 |
---|---|
色 | 白 |
カテゴリ | スポーツ - ゴルフ |
状態 | 中古 |
直径 | 43mm |
価格(ボールあたり) | $ 0.5(AUD) |
しかし、データの各値は、まだそれだけではあまり意味をなしていません。データから情報を作り出すためには、そのデータを解釈する必要があります。
サイズを取り上げてみましょう:43mmの直径は、私たちに教えてくれることはさほどありません。他のものと比較した場合に初めて意味が出てきます。スポーツでは、多くの場合、機器のサイズ制限があります。競技用ゴルフボールの最小サイズは42.67mmです。良いですね、このゴルフボールは競技で使えます。これは情報です。しかし、それはまだ知識ではありません。情報を学び、適用し、理解したときに初めて知識が作り出されます。
非構造化対構造化データ
人間のためのデータ
「私たちは5個の白いゴルフボールを持っていて、それぞれ直径43mmで50セントです」という簡単な文章は人間にとっては理解しやすいかもしれませんが、コンピュータにとってはこれを理解するのは難しいのです。上記の文章を私たちは非構造化データと呼んでいます。非構造化は一定の基礎構造を持っていません - 文章は容易に変更でき、どの言葉が正確に何を指しているかは明らかではありません。同様に、PDFファイルとスキャンした画像は、人間の目に喜ばれるようにうまくレイアウトされた情報を含んでいるかもしれませんが、機械可読 ではありません。
コンピュータ向けのデータ
コンピュータは人間とは本質的に異なっています。コンピュータがある情報源から情報を抽出するのは非常に難しい場合があります。人間なら簡単に分かる一部のタスクは、まだコンピュータで自動化することが困難です。例えば、画像として表示されるテキストを解釈することは、まだコンピュータにとっての課題です。あなたのコンピュータにデータを処理して分析させたい場合は、データを読み取って処理することができなければなりません。これは、構造化と機械可読な形式が必要だということを意味しています。
データ交換に最も一般的に使用される形式のひとつがCSVです。 CSVはカンマ区切り値の略です。同じものをCSVで表現するとこんな感じです:
"数量", "色", "状態", "項目", "カテゴリ", "直径(mm)", "単価(AUD)" 5, "白", "中古", "ボール", "ゴルフ", 43, 0.5 これは、コンピュータが簡単に理解するためのやり方で、表計算ソフトで直接読み取ることができます。単語の周りに引用符があることに注意してください: これはテキスト(コンピュータ用語で文字列値)としてそれらを区別するためのものです。 これに対して数字には引用符がありません。それ以外にも構造化されて機械可読な形式はいろいろあるということにも言及シておいたほうが良いでしょう。
タスク: あなたが最後に読んだ本のことを考えてみてください。そこにはどのようなデータが接続されていて、どうすればそれを構造化データにできるでしょうか?
まとめ
このチュートリアルでは、データの議論において繰り返し登場する本質的な概念のいくつかを検討しました。データとは何か、それがどのように構成されているかを議論しました。次のチュートリアルでは、データソースとデータをどのように手に入れるかを見ていきます。
参考資料
新しいデータセットを取得した時に、仮説に飛び込んだり準備しているべきでしょうか?受賞ジャーナリストであるCaelainn Barr は、彼女が新しいデータソースにアプローチする方法について説明しています。 http://datajournalismhandbook.org/1.0/en/understanding_data_4.html オープンデータ・ハンドブック内の一般的なファイル形式の概要。
クイズ
次のクイズで、基本的なデータのカテゴリを理解できたかどうかを確認してください。
データとは何かクイズ
基本的なデータカテゴリは理解できましたか?これらはどのデータタイプでしょうか?
1.役割:ドラマー
(1)量的データ (2)りんごには正しい答えが必要! (3)カテゴリカルデータ (4)連続データ
2.サイズ: 187cm
(1)離散データ (2)連続データ (3)質的データ (4)カテゴリカルデータ
3.名前: Rick Allen
(1)質的データ (2)うーむ、りんご? (3)量的データ (4)離散データ
4.誕生年: 1963
(1)カテゴリカルデータ (2)離散データ (3)連続データ (4)質的データ