Head First Statistics
도서명:Head First Statistics
저자/출판사:돈,그리피스/한빛미디어
쪽수:720쪽
출판일:2012-04-01
ISBN:9788979147278
목차
서문
__통계학에 임하는 여러분의 두뇌. 우리는 두뇌가 방해를 받아서 학습이 잘 되지 않을 때에도 무언가 배우려고 노력합니다. 여러분의 두뇌는 ‘어떤 야생 동물을 피해야 할 것인지, 벌거벗고 스노보드를 타는 것이 나쁜 생각인지 아닌지와 같은 좀 더 중요한 일을 결정하기 위해 여유 공간이 있어야 한다’고 생각합니다. 그렇다면 여러분의 두뇌로 하여금 통계학을 이해하는 것이 살아가는 데 매우 중요한 일이라고 느끼게 하려면 어떻게 해야 할까요?
1 장 정보의 시각화: 첫인상
__숫자를 보는 것만으로는 뭐가 뭔지 모르겠다고요? 통계는 혼란스러운 데이터로부터 의미를 찾아내는 작업을 도와주며 복잡한 것을 간단하게 만듭니다. 통계를 이용해서 복잡한 데이터 안에서 실제로 무슨 일이 벌어지고 있는지 파악했으면 그것을 시각화해서 다른 사람들에게 전달할 필요가 있습니다. 회사업무를 위해 멋진 차트를 만들고 싶다면 옷을 챙겨 입고, 슬라이드 제작 도구를 챙기고, 통계마을을 향해 떠나는 우리의 여행에 동참하시기 바랍니다.
2 장 중심적 경향 측정하기: 중도를 지키세요
__때로는 어떤 사물의 핵심에 다가가는 것이 필요한 일의 전부입니다. 많은 수들이 쌓여 있으면 그 안에서 일정한 패턴이나 흐름을 파악하기 어렵습니다. 큰 그림을 파악하려고 할 때 평균을 구하는 것이 종종 해야 할 일의 첫 단계인 경우가 많습니다. 평균을 알면 데이터 안에서 가장 대표적인 값이 무엇인지 쉽게 파악할 수 있기 때문에 중요한 결정을 내릴 수 있습니다. 이 장에서는 통계에서 가장 중요한 값들인 평균값(mean), 중앙값(median), 최빈값(mode)을 구하는 다양한 방법을 살펴볼 것입니다. 그러고 나면 얼마나 최대한 효과적이고 간결하게 데이터를 정리할 수 있는지 알게 될 것입니다.
3 장 변이와 분포 측정하기: 강력한 범위
__아무거나 믿을 수 있는 건 아니라고, 하지만 그걸 어떻게 알지? 평균은 데이터 집합이 가지고 있는 전형적인 값을 알려 주는 데 있어 훌륭한 역할을 수행합니다. 하지만 그렇다고 해서 모든 정보를 제공해 주는 것은 아닙니다. 이제 당신은 데이터의 중심이 어딘지 알 수 있게 되었습니다. 하지만 평균값, 중앙값, 최빈값은 데이터 집합을 정리할 때 필요한 정보를 모두 알려 주지 않습니다. 이 장에서는 범위(range)와 변화량(variation)을 분석하기 시작함으로써 여러분의 데이터 기술을 한 단계 더 올려놓을 것입니다.
4 장 확률 계산하기: 위험을 무릅쓰기
__삶은 불확실성으로 가득 차 있습니다. 때로는 1분 후에 어떤 일이 일어날지 말하는 것이 불가능할 수도 있습니다. 그렇지만 어떤 사건은 다른 사건에 비해 일어날 가능성이 높습니다. 바로 이 지점에서 확률이론이 필요합니다. 확률은 어떤 일이 발생할 가능성을 측정함으로써 미래를 예측할 수 있도록 합니다. 그리고 어떤 일이 일어날 가능성이 있는지 미리 아는 것은 우리가 정보에 기초한 결정을 내릴 수 있도록 해 줍니다. 이 장에서는 확률에 대해 자세히 알아봄으로써 미래를 우리 마음대로 조종하는 방법을 배울 것입니다!
5 장 이산확률분포 사용하기: 기대수준을 관리하세요
__일어날 것 같지 않은 사건도 일어납니다. 하지만 그 결과는 무엇일까요? 지금까지 우리는 확률이 우리에게 어떤 사건들이 얼마나 일어날 가능성이 높은지 여부를 알려 주는 것을 살펴보았습니다. 확률이 말해 주지 않은 것은 이러한 사건들이 갖는 전체적인 영향과 그것이 당신에게 무엇을 의미하는지 등입니다. 물론 당신은 룰렛테이블에서 한판 크게 벌어들이기도 할 것입니다. 하지만 그때까지 꾸준히 잃는 돈을 생각해 보면 그것이 정말 가치가 있는 일일까요? 이 장에서 우리는 확률을 이용해서 장기적인 산출물을 예측하고, 이러한 예측 자체의 확실성을 측정하는 방법을 살펴보도록 할 것입니다.
6 장 순열과 조합:****속 정하기
__때로는 순서가 중요합니다. 사물의 순서가 의미를 갖는 상황에서 가능한 모든 경우를 일일이 따져보는 것은 시간이 매우 오래 걸리는 일입니다. 하지만 이런 종류의 정보가 어떤 확률을 계산할 때에는 결정적이라는 것이 문제입니다. 이 장에서는 이와 같은 상황에서 가능한 결과값을 하나씩 따지지 않고 빠르게 필요한 정보를 얻는 방법을 공부할 것입니다. 우리와 함께 길을 가면서 가능성을 세는 방법을 익히기 바랍니다.
7 장 기하, 이항, 푸아송분포: 사물을 분산시키세요
__확률분포를 계산하면 시간이 걸립니다. 지금까지는 확률분포를 어떻게 계산하고 사용하는지 살펴보았습니다. 하지만 그보다 더 사용하기 쉬운 방법, 혹은 계산을 빨리 할 수 있는 방법이 있으면 좋지 않을까요? 이 장에서는 특정한 패턴을 가지고 있는 특별한 확률분포들을 보여 줄 것입니다. 이러한 패턴을 익히고 나면 그들을 확률, 기대치, 분산을 기록적인 시간 내에 계산할 때 사용할 수 있게 될 것입니다. 계속 읽어 나가세요. 기하(geometric), 이항(binomial), 그리고 푸아송분포(Poisson distri b ution)에 대해 배우게 될 것입니다.
8 장 정규분포 사용하기 i: 정상적으로 되기
__이산확률분포가 모든 상황을 다룰 수 있는 것은 아닙니다. 지금까지는 정확한 값을 정할 수 있는 상황에서의 확률분포를 살펴보았습니다. 하지만 그 상황이 모든 데이터 집합을 포괄하는 것은 아닙니다. 어떤 종류의 데이터는 지금까지 보았던 확률분포에 부합하지 않습니다. 이번 장에서는 연속확률분포(contin uo us pro ba bilit y distri b utions)가 동작하는 방식을 살펴보고, 확률분포에서 가장 중요한 존재인 정규분포(normal distri b ution)를 소개할 것입니다.
9 장 정규분포 이용하기 ii: 정상을 넘어서
__모든 확률분포가 정상이라면 좋았을 텐데. 정규분포와 함께라면 삶이 훨씬 간단해질 겁니다. 전체 범위를 한꺼번에 찾아보고 게임을 하면서 즐겨도 되는데 뭐 하러 개별적인 확률을 계산하느라 땀을 흘립니까? 이 장에서는 복잡한 문제를 눈 깜짝할 사이에 푸는 방법을 살펴보고, 이러한 정규분포의 장점을 다른 확률분포에 적용하는 방법에 대해서도 배우게 될 것입니다.
10 장 통계 표본 사용하기: 표본 고르기
__통계는 데이터를 다룹니다. 그런데 데이터는 어디에서 오는 걸까요? 헬스클럽에 나오는 사람들의 나이나 게임회사의 판매실적처럼 데이터를 확보하는 것이 어렵지 않은 경우가 있습니다. 하지만 데이터를 확보하는 것이 어려운 경우라면 어떻게 할까요? 경우에 따라서는 사람들이 원하는 데이터의 분량이 너무나 거대해서 어디서부터 시작해야 하는지조차 파악하기 힘든 때도 있습니다. 이 장에서 우리는 실제 세상에서 데이터를 효과적으로 확보하는 방법, 즉 효율적이고, 정확하고, 시간과 노력을 절약해 주는 방식으로 데이터를 모을 수 있는 방법을 살펴볼 것입니다. 데이터 추출의 세계에 온 것을 환영합니다.
11 장 모집단과 표본 추정하기: 예측하기
__표본 하나만 보고도 모집단이 어떨지 예측할 수 있다면 훌륭하지 않을까요? 자신이 표본박사라고 주장하기 전에, 일단 구성한 표본을 어떻게 최선으로 사용할 수 있는지에 대해 알 필요가 있습니다. 이것은 곧 표본을 이용해서 모집단의 모습을 얼마나 정확하게 예측할 수 있는지, 그리고 그러한 예측이 얼마나 믿을만한지 말할 수 있게 되는 것을 의미합니다. 이 장에서는 표본을 아는 것이 어떻게 모집단을 아는 것으로 연결되는지, 그리고 그 반대가 어떻게 성립하는지 살펴볼 것입니다.
12 장 신뢰구간 구성하기: 신뢰를 갖고 추측하기
__표본이 올바른 결과를 낳지 않을 때도 있습니다. 모집단의 평균값, 분산, 혹은 비율에 대한 정확한 값을 추정하기 위해 점추정을 이용하는 방법을 살펴보았습니다. 하지만 이러한 추정이 얼마나 정확한지 어떻게 확신할 수 있을까요? 결국 모집단에 대한 이러한 가정들은 하나의 표본에 의존하고 있을 뿐입니다. 이러한 예측이 잘못된 것이라면 어떻게 하겠습니까? 이 장에서는 모집단의 통계를 추측하는 또 다른 방법, 즉 불확실성을 허용하는 방법에 대해 살펴보게 될 것입니다. 확률테이블을 옆에 놓기 바랍니다. 우리는 신뢰구간의 겉과 속을 모두 설명해 줄 것입니다.
13 장 가설검정 이용하기: 증거를 보세요
__들은 것이 모두 절대적으로 확실한 것은 아닙니다. 문제는 언제 그것이 사실이고 언제 그것이 사실이 아닌지 어떻게 아느냐 하는 것입니다. 가설검정은 어떤 통계적인 주장이 어느 정도 사실인지 여부를 판별하기 위해 표본을 이용하는 방법을 제공해 줍니다. 그들은 증거가 어느 정도 유용한지 판별하고, 어떤 극단적인 값이 단순한 우연으로 설명될 수 있는지, 아니면 뭔가 흑막이 있는 것인지 여부를 판단할 수 있는 방법을 제공합니다. 이 장을 살펴보는 여행에 동참하세요. 그러면 우리는 당신에게 가설검정을 이용해서 마음 속 깊은 곳에 존재하는 의심의 내용을 확인하거나 덜기 위해 가설검정을 이용하는 방법을 알려 줄 것입니다.
14 장 χ 2 분포: 무슨 일이 일어나고 있습니다.
__때로는 일들이 당신이 기대하는 것과 전혀 다르게 진행되기도 합니다. 어떤 특정한 확률분포를 이용해서 상황에 대한 모델링을 수행할 때 당신은 일들이 앞으로 어떻게 진행될지에 대해 어느 정도 예측하고 있는 것입니다. 하지만 당신이 기대하는 것과 실제로 일어나는 일 사이에 차이가 존재하면 어떻게 하겠습니까? 이러한 차이가 정상적인 움직임의 일부인지 아니면 확률모델이 가지고 있는 근본적인 문제를 의미하는지 어떻게 알 수 있을까요? 이 장에서 우리는 χ 2 분포를 이용해서 결과를 분석하고 뭔가 의심스러운 결과를 포착할 수 있는 방법에 대해 알아볼 것입니다.
15 장 상관과 회귀: 내 라인은 무엇일까요?
__두 가지 사물이 어떻게 연결되어 있는지 궁금한 적이 있었습니까? 지금까지는 남자의 키, 농구선수들의 점수, 혹은 풍선껌의 향이 얼마나 오래 가는가 하는 것처럼 한 가지 변수에 대해 설명해 주는 통계를 살펴보았습니다. 하지만 통계 중에는 변수들 사이에 존재하는 연결에 대해 말해 주는 것들도 존재합니다. 사물이 어떻게 서로 연결되어 있는지 아는 것은 실제 세상에 대한 많은 정보, 당신을 이롭게 해 주는 정보를 제공해 줍니다. 책을 계속 읽어나가면 이러한 연결과 관련된 두 가지 핵심적인 내용, 즉 상관(correlation)과 회귀(regression)에 대해 알게 될 것입니다.
부록 i: 10가지 중요한 이야기(지금까지 설명하지 않은)
__이 모든 것에도 불구하고 공부해야 할 것이 아직도 남아 있습니다. 당신이 알아야 하는 내용이 좀 더 있습니다. 간략하게 언급하고 넘어갈 내용들이긴 하지만 무시하고 넘어갈 수는 없습니다. 이 책을 덮기 전에 다음에 나와 있는 짧지만 중요한 통계학 토막지식을 살펴보기 바랍니다.
부록 ii: 통계테이블
__믿을 수 있는 확률테이블이 없다면 어떻게 될까요? 확률분포를 이해하는 것만으로는 아직 부족합니다. 경우에 따라서 표준확률테이블에서 원하는 확률을 찾아봐야 하는 때가 있기 때문입니다. 부록 ii에서는 정규분포, t-분포, χ 2 분포의 테이블을 설명할 것입니다. 이 테이블들을 이용해서 원하는 확률을 찾아볼 수 있습니다.