If you want to learn about Statistics using base R a nice website is the Quick-R website, see Statistics > t-tests

These are some example of basic statistics and hypothesis testing in R. Most of the code here is from base R.

We will use the mtcars data set.

library(tidyverse)

mtcars

Summary Statistics

mtcars %>% summarize(mpg_mean = mean(mpg), mpg_sd = sd(mpg))

Subsets and statistics.

mtcars %>% group_by(vs) %>%
  summarize(mpg_mean = mean(mpg), mpg_sd = sd(mpg))

Note that the t.test function does not work well with the tidyverse. There is a new package called infer that works with the tidyverse. And if you are interested chech out the broom package.

I like using the formula interface when doing hypothesis testing.

t test

?t.test

with(mtcars, boxplot(mpg ~ vs))

output1 <- with(mtcars, t.test(mpg ~vs))

output1

summary(output1)

output1$statistic
output1$p.value

ANOVA

?aov

with(mtcars, boxplot(mpg ~cyl))

output2 <- with(mtcars, aov(mpg ~ cyl))

output2

summary(output2)

Linear Regression

?lm

attach(mtcars)

plot(mpg ~ wt)

output3 <-lm(mpg ~ wt)

output3

summary(output3)


plot(mpg ~ wt)
abline(lm(mpg ~ wt))

detach(mtcars)

Using ggplot

mtcars %>% ggplot(aes(x = wt, y = mpg)) +
  geom_point() + 
  geom_smooth(method=lm) +
  geom_smooth()

If you want to learn Hypothesis Testing using modern R code check out the book moderndive. See Chapter 10. The authors of this book are working on a new package called infer R package.

library(infer)

The two sample t test example from the website.

library(nycflights13)
library(dplyr)
library(stringr)
library(infer)

set.seed(2017)
fli_small <- flights %>% 
  sample_n(size = 500) %>% 
  mutate(half_year = case_when(
    between(month, 1, 6) ~ "h1",
    between(month, 7, 12) ~ "h2"
  )) %>% 
  mutate(day_hour = case_when(
    between(hour, 1, 12) ~ "morning",
    between(hour, 13, 24) ~ "not morning"
  )) %>% 
  select(arr_delay, dep_delay, half_year, 
         day_hour, origin, carrier)

obs_t <- fli_small %>%
  specify(arr_delay ~ half_year) %>%
  calculate(stat = "t", order = c("h1", "h2"))

obs_t <- fli_small %>% 
  t_stat(formula = arr_delay ~ half_year, order = c("h1", "h2"))

t_null_perm <- fli_small %>%
  # alt: response = arr_delay, explanatory = half_year
  specify(arr_delay ~ half_year) %>%
  hypothesize(null = "independence") %>%
  generate(reps = 1000, type = "permute") %>%
  calculate(stat = "t", order = c("h1", "h2"))

visualize(t_null_perm) +
  shade_p_value(obs_stat = obs_t, direction = "two_sided")

Randomized p-value

t_null_perm %>% 
  get_p_value(obs_stat = obs_t, direction = "two_sided")

Theoretical p-value

t_null_theor <- fli_small %>%
  # alt: response = arr_delay, explanatory = half_year
  specify(arr_delay ~ half_year) %>%
  hypothesize(null = "independence") %>%
  # generate() ## Not used for theoretical
  calculate(stat = "t", order = c("h1", "h2"))

visualize(t_null_theor, method = "theoretical") +
  shade_p_value(obs_stat = obs_t, direction = "two_sided")

Overlay

visualize(t_null_perm, method = "both") +
  shade_p_value(obs_stat = obs_t, direction = "two_sided")

Compute the Theoretical p-value

fli_small %>% 
  t_test(formula = arr_delay ~ half_year,
         alternative = "two_sided",
         order = c("h1", "h2")) %>% 
  dplyr::pull(p_value)

LS0tCnRpdGxlOiAiQmFzaWMgU3RhdGlzdGljcyBhbmQgSHlwb3RoZXNpcyBUZXN0aW5nIGluIFIiCmF1dGhvcjogIlByb2YuIEVyaWMgQS4gU3Vlc3MiCmRhdGU6ICJOb3ZlbWJlciAyOCwgMjAxOCIKb3V0cHV0OgogIHdvcmRfZG9jdW1lbnQ6IGRlZmF1bHQKICBodG1sX25vdGVib29rOiBkZWZhdWx0CiAgcGRmX2RvY3VtZW50OiBkZWZhdWx0Ci0tLQoKSWYgeW91IHdhbnQgdG8gbGVhcm4gYWJvdXQgU3RhdGlzdGljcyB1c2luZyBiYXNlIFIgYSBuaWNlIHdlYnNpdGUgaXMgdGhlIFtRdWljay1SXShodHRwczovL3d3dy5zdGF0bWV0aG9kcy5uZXQvaW5kZXguaHRtbCkgd2Vic2l0ZSwgc2VlIFtTdGF0aXN0aWNzID4gdC10ZXN0c10oaHR0cHM6Ly93d3cuc3RhdG1ldGhvZHMubmV0L3N0YXRzL3R0ZXN0Lmh0bWwpCgpUaGVzZSBhcmUgc29tZSBleGFtcGxlIG9mIGJhc2ljIHN0YXRpc3RpY3MgYW5kIGh5cG90aGVzaXMgdGVzdGluZyBpbiBSLiAgTW9zdCBvZiB0aGUgY29kZSBoZXJlIGlzIGZyb20gYmFzZSBSLgoKV2Ugd2lsbCB1c2UgdGhlICptdGNhcnMqIGRhdGEgc2V0LgoKYGBge3IsIHdhcm5pbmc9RkFMU0V9CmxpYnJhcnkodGlkeXZlcnNlKQpgYGAKCgoKYGBge3J9Cm10Y2FycwpgYGAKCiMgU3VtbWFyeSBTdGF0aXN0aWNzCgpgYGB7cn0KbXRjYXJzICU+JSBzdW1tYXJpemUobXBnX21lYW4gPSBtZWFuKG1wZyksIG1wZ19zZCA9IHNkKG1wZykpCmBgYAoKIyBTdWJzZXRzIGFuZCBzdGF0aXN0aWNzLgoKYGBge3J9Cm10Y2FycyAlPiUgZ3JvdXBfYnkodnMpICU+JQogIHN1bW1hcml6ZShtcGdfbWVhbiA9IG1lYW4obXBnKSwgbXBnX3NkID0gc2QobXBnKSkKYGBgCgpOb3RlIHRoYXQgdGhlIHQudGVzdCBmdW5jdGlvbiBkb2VzIG5vdCB3b3JrIHdlbGwgd2l0aCB0aGUgdGlkeXZlcnNlLiAgVGhlcmUgaXMgYSBuZXcgcGFja2FnZSBjYWxsZWQgKmluZmVyKiB0aGF0IHdvcmtzIHdpdGggdGhlIHRpZHl2ZXJzZS4gIEFuZCBpZiB5b3UgYXJlIGludGVyZXN0ZWQgY2hlY2ggb3V0IHRoZSAqYnJvb20qIHBhY2thZ2UuCgpJIGxpa2UgdXNpbmcgdGhlIGZvcm11bGEgaW50ZXJmYWNlIHdoZW4gZG9pbmcgaHlwb3RoZXNpcyB0ZXN0aW5nLgoKIyMgdCB0ZXN0CgpgYGB7cn0KP3QudGVzdAoKd2l0aChtdGNhcnMsIGJveHBsb3QobXBnIH4gdnMpKQoKb3V0cHV0MSA8LSB3aXRoKG10Y2FycywgdC50ZXN0KG1wZyB+dnMpKQoKb3V0cHV0MQoKc3VtbWFyeShvdXRwdXQxKQoKb3V0cHV0MSRzdGF0aXN0aWMKb3V0cHV0MSRwLnZhbHVlCmBgYAoKIyMgQU5PVkEKCmBgYHtyfQo/YW92Cgp3aXRoKG10Y2FycywgYm94cGxvdChtcGcgfmN5bCkpCgpvdXRwdXQyIDwtIHdpdGgobXRjYXJzLCBhb3YobXBnIH4gY3lsKSkKCm91dHB1dDIKCnN1bW1hcnkob3V0cHV0MikKYGBgCgojIyBMaW5lYXIgUmVncmVzc2lvbgoKYGBge3J9Cj9sbQoKYXR0YWNoKG10Y2FycykKCnBsb3QobXBnIH4gd3QpCgpvdXRwdXQzIDwtbG0obXBnIH4gd3QpCgpvdXRwdXQzCgpzdW1tYXJ5KG91dHB1dDMpCgoKcGxvdChtcGcgfiB3dCkKYWJsaW5lKGxtKG1wZyB+IHd0KSkKCmRldGFjaChtdGNhcnMpCgpgYGAKCiMjIFVzaW5nIGdncGxvdAoKYGBge3J9Cm10Y2FycyAlPiUgZ2dwbG90KGFlcyh4ID0gd3QsIHkgPSBtcGcpKSArCiAgZ2VvbV9wb2ludCgpICsgCiAgZ2VvbV9zbW9vdGgobWV0aG9kPWxtKSArCiAgZ2VvbV9zbW9vdGgoKQpgYGAKCgpJZiB5b3Ugd2FudCB0byBsZWFybiBIeXBvdGhlc2lzIFRlc3RpbmcgdXNpbmcgbW9kZXJuIFIgY29kZSBjaGVjayBvdXQgdGhlIGJvb2sgW21vZGVybmRpdmVdKGh0dHBzOi8vbW9kZXJuZGl2ZS5jb20pLiAgU2VlIFtDaGFwdGVyIDEwXShodHRwczovL21vZGVybmRpdmUuY29tLzEwLWh5cG90aGVzaXMtdGVzdGluZy5odG1sKS4gIFRoZSBhdXRob3JzIG9mIHRoaXMgYm9vayBhcmUgd29ya2luZyBvbiBhIG5ldyBwYWNrYWdlIGNhbGxlZCBbaW5mZXIgUiBwYWNrYWdlXShodHRwczovL2luZmVyLm5ldGxpZnkuY29tLykuCgpgYGB7cn0KbGlicmFyeShpbmZlcikKYGBgCgpUaGUgdHdvIHNhbXBsZSB0IHRlc3QgZXhhbXBsZSBmcm9tIHRoZSB3ZWJzaXRlLgoKYGBge3J9CmxpYnJhcnkobnljZmxpZ2h0czEzKQpsaWJyYXJ5KGRwbHlyKQpsaWJyYXJ5KHN0cmluZ3IpCmxpYnJhcnkoaW5mZXIpCgpzZXQuc2VlZCgyMDE3KQpmbGlfc21hbGwgPC0gZmxpZ2h0cyAlPiUgCiAgc2FtcGxlX24oc2l6ZSA9IDUwMCkgJT4lIAogIG11dGF0ZShoYWxmX3llYXIgPSBjYXNlX3doZW4oCiAgICBiZXR3ZWVuKG1vbnRoLCAxLCA2KSB+ICJoMSIsCiAgICBiZXR3ZWVuKG1vbnRoLCA3LCAxMikgfiAiaDIiCiAgKSkgJT4lIAogIG11dGF0ZShkYXlfaG91ciA9IGNhc2Vfd2hlbigKICAgIGJldHdlZW4oaG91ciwgMSwgMTIpIH4gIm1vcm5pbmciLAogICAgYmV0d2Vlbihob3VyLCAxMywgMjQpIH4gIm5vdCBtb3JuaW5nIgogICkpICU+JSAKICBzZWxlY3QoYXJyX2RlbGF5LCBkZXBfZGVsYXksIGhhbGZfeWVhciwgCiAgICAgICAgIGRheV9ob3VyLCBvcmlnaW4sIGNhcnJpZXIpCmBgYAoKYGBge3J9Cm9ic190IDwtIGZsaV9zbWFsbCAlPiUKICBzcGVjaWZ5KGFycl9kZWxheSB+IGhhbGZfeWVhcikgJT4lCiAgY2FsY3VsYXRlKHN0YXQgPSAidCIsIG9yZGVyID0gYygiaDEiLCAiaDIiKSkKYGBgCgpgYGB7cn0Kb2JzX3QgPC0gZmxpX3NtYWxsICU+JSAKICB0X3N0YXQoZm9ybXVsYSA9IGFycl9kZWxheSB+IGhhbGZfeWVhciwgb3JkZXIgPSBjKCJoMSIsICJoMiIpKQpgYGAKCgpgYGB7cn0KdF9udWxsX3Blcm0gPC0gZmxpX3NtYWxsICU+JQogICMgYWx0OiByZXNwb25zZSA9IGFycl9kZWxheSwgZXhwbGFuYXRvcnkgPSBoYWxmX3llYXIKICBzcGVjaWZ5KGFycl9kZWxheSB+IGhhbGZfeWVhcikgJT4lCiAgaHlwb3RoZXNpemUobnVsbCA9ICJpbmRlcGVuZGVuY2UiKSAlPiUKICBnZW5lcmF0ZShyZXBzID0gMTAwMCwgdHlwZSA9ICJwZXJtdXRlIikgJT4lCiAgY2FsY3VsYXRlKHN0YXQgPSAidCIsIG9yZGVyID0gYygiaDEiLCAiaDIiKSkKYGBgCgoKYGBge3J9CnZpc3VhbGl6ZSh0X251bGxfcGVybSkgKwogIHNoYWRlX3BfdmFsdWUob2JzX3N0YXQgPSBvYnNfdCwgZGlyZWN0aW9uID0gInR3b19zaWRlZCIpCmBgYAoKUmFuZG9taXplZCBwLXZhbHVlCgpgYGB7cn0KdF9udWxsX3Blcm0gJT4lIAogIGdldF9wX3ZhbHVlKG9ic19zdGF0ID0gb2JzX3QsIGRpcmVjdGlvbiA9ICJ0d29fc2lkZWQiKQpgYGAKCgpUaGVvcmV0aWNhbCBwLXZhbHVlCgpgYGB7cn0KdF9udWxsX3RoZW9yIDwtIGZsaV9zbWFsbCAlPiUKICAjIGFsdDogcmVzcG9uc2UgPSBhcnJfZGVsYXksIGV4cGxhbmF0b3J5ID0gaGFsZl95ZWFyCiAgc3BlY2lmeShhcnJfZGVsYXkgfiBoYWxmX3llYXIpICU+JQogIGh5cG90aGVzaXplKG51bGwgPSAiaW5kZXBlbmRlbmNlIikgJT4lCiAgIyBnZW5lcmF0ZSgpICMjIE5vdCB1c2VkIGZvciB0aGVvcmV0aWNhbAogIGNhbGN1bGF0ZShzdGF0ID0gInQiLCBvcmRlciA9IGMoImgxIiwgImgyIikpCmBgYAoKYGBge3J9CnZpc3VhbGl6ZSh0X251bGxfdGhlb3IsIG1ldGhvZCA9ICJ0aGVvcmV0aWNhbCIpICsKICBzaGFkZV9wX3ZhbHVlKG9ic19zdGF0ID0gb2JzX3QsIGRpcmVjdGlvbiA9ICJ0d29fc2lkZWQiKQpgYGAKCk92ZXJsYXkKCmBgYHtyfQp2aXN1YWxpemUodF9udWxsX3Blcm0sIG1ldGhvZCA9ICJib3RoIikgKwogIHNoYWRlX3BfdmFsdWUob2JzX3N0YXQgPSBvYnNfdCwgZGlyZWN0aW9uID0gInR3b19zaWRlZCIpCmBgYAoKQ29tcHV0ZSB0aGUgVGhlb3JldGljYWwgcC12YWx1ZQoKYGBge3J9CmZsaV9zbWFsbCAlPiUgCiAgdF90ZXN0KGZvcm11bGEgPSBhcnJfZGVsYXkgfiBoYWxmX3llYXIsCiAgICAgICAgIGFsdGVybmF0aXZlID0gInR3b19zaWRlZCIsCiAgICAgICAgIG9yZGVyID0gYygiaDEiLCAiaDIiKSkgJT4lIAogIGRwbHlyOjpwdWxsKHBfdmFsdWUpCmBgYAoK

Basic Statistics and Hypothesis Testing in R

Prof. Eric A. Suess

November 28, 2018