4.2 Sumarização numérica de dados
Resumos numéricos de dados são fundamentais para realizar inferências estatísticas, porque, de acordo com Montgomery & Runger (2021), “permitem ao engenheiro focar nas características importantes dos dados ou ter discernimento acerca do tipo de modelo que deveria ser usado na solução do problema”. Por isso, torna-se útil descrever numericamente, a partir de medidas de posição, variabilidade e forma, características dos dados.
4.2.1 Medidas de Posição
4.2.1.1 Média
A média é a divisão da soma de todos os valores da série pelo número de obervações n.
\(\bar{x}=\frac{x_{1}+x_{2}+x_{3}...x_{n}}{n}=\frac{\sum x_n}{n}\)
4.2.2 Medidas de Variabilidade
4.2.2.1 Amplitude
Em um conjunto de observações, a Amplitude é a diferença entre o maior valor e o menor.
4.2.2.2 Variância
Para uma amostra de n observações, a Variância será:
\(s=\frac{\sum(x_{i}-\bar{x})^{2}}{n-1}\)
4.2.3 Medidas de Forma
As medidas de forma permitem a verificação de como um conjunto de dados está se comportando em sua distribuição. Gráficos de distribuição de frequência e histogramas são ferramentas importantes para essa verificação.
4.2.3.1 Assimetria
Distribuições em forma de sino são simétricas, já que a média, mediana e moda desse conjunto de dados são iguais. Ou seja, a metade esquerda do histograma é aproximadamente igual à metade direita.
Distribuições assimétricas possuem uma concentração de seus dados, à direita ou à esquerda, no histograma. Ou seja, apresentam uma “cauda” em uma das extremidades. Se a distribuição desses dados estiverem concentrados à direita, são dados com assimetria positiva. Se concentrados à esquerda, assimetria negativa.