Análise Exploratória de dados
O objetivo é a exploração irrestrita dos dados, na busca por padrões interessantes e conhecimento útil. As conclusões não possibilitam generalização.
Utilizaremos métodos numéricos e gráficos para descrever as varáveis de um conjunto de dados e as relações entre elas.
Conceitos e definições:
população (N) é a coleção completa de todos os elementos (valores, pessoas, medidas…). amostra (n) é um sub conjunto organizado por algum intuito. censo é a coleção de dados relativos a todos os elementos da população. variabilidade é a dispersão da variável dados são informações sistematicamente registradas, sejam números ou rótulos. São inúteis sem contexto.
amostras aleatórias são uma boa estratégia para selecionar amostragens não enviesadas.
requisitos
Identificação das variáveis, coerência, representação gráfica, análise das medidas de posição dispersão, gráficos e de possíveis relações entre as variáveis e destaque das anomalias.
Medidas de dispersão
[[6.1- Matriz de Confusão]] e [[8 - Variáveis Aleatórias]] Média ponderada é distribuição uniforme com peso 1/n. média aritmética = $\bar x = \sum^{n}{i=1}\limits x{i}\times (\frac{1}{n})$
Coeficiente de variação $cv = \frac{s}{\bar x}\times 100$
| CV | Dispersão |
|---|---|
| <15% | baixa |
| 15%<cv<35% | média |
| >35% | alta |
quantis
Um quantil de ordem p, $Q(p)$ é o valor tal que 100 p% das observações são menores do que $Q(p)$, sendo $0<p<1$
Delimitam a metade central dos dados, ou seja, a amostra de 25% a 75%
Resumo de 5 números
QUARTIL 1 = Q=Q(0, 25) -> 25% menores QUARTIL 3 = Q=Q(0,75) -> 25% maiores md - mediana min - minimo max - maximo
tabela resumo
amostra média mediana moda variância desvio padrão CV minimo 1° Quartil 3° Quartil Máximo Amplitude

