| Imprimir | INSTITUTO TECNOLOGICO DE CHIHUAHUA | << Contenido >> |
TABLAS DE CONTINGENCIA
En muchas ocasiones, los n elementos de una muestra tomada de una población pueden clasificarse con dos criterios diferentes. Por tanto, es interesante saber si los dos métodos de clasificación son estadísticamente independientes. Supóngase que el primer método de clasificación tiene r niveles, y que el segundo tiene c niveles. O sea Oij la frecuencia observada para el nivel i del primer método de clasificación y el nivel j del segúndo método de clasificación. En general, los datos aparecerán como se muestra en la siguiente tabla. Una tabla de este tipo usualmente se conoce como tabla de contingencia r x c.
Columnas
|
Renglones |
1 |
2 |
. . . |
c |
|
|
1 |
O11 |
O12 |
. . . |
O1c |
|
|
2 |
O21 |
O22 |
. . . |
O2c |
|
|
. . . |
. . . |
. . . |
. . . |
. . . |
|
|
r |
Or1 |
Or2 |
. . . |
Orc |
El interés recae en probar la hipótesis de que los dos métodos de clasificación renglón-columna son independientes. Si se rechaza esta hipótesis, entonces se concluye que existe alguna interacción entre los dos criterios de clasificación. Los procedimientos de prueba exactos son difíciles de obtener, pero puede obtenerse un estadístico de prueba aproximado válido para n grande.
Sea pij la probabilidad de que un elemento seleccionado al azar caiga el la
ij-ésima celda, dado que las dos clasificaciones son independientes. Entonces, pij=uivj, donde ui es la probabilidad de que un elemento seleccionado al azar pertenezca al renglón de la clase i, y vj es la probabilidad de que un elemento seleccionado pertenezca a la columna de la clase j. Ahora bien, si se supone independencia, los estimadores de ui y vj son:

![]()
Por lo tanto, la frecuencia esperada de la celda es:
![]()
Entonces, para n grande, el estadístico

tiene una distribución aproximada ji-cuadrada con (r-1)(c-1) grados de libertad si la hipótesis nula es verdadera. Por consiguiente, la hipótesis de independencia debe rechazarse si el valor del estadístico de prueba X2 calculado es mayor que X2 crítico o de tabla.
Ejemplos:
|
Satisfacción en el trabajo |
Rango |
||||
|
Instructor |
Profesor asistente |
Profesor asociado |
Profesor |
||
|
Mucha |
40 |
60 |
52 |
63 |
|
|
Regular |
78 |
87 |
82 |
88 |
|
|
Poca |
57 |
63 |
66 |
64 |
|
Solución:
Ho; La satisfacción en el trabajo y el rango son independientes.
H1; La satisfacción en el trabajo y el rango son dependientes.
Grados de libertad: (r-1)(c-1) = (3-1)(4-1)=(2)(3) = 6

Regla de decisión:
Si X2R
Si X2R > 12.592 se rechaza Ho.
Se procederá a calcular los valores esperados de cada celda. Como los grados de libertad son 6, esto quiere decir que necesitamos calcular únicamente 6 frecuencias esperadas, y las faltantes se encuentran por diferencia.
Se calcularán los valores esperados E11, E12, E13, E21, E22 y E23.
Como se necesitan los totales de renglón y columna se mostrarán en la tabla:
|
Satisfacción en el trabajo |
Rango |
|||||
|
Instructor |
Profesor asistente |
Profesor asociado |
Profesor |
Total |
||
|
Mucha |
40 |
60 |
52 |
63 |
215 |
|
|
Regular |
78 |
87 |
82 |
88 |
335 |
|
|
Poca |
57 |
63 |
66 |
64 |
250 |
|
|
Total |
175 |
210 |
200 |
215 |
800 |
|
![]()
![]()
![]()
Rango
|
Satisfacción |
Instructor |
Profesor asistente |
Profesor asociado |
Profesor |
Total |
|
Mucha |
40 (47.03) |
60 (56.44) |
52 (53.75) |
63 (57.78) |
215 |
|
Regular |
78 (73.28) |
87 (87.94) |
82 (83.75) |
88 (90.03) |
335 |
|
Poca |
57 (54.69) |
63 (65.62) |
66 (62.50) |
64 (67.19) |
250 |
|
Total |
175 |
210 |
200 |
215 |
800 |
Los valores entre paréntesis son los esperados, los que no se calcularon por fórmula se obtuvieron por diferencia con respecto a los totales.

Decisión y justificación:
Como el valor de 2.75 es menor que el de tabla 12.592, por lo tanto no se rechaza Ho y se concluye con un
Turno
|
Matutino |
Vespertino |
Nocturno |
|
Defectuosos |
45 |
55 |
70 |
|
No defectuosos |
905 |
890 |
870 |
Utilice un nivel de significancia de 0.025 para determinar si la proporción de defectuosos es la misma para los tres turnos.
Solución:
Ho; La proporción de artículos defectuosos es la misma para los tres turnos.
H1; La proporción de artículos defectuosos no es la misma para los tres turnos.
Grados de libertad: (r-1)(c-1) = (2-1)(3-1)=(1)(2) = 2

Regla de decisión:
Si X2R
7.378 no se rechaza Ho.
Si X2R > 7.378 se rechaza Ho.
Se procederá a calcular los valores esperados de cada celda. Como los grados de libertad son 2, esto quiere decir que necesitamos calcular únicamente 2 frecuencias esperadas, y las faltantes se encuentran por diferencia.
Se calcularán los valores esperados E11, y E22.
Como se necesitan los totales de renglón y columna se mostrarán en la tabla:
|
Matutino |
Vespertino |
Nocturno |
Total |
|
Defectuosos |
45 |
55 |
70 |
170 |
|
No defectuosos |
905 |
890 |
870 |
2665 |
|
Total |
950 |
945 |
940 |
2835 |

|
Matutino |
Vespertino |
Nocturno |
Total |
|
Defectuosos |
45 (57.0) |
55 (56.7) |
70 (56.3) |
170 |
|
No defectuosos |
905 (893.0) |
890 (888.3) |
870 (883.7) |
2665 |
|
Total |
950 |
945 |
940 |
2835 |

Decisión:
Si se busca este valor dentro de la tabla de ji-cuadrada con 2 grados de libertad nos dará un valor de P aproximado a 0.04. Si se observa el valor de la ji-cuadrada calculada de 6.29 con el valor de tabla de 7.378, se llega a la decisión de no rechazar Ho. Sin embargo sería riesgoso concluir que la proporción de defectuosos producidos es la misma para todos los turnos por tener un valor de P de 0.04.
Tablas de Contingencia para probar Homogeneidad
El uso de la tabla de contingencia de dos clasificaciones para probar independencia entre dos variables de clasificación en una muestra tomada de una población de interés, es sólo una de las aplicaciones de los métodos de tablas de contingencia. Otra situación común se presenta cuando existen r poblaciones de interés y cada una de ellas está dividida en las mismas c categorías. Luego se toma una muestra de la i-ésima población, y los conteos se introducen en las columnas apropiadas del i-ésimo renglón. En esta situación se desea investigar si las proporciones son o no las mimas en las c categorías de todas las poblaciones. La hipótesis nula de este problema establece que las poblaciones son homogéneas con respecto a las categorías (como el ejemplo pasado de los diferentes turnos), entonces la prueba de homogeneidad es en realidad una prueba sobre la igualdad de r parámetros binomiales. El cálculo de las frecuencias esperadas, la determinación de los grados de libertad y el cálculo de la estadística ji-cuadrada para la pruebe de homogeneidad son idénticos a los de la prueba de independencia.
La mayor parte de los procedimientos de prueba de hipótesis que se presentan en las unidades anteriores se basan en la suposición de que las muestras aleatorias se seleccionan de poblaciones normales. Afortunadamente, la mayor parte de estas pruebas aún son confiables cuando experimentamos ligeras desviaciones de la normalidad, en particular cuando el tamaño de la muestra es grande. Tradicionalmente, estos procedimientos de prueba se denominan métodos paramétricos. En esta sección se consideran varios procedimientos de prueba alternativos, llamados no paramétricos ó métodos de distribución libre, que a menudo no suponen conocimiento de ninguna clase acerca de las distribuciones de las poblaciones fundamentales, excepto que éstas son continuas.
Los procedimientos no paramétricos o de distribución libre se usan con mayor frecuencia por los analistas de datos. Existen muchas aplicaciones en la ciencia y la ingeniería donde los datos se reportan no como valores de un continuo sino mas bien en una escala ordinal tal que es bastante natural asignar rangos a los datos.
Un ejemplo donde se aplica una prueba no paramétrica es el siguiente, dos jueces deben clasificar cinco marcas de cerveza de mucha demanda mediante la asignación de un grado de 1 a la marca que se considera que tiene la mejor calidad global, un grado 2 a la segunda mejor, etcétera. Se puede utilizar entonces una prueba no paramétrica para determinar donde existe algún acuerdo entre los dos jueces.
Se debe señalar que hay varias desventajas asociadas con las pruebas no paramétricas. En primer lugar, no utilizan la información que proporciona la muestra, y por ello una prueba no paramétrica será menos eficiente que el procedimiento paramétrico correspondiente, cuando se pueden aplicar ambos métodos. En consecuencia, para lograr la misma potencia, una prueba no paramétrica requerirá la correspondiente prueba no paramétrica.
Como se indicó antes, ligeras divergencias de la normalidad tienen como resultado desviaciones menores del ideal para las pruebas paramétricas estándar. Esto es cierto en particular para la prueba t y la prueba F. En el caso de la prueba t y la prueba F, el valor P citado puede ser ligeramente erróneo si existe una violación moderada de la suposición de normalidad.
En resumen, si se puede aplicar una prueba paramétrica y una no paramétrica al mismo conjunto de datos, debemos aplicar la técnica paramétrica más eficiente. Sin embargo, se debe reconocer que las suposiciones de normalidad a menudo no se pueden justificar, y que no siempre se tienen mediciones cuantitativas.
La prueba del signo se utiliza para probar la hipótesis sobre la mediana
de una distribución continua. La mediana de una distribución es un valor de la variable aleatoria X tal que la probabilidad de que un valor observado de X sea menor o igual, o mayor o igual, que la mediana es 0.5. Esto es,
.
Puesto que la distribución normal es simétrica, la media de una distribución normal es igual a la mediana. Por consiguiente, la prueba del signo puede emplearse para probar hipótesis sobre la media de una población normal.
Suponga que las hipótesis son:
![]()
![]()
Supóngase que X1, X2, . . . , Xn es una muestra aleatoria tomada de la población de interés. Fórmense las diferencias
![]()
Ahora bien si la hipótesis nula
es verdadera, cualquier diferencia
tiene la misma probabilidad de ser negativa o positiva. Un estadístico de prueba apropiado es el número de estas diferencias que son positivas, por ejemplo R+. Por consiguiente, la prueba de la hipótesis nula es en realidad una prueba de que el número de signos positivos es un valor de una variable aleatoria binomial con parámetro P = ½. Puede calcularse un valor P para el número observado de signos positivos r+ directamente de la distribución binomial. Al probar la hipótesis que se muestra al principio, se rechaza H0 en favor de H1 sólo si la proporción de signos positivos es suficientemente menor que ½ ( o de manera equivalente, cada vez que el número observado de signos positivos r+ es muy pequeño). Por tanto, si el valor P calculado
P = P(R+
r+ cuando p = 1/2)
es menor o igual que algún nivel de significancia seleccionado previamente, entonces se rechaza H0 y se concluye que H1 es verdadera.
Para probar la otra hipótesis unilateral
![]()
![]()
se rechaza H0 en favor de H1 sólo si el número observado de signos más, r+, es grande o, de manera equivalente, cada vez que la fracción observada de signos positivos es significativamente mayor que ½. En consecuencia, si el valor P calculado P = P(R+
r+ cuando p = 1/2) es menor que
También puede probarse la alternativa bilateral. Si las hipótesis son:
![]()
![]()
se rechaza H0 si la proporción de signos positivos difiere de manera significativa de ½ (ya se por encima o por debajo). Esto es equivalente a que el número observado de signos r+ sea suficientemente grande o suficientemente pequeño. Por tanto, si r+ >n/2 el valor P es
P=2P(R+
Y si r+ >n/2 el valor P es
P=2P(R+
Si el valor P es menor que algún nivel preseleccionado
Ejemplos:
Solución:
Se mostrará la tabla del ejercicio y es función del investigador poner los signos con respecto a la mediana.
![]()
![]()
|
Observación |
Resistencia al esfuerzo cortante xi |
Signo de la diferencia xi-2000 |
Observación |
Resistencia al esfuerzo cortante xi |
Signo de la diferencia xi-2000 |
|
1 |
2158.70 |
+ |
11 |
2165.20 |
+ |
|
2 |
1678.15 |
- |
12 |
2399.55 |
+ |
|
3 |
2316.00 |
+ |
13 |
1779.80 |
- |
|
4 |
2061.30 |
+ |
14 |
2336.75 |
+ |
|
5 |
2207.50 |
+ |
15 |
1765.30 |
- |
|
6 |
1708.30 |
- |
16 |
2053.50 |
+ |
|
7 |
1784.70 |
- |
17 |
2414.40 |
+ |
|
8 |
2575.10 |
+ |
18 |
2200.50 |
+ |
|
9 |
2357.90 |
+ |
19 |
2654.20 |
+ |
|
10 |
2256.70 |
+ |
20 |
1753.70 |
- |
De la tabla se puede observar que el estadístico de prueba r+ = 14.
Regla de decisión:
Si el valor de P correspondiente a r+=14 es menor o igual que
Cálculos:
Puesto que r+=14 es mayor que n/2=20/2=10, el valor de P se calcula de
P=2P(R+
La P se calcula con la fórmula de la distribución binomial:
![]()
Conclusión:
Como P=0.1153 no es menor que
Otra manera de resolver el problema es con Aproximación normal:
Cuando p=0.5, la distribución binomial esta bien aproximada por la distribución normal cuando n es al menos 10. Por tanto, dado que la media de la distribución binomial es np y la varianza es npq, la distribución de R+ es aproximadamente normal con media 0.5n y varianza 0.25n, cada vez que n es moderadamente grande. Por consiguiente las hipótesis pueden probarse con el estadístico:

Las reglas de decisión se establecerán como cualquier ensayo en una distribución muestral en donde se utiliza la distribución normal.
Para resolver el problema anterior:
![]()
![]()
Como la es mayor que 10 se utilizará la aproximación normal.

Regla de Decisión:
Si –1.96
Si ZR < -1.96 ó si ZR > 1.96 Se rechaza Ho
Cálculos:
![]()
Decisión y Conclusión:
Como 1.789 esta entre –1.96 y 1.96, no se rechaza H0 y se concluye con un
| Imprimir | INSTITUTO TECNOLOGICO DE CHIHUAHUA | << Contenido >> |