logo

Hi-kvadrat test v R

The hi-kvadrat test neodvisnosti ocenjuje, ali obstaja povezava med kategorijama obeh spremenljivk. V osnovi obstajata dve vrsti naključnih spremenljivk, ki dajeta dve vrsti podatkov: numerične in kategorične. noter Programski jezik R Statistika hi-kvadrat se uporablja za raziskovanje, ali se porazdelitve kategoričnih spremenljivk med seboj razlikujejo. Hi-kvadrat test je uporaben tudi pri primerjavi seštevkov ali števila kategoričnih odgovorov med dvema (ali več) neodvisnima skupinama.

V programskem jeziku R je funkcija, ki se uporablja za izvajanje testa hi-kvadrat chisq.test()> .



Sintaksa:

chisq.test(podatki)

document.queryselector

Parametri:



podatke : data je tabela, ki vsebuje vrednosti štetja spremenljivk v tabeli.

Anketne podatke bomo vzeli v MASS> knjižnica, ki predstavlja podatke iz ankete, opravljene na študentih.

R






# load the MASS package> library>(MASS)> print>(>str>(survey))>

>

>

Izhod:

'data.frame': 237 obs. of 12 variables:  $ Sex : Factor w/ 2 levels 'Female','Male': 1 2 2 2 2 1 2 1 2 2 ...  $ Wr.Hnd: num 18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ...  $ NW.Hnd: num 18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ...  $ W.Hnd : Factor w/ 2 levels 'Left','Right': 2 1 2 2 2 2 2 2 2 2 ...  $ Fold : Factor w/ 3 levels 'L on R','Neither',..: 3 3 1 3 2 1 1 3 3 3 ...  $ Pulse : int 92 104 87 NA 35 64 83 74 72 90 ...  $ Clap : Factor w/ 3 levels 'Left','Neither',..: 1 1 2 2 3 3 3 3 3 3 ...  $ Exer : Factor w/ 3 levels 'Freq','None',..: 3 2 2 2 3 3 1 1 3 3 ...  $ Smoke : Factor w/ 4 levels 'Heavy','Never',..: 2 4 3 2 2 2 2 2 2 2 ...  $ Height: num 173 178 NA 160 165 ...  $ M.I : Factor w/ 2 levels 'Imperial','Metric': 2 1 NA 2 2 1 1 2 2 2 ...  $ Age : num 18.2 17.6 16.9 20.3 23.7 ... NULL>

Zgornji rezultat kaže, da ima nabor podatkov veliko faktorskih spremenljivk, ki jih je mogoče obravnavati kot kategorične spremenljivke. Za naš model bomo upoštevali spremenljivke Exer in dim .Stolpec Smoke beleži kadilske navade učencev, medtem ko stolpec Exer beleži njihovo stopnjo vadbe. Naš cilj je preveriti hipotezo, ali je kadilska navada študentov neodvisna od njihove ravni vadbe na ravni pomembnosti 0,05.

R




# Create a data frame from the main data set.> stu_data =>data.frame>(survey$Smoke,survey$Exer)> # Create a contingency table with the needed variables.> stu_data =>table>(survey$Smoke,survey$Exer)> > print>(stu_data)>

kartiranje v tipkopisu

>

>

Izhod:

 Freq None Some  Heavy 7 1 3  Never 87 18 84  Occas 12 3 4  Regul 9 1 7>

In končno uporabimo chisq.test()> funkcijo v kontingenčno tabelo stu_data.

R




pothineni ram
# applying chisq.test() function> print>(>chisq.test>(stu_data))>

>

>

Izhod:

 Pearson's Chi-squared test  data: stu_data X-squared = 5.4885, df = 6, p-value = 0.4828>

Ker je p-vrednost 0,4828 večja od 0,05, sklepamo, da je kadilska navada neodvisna od stopnje vadbe študenta, zato med obema spremenljivkama obstaja šibka korelacija ali pa je ni. Celotna koda R je navedena spodaj.

Torej, če povzamemo, lahko rečemo, da je zelo enostavno izvesti test hi-kvadrat z uporabo R. To nalogo lahko izvedemo z chisq.test()> funkcija v R.

Vizualizirajte podatke testa hi-kvadrat

R




gimp odstrani vodni žig
# Load required library> library>(MASS)> # Print structure of the survey dataset> print>(>str>(survey))> # Create a data frame for smoking and exercise columns> stu_data <->data.frame>(survey$Smoke, survey$Exer)> stu_data <->table>(survey$Smoke, survey$Exer)> # Print the table> print>(stu_data)> # Perform the Chi-Square Test> chi_result <->chisq.test>(stu_data)> print>(chi_result)> # Visualize the data with a bar plot> barplot>(stu_data, beside =>TRUE>, col =>c>(>'lightblue'>,>'lightgreen'>),> >main =>'Smoking Habits vs Exercise Levels'>,> >xlab =>'Exercise Level'>, ylab =>'Number of Students'>)> # Add legend separately> legend>(>'center'>, legend =>rownames>(stu_data), fill =>c>(>'lightblue'>,>'lightgreen'>))>

>

>

Izhod:

gh

Hi-kvadrat test v R

V tej kodi uporabljamoMASS>knjižnico za izvedbo testa hi-kvadrat na naboru podatkov 'ankete', s poudarkom na razmerju med kadilskimi navadami in ravnmi vadbe.

Ustvari tabelo nepredvidljivih dogodkov, izvede statistični test in vizualizira podatke z uporabo paličnega grafikona. Legenda je dodana ločeno v zgornjem levem kotu in razlikuje med različnimi navadami kajenja z različnimi barvami.

Namen kode je raziskati in sporočiti povezave med kadilskim vedenjem in vadbo znotraj nabora podatkov.