SAS appendix til slides
1 Datasæt
Alle datasæt er tilgængelige som tekstfil (.csv eller .txt) og SAS-fil (.sas7bdat) fra http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/.
I e-bogen her angiver jeg hvordan du kan indlæse filen fra URL - hvis det ikke virker (RegionH…), er du nødt til at downloade filerne først til din computer og derefter uploade dem til din server. Se SAS-intro om at indlæse data.
1.1 Vitamin D
Data er beskrevet i detaljer i Andersen et al. (2005) ‘Teenage girls and elderly women living in northern Europe have low winter vitamin D status’, European Journal of Clinical Nutrition.
Variable:
- country (1=DK, 2=FI, 4=EI, 6=PO)
- vitd (nmol/L, serum Vitamin D level)
- age (years)
- bmi \(({\rm kilo/m}^2)\)
- sunexp (1=Avoid sun, 2=Sometimes in sun, 3=Prefer sun)
- vitdintake (Vitamin D intake, the amount of vitamin D contained in the consumed food).
Data ligger i filerne med navn vit.csv
og vit.sas7bdat
).
data vit;"http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/vitamin.csv"
infile =2 delimiter=",";
URL firstobs
input country vitd age bmi sunexp vitdintake; run;
Koderne er svære at huske, men her kan vi lægge formater på ved først at definere sol- og landeformater (som vi giver navnene sunf
og countryf
), og specificerer hvilke labels vi vil have på hvilke værdier (OBS: labels skal i citationstegn)
proc format;
value sunf1 = "Avoid sun"
2 = "Sometimes in sun"
3 = "Prefer sun";
value countryf1 = "DK"
2 = "SF"
4 = "EI"
6 = "PL";
run;
Derefter kan vi lægge disse labels på vores variable
data vit;
set vit;
format sunexp sunf.;
format country countryf.; run;
Vi arbejder i dele af slides kun med de irske kvinder og definerer derfor et datasæt bestående kun af de irske kvinder. Bemærk at vi er nødt til at referere til selve værdien (country
kode 4) og ikke den label vi har lagt på (EI
):
data vitEI;
set vit;if country=4;
run;
1.2 Immunoglobulin
Her er kun én variabel med navn img
. Data ligger i filen imm
(.csv og sas7bdat)
data imm;"http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/imm.csv"
infile =2 delimiter=",";
URL firstobs
input img; run;
1.3 Længdespring
Længespring mænd, kvalifikation OL 2012, bedste spring af 3. Vi skal kun bruge variablen distance
, som angiver længden. Find data i filen longjump
(.csv eller .sas7bdat).
data l;"http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/longjump.csv"
infile =2 delimiter=",";
URL firstobs$ country $ distance;
input rank name run;
Bemærk at der er $ efter tekstvariable.
1.4 Slagvolumen, parrede observationer
Data (fil med navn mf_sv
(.txt eller .sas7bdat)) indeholder slagvolumen bestemt ved to forskellige metoder på hver patient:
mf
: Doppler ekkokardiografisv
: Cross-sectional ekkokardiografi
data ms;"http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/mf_sv.txt"
infile =2 delimiter=" ";
URL firstobs
input mf sv; run;
Skal også benyttes i såkaldt langt format i forbindelse med spaghettiplots (hvor mf
og sv
-målingerne er stablet ovenpå hinanden i en variabel med navn vol
og vi har tilføjet en metode
-variabel, som angiver om målingen er taget med mf
eller sv
). Data i langt format indlæses fra datafilen mf_sv_lang.csv
:
data lang;"http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/mf_sv_lang.csv"
infile =2 delimiter=",";
URL firstobs$ id;
input vol metode run;
1.5 Vietnam veteraner
Data er beskrevet i detaljer i Carroll et al.: Low cognitive ability in early adulthood is associated with reduced lung function in middle age: the Vietnam Experience Study, Thorax (2011)
Vi har et tilfældigt udsnit af data på 87 af de 4526 veteraner, som var en del US army mellem 1965 og 1971.
Variable:
smoke01
: 0 = Ikke- eller ex-ryger, 1 = Ryger.iq
: IQ målt ved start ansættelseFEV1
: (L, Forced Expiratory Volume in one second) målt i 1986
Data ligger i filer med navn viet
, og kan indlæses fra URL med:
data viet;'http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/viet.txt'
infile =2;
URL firstobs
input smoke01 iq FEV1; run;
1.6 VCF og blodsukker
Data (fil med navn vcf
(.txt eller .sas7bdat)) indeholder to variable målt på 23 diabetikere:
blodsukker
vcf
sammentrækningsevne for venstre hjertekammer (velocity of circumferential shortening)
data vcf;"http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/vcf.txt"
infile =2 ;
URL firstobs
input blodsukker vcf; run;
1.7 Refe og test
To forskellige metoder til bestemmelse af glucosekoncentration. Ref: R.G. Miller et.al. (eds): Biostatistics Casebook. Wiley, 1980.
Data (fil med navn refe_test
(.txt eller .sav)) indeholder to variable målt på 46 individer
refe
, farvetest der kan ’forurenes’ af urinsyretest
, enzymatisk test, mere specifikt for glucose.
data rt;"http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/refe_test.txt"
infile =2 ;
URL firstobs
input refe test; run;
1.8 Lille SundBy
Data med navn sundby_lille
(.txt eller .sav).
er et subdatasæt på 100 tilfældige individer fra SundBy-materialet. Her er tre variable
gender
kodet “male” og “female”vaegt
i kghoejde
i meter
data sundby_udvalgt;"http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/sundby_lille.txt" URL firstobs=2;
infile $ vaegt hoejde;
input gender =log10(vaegt);
log10vaegt=log10(hoejde);
log10hoejde=vaegt/hoejde**2;
bmi run;
1.9 AMH og P-piller
Data (fil med navn ppills
, .txt eller .sas7bdat) indeholder to variable målt på 732 danske kvinder:
amh
ppiller
, P-pille bruger 0/1 (nej/ja)
data pp;'http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/ppills.txt' URL firstobs=2;
infile $ rygning;
input idnr alder amh ppiller bmi =log10(amh);
logamh run;
1.10 Fødselsvægt (Secher)
Data benyttes i uge 6, multipel regression.
107 gravide kvinder blev ultralydsscannet få dage inden fødsel og barnets vægt blev målt ved fødsel. Data indholder følgende variable:
bdp
hoveddiameterad
maveomfangvgt
barnets vægt ved fødselnr
idnr
Data (filer med navn secher
) kan indlæses direkte fra link med
data secher;'http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/secher.txt' URL firstobs=2;
infile
input vaegt bpd ad nr; run;
1.11 Fedme
Data benyttes i uge 6, multipel regression. Datasættet (filer med navn fedme
) indeholder følgende målinger på 197 børn:
vaegt
vægt i 1-års alderhoejde
højdde i 1-års alderfedme
i skolealderen - skal normeres således at vi regner påfedmescore=fedme/0.2859382
(0.2859382 er SD affedme
-variablen)
Data kan indlæses fra link med følgende kode (hvor der samtidigt defineres et par nye variable):
data fedme;'http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/fedme.txt' URL firstobs=2;
infile
input fedme vaegt hoejde ;=fedme/0.2859382;
fedmescore= vaegt / hoejde**2;
bmi =log2(bmi);
log2bmi run;
1.12 Lungefunktion og cystisk fibrose
Data benyttes i uge 6, multipel regression.
Studie af 25 patienter, hvor outcome er pemax
(et udtryk
for lungefunktion) og 9 kovariater: age
, sex
, height
, weight
, bmp
, fev1
, rv
, frc
og tlc
. Se evt. O’Neill et. al. (Am Rev Respir Dis, 1983).
Data (filer med navn pemax
) kan indlæses fra link med:
data pemax;'http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/pemax.txt' URL firstobs=2;
infile
input nr age sex height weight bmp fev1 rv frc tlc pemax; run;
1.13 Biokemisk iltforbrug (BOC)
Datafil med navn boc
, benyttes i uge 7 (den generelle lineære model).
Iltsvind i lukkede flasker (Biochemical Oxygen Consumption, BOC), som funktion af antal dage. Datasættet indeholder 24 målinger og to variable:
days
boc
, iltsvind (BOC)
data boc;"http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/boc.txt" URL firstobs=2;
infile
input days boc;
* Vi laver med det samme nogle variable til senere brug;
=days;
daysgrp=log(boc);
logboc=1/days;
invdays=invdays**2;
invdays2 run;
1.14 Serum IGF
Datafil med navn juul2
, benyttes i uge 7 (den generelle lineære model). Datasættet indeholder følgende variable målt på 1340 individer
age
alder i årheight
højde i cmmenarche
sexnr
køn (1=male, 2=female)sigf1
Serum IGF-1tanner
, Tanner’s pubertetsklassifikation (1–5)testvol
weight
vægt i kg
data juul;"http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/juul2.txt" URL firstobs=2;
infile
input age height menarche sexnr sigf1 tanner testvol weight;if sexnr=2 then sex="female";
if sexnr=1 then sex="male";
* kvadratrodstransformeret sigf1;
= sqrt(sigf1);
ssigf1 run;
1.15 RES-systemet i leveren
Datafil med navn kw
benyttes i uge 7, den generelle lineære model. Eksempel på ikke-lineær sammenhæng.
Indeholder to variable målt på 26 individer:
koncentration
, koncentration af radioaktiv tracertid
, tid for målingen afkoncentration
efter bolus injektion ved tid 0
data a1;"http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/kw.txt" URL firstobs=2;
infile
input tid koncentration; run;
1.16 Blodtryk og fedme
Datafil med navn bp
benyttes i uge 7, den generelle lineære model.
Datasættet indeholder 3 variable målt på 102 individer
sexnr
køn (1=male, 2=female)obese
fedmegrad, vægt/idealvægtbp
systolisk blodtryk
data bp;"http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/bp.txt"
infile =2;
URL firstobs
input sex obese bp;=log10(bp);
log10bp=log10(obese);
log10obese run;
1.17 Prostatakræft
Datafil med navn prostate
benyttes i uge 8, logistisk regression.
Datasættet indeholder 6 variable målt på 380 mænd med prostatakræft. Formålet med undersøgelsen er at bestemme hvordan risikoen for at tumor er trængt igennem prostatakapslen afhænger af forklarende variable og hvorvidt disse variable kan benyttes til at prædiktere gennemtrængning. Variablene er
gennemtraengning01
tumor har penetreret kapslen (0=nej, 1=ja)involvering
kapsel involvering ved rektal eksploration (0=ej involvering, 1=involvering)knude
knudes placering på lap (“ingen”,“venstre”,“hoejre”,“begge”)psa
Prostataspecifikt Antigen i Plasma (PSA, ng/ml)alder65
Under / over 65 år (“Under”/“Over”)gleason
Gleason score, 0-10.
data prostata;"http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/prostate.txt"
infile =2;
URL firstobs$ psa alder65 $ gleason;
input gennemtraengning01 involvering knude run;
Data er lånt fra Hosmer & Lemeshow: Applied Logistic Regression, 2nd ed.
1.18 Calcium tilskud
Datafil med navn calcium.txt
benyttes i uge 10 om korrelerede data.
Datasættet indeholder 4 variable observeret for 112 piger. Variablene er følgende:
girl
fortløbende identifikationsnummer for hver pigegrp
binær variabel der angiver om pigen får calciumtilskud (C) eller placebo (P)visit
besøg, nummereret 1-5years
antal år siden baseline for besøgetbmd
angiver “Bone Mineral Density”baseline
BMD målt ved baseline (=besøg 1)nmissing
totalt antal manglende værdier pr individ
data calcium;"http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/calcium.txt" URL firstobs=2;
infile $ visit years bmd baseline nmissing dropout;
input girl grp run;
1.19 Kaniner
Datafil med navn kanin.txt
benyttes i uge 10 om korrelerede data.
Datasættet indeholder observationer af hævelse efter vaccination af 6 kaniner, hvor hver kanin er vaccineret 6 gange. Datafilen er i såkaldt bredt format, dvs hver linje indholder information for en kanin.
Variable:
kanin
idnummerra
-f
indeholder målinger af hævelsen efter vaccination 1-6
data kanin; "http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/kanin.txt" URL firstobs=2;
infile
input kanin a b c d e f; run;
Hele datasættet:
kanin a b c d e f
1 1 7.9 6.1 7.5 6.9 6.7 7.3
2 2 8.7 8.2 8.1 8.5 9.9 8.3
3 3 7.4 7.7 6.0 6.8 7.3 7.3
4 4 7.4 7.1 6.4 7.7 6.4 5.8
5 5 7.1 8.1 6.2 8.5 6.4 6.4
6 6 8.2 5.9 7.5 8.5 7.3 7.7