1 Datasæt

Alle datasæt er tilgængelige som tekstfil (.csv eller .txt) og SAS-fil (.sas7bdat) fra http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/.

I e-bogen her angiver jeg hvordan du kan indlæse filen fra URL - hvis det ikke virker (RegionH…), er du nødt til at downloade filerne først til din computer og derefter uploade dem til din server. Se SAS-intro om at indlæse data.

1.1 Vitamin D

Data er beskrevet i detaljer i Andersen et al. (2005) ‘Teenage girls and elderly women living in northern Europe have low winter vitamin D status’, European Journal of Clinical Nutrition.

Variable:

  • country (1=DK, 2=FI, 4=EI, 6=PO)
  • vitd (nmol/L, serum Vitamin D level)
  • age (years)
  • bmi \(({\rm kilo/m}^2)\)
  • sunexp (1=Avoid sun, 2=Sometimes in sun, 3=Prefer sun)
  • vitdintake (Vitamin D intake, the amount of vitamin D contained in the consumed food).

Data ligger i filerne med navn vit.csv og vit.sas7bdat).

data vit;
    infile "http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/vitamin.csv"
    URL firstobs=2 delimiter=",";
    input country vitd age bmi sunexp vitdintake;
run;

Koderne er svære at huske, men her kan vi lægge formater på ved først at definere sol- og landeformater (som vi giver navnene sunf og countryf), og specificerer hvilke labels vi vil have på hvilke værdier (OBS: labels skal i citationstegn)

proc format;
    value sunf
        1 = "Avoid sun"
        2 = "Sometimes in sun"
        3 = "Prefer sun";
    value countryf
        1 = "DK"
        2 = "SF"
        4 = "EI"
        6 = "PL";
run;

Derefter kan vi lægge disse labels på vores variable

data vit;
    set vit;
    format sunexp sunf.;
    format country countryf.;
run;    

Vi arbejder i dele af slides kun med de irske kvinder og definerer derfor et datasæt bestående kun af de irske kvinder. Bemærk at vi er nødt til at referere til selve værdien (country kode 4) og ikke den label vi har lagt på (EI):

data vitEI;
  set vit;
  if country=4;
run;

1.2 Immunoglobulin

Her er kun én variabel med navn img. Data ligger i filen imm (.csv og sas7bdat)

data imm;
    infile "http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/imm.csv"
    URL firstobs=2 delimiter=",";
    input img;
run;

1.3 Længdespring

Længespring mænd, kvalifikation OL 2012, bedste spring af 3. Vi skal kun bruge variablen distance, som angiver længden. Find data i filen longjump (.csv eller .sas7bdat).

data l;
    infile "http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/longjump.csv"
    URL firstobs=2 delimiter=",";
    input rank name $ country $ distance;
run;

Bemærk at der er $ efter tekstvariable.

1.4 Slagvolumen, parrede observationer

Data (fil med navn mf_sv (.txt eller .sas7bdat)) indeholder slagvolumen bestemt ved to forskellige metoder på hver patient:

  • mf: Doppler ekkokardiografi
  • sv: Cross-sectional ekkokardiografi
data ms;
    infile "http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/mf_sv.txt"
    URL firstobs=2 delimiter=" ";
    input mf sv;
run;

Skal også benyttes i såkaldt langt format i forbindelse med spaghettiplots (hvor mf og sv-målingerne er stablet ovenpå hinanden i en variabel med navn vol og vi har tilføjet en metode-variabel, som angiver om målingen er taget med mf eller sv). Data i langt format indlæses fra datafilen mf_sv_lang.csv:

data lang;
    infile "http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/mf_sv_lang.csv"
    URL firstobs=2 delimiter=",";
    input vol metode $ id;
run;

1.5 Vietnam veteraner

Data er beskrevet i detaljer i Carroll et al.: Low cognitive ability in early adulthood is associated with reduced lung function in middle age: the Vietnam Experience Study, Thorax (2011)

Vi har et tilfældigt udsnit af data på 87 af de 4526 veteraner, som var en del US army mellem 1965 og 1971.

Variable:

  • smoke01: 0 = Ikke- eller ex-ryger, 1 = Ryger.
  • iq: IQ målt ved start ansættelse
  • FEV1: (L, Forced Expiratory Volume in one second) målt i 1986

Data ligger i filer med navn viet, og kan indlæses fra URL med:

data viet;
    infile 'http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/viet.txt' 
        URL firstobs=2;
    input smoke01 iq FEV1;
run;

1.6 VCF og blodsukker

Data (fil med navn vcf (.txt eller .sas7bdat)) indeholder to variable målt på 23 diabetikere:

  • blodsukker
  • vcf sammentrækningsevne for venstre hjertekammer (velocity of circumferential shortening)
data vcf;
    infile "http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/vcf.txt" 
        URL firstobs=2 ;
    input blodsukker vcf;
run;

1.7 Refe og test

To forskellige metoder til bestemmelse af glucosekoncentration. Ref: R.G. Miller et.al. (eds): Biostatistics Casebook. Wiley, 1980.

Data (fil med navn refe_test (.txt eller .sav)) indeholder to variable målt på 46 individer

  • refe, farvetest der kan ’forurenes’ af urinsyre
  • test, enzymatisk test, mere specifikt for glucose.
data rt;
    infile "http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/refe_test.txt"
        URL firstobs=2 ;
    input refe test;
run;

1.8 Lille SundBy

Data med navn sundby_lille (.txt eller .sav). er et subdatasæt på 100 tilfældige individer fra SundBy-materialet. Her er tre variable

  • gender kodet “male” og “female”
  • vaegt i kg
  • hoejde i meter
data sundby_udvalgt;
    infile "http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/sundby_lille.txt" URL firstobs=2;
    input gender $ vaegt hoejde;
    log10vaegt=log10(vaegt);
    log10hoejde=log10(hoejde);
    bmi=vaegt/hoejde**2;
run;

1.9 AMH og P-piller

Data (fil med navn ppills, .txt eller .sas7bdat) indeholder to variable målt på 732 danske kvinder:

  • amh
  • ppiller, P-pille bruger 0/1 (nej/ja)
data pp;
    infile 'http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/ppills.txt' URL firstobs=2;
    input idnr alder amh ppiller bmi $ rygning;
    logamh=log10(amh);
run;

1.10 Fødselsvægt (Secher)

Data benyttes i uge 6, multipel regression.

107 gravide kvinder blev ultralydsscannet få dage inden fødsel og barnets vægt blev målt ved fødsel. Data indholder følgende variable:

  • bdp hoveddiameter
  • ad maveomfang
  • vgt barnets vægt ved fødsel
  • nr idnr

Data (filer med navn secher) kan indlæses direkte fra link med

data secher;
    infile 'http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/secher.txt' URL firstobs=2;
    input vaegt bpd ad nr;
run;

1.11 Fedme

Data benyttes i uge 6, multipel regression. Datasættet (filer med navn fedme) indeholder følgende målinger på 197 børn:

  • vaegt vægt i 1-års alder
  • hoejde højdde i 1-års alder
  • fedme i skolealderen - skal normeres således at vi regner på fedmescore=fedme/0.2859382 (0.2859382 er SD af fedme-variablen)

Data kan indlæses fra link med følgende kode (hvor der samtidigt defineres et par nye variable):

data fedme;
    infile 'http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/fedme.txt' URL firstobs=2;
    input fedme vaegt hoejde ;
    fedmescore=fedme/0.2859382;
    bmi = vaegt / hoejde**2;
    log2bmi=log2(bmi);
run;

1.12 Lungefunktion og cystisk fibrose

Data benyttes i uge 6, multipel regression.

Studie af 25 patienter, hvor outcome er pemax (et udtryk for lungefunktion) og 9 kovariater: age, sex, height, weight, bmp, fev1, rv, frc og tlc. Se evt. O’Neill et. al. (Am Rev Respir Dis, 1983).

Data (filer med navn pemax) kan indlæses fra link med:

data pemax;
    infile 'http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/pemax.txt' URL firstobs=2;
    input nr age sex height weight bmp fev1 rv frc tlc pemax;
run;

1.13 Biokemisk iltforbrug (BOC)

Datafil med navn boc, benyttes i uge 7 (den generelle lineære model).

Iltsvind i lukkede flasker (Biochemical Oxygen Consumption, BOC), som funktion af antal dage. Datasættet indeholder 24 målinger og to variable:

  • days
  • boc, iltsvind (BOC)
data boc;
    infile "http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/boc.txt" URL firstobs=2;
    input days boc;

    * Vi laver med det samme nogle variable til senere brug;
    daysgrp=days;
    logboc=log(boc);
    invdays=1/days;
    invdays2=invdays**2;
run;

1.14 Serum IGF

Datafil med navn juul2, benyttes i uge 7 (den generelle lineære model). Datasættet indeholder følgende variable målt på 1340 individer

  • age alder i år
  • height højde i cm
  • menarche
  • sexnr køn (1=male, 2=female)
  • sigf1 Serum IGF-1
  • tanner, Tanner’s pubertetsklassifikation (1–5)
  • testvol
  • weight vægt i kg
data juul;
    infile "http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/juul2.txt" URL firstobs=2;
    input age height menarche sexnr sigf1 tanner testvol weight;
    if sexnr=2 then sex="female";
    if sexnr=1 then sex="male";
  * kvadratrodstransformeret sigf1;
  ssigf1 = sqrt(sigf1);
run;

1.15 RES-systemet i leveren

Datafil med navn kw benyttes i uge 7, den generelle lineære model. Eksempel på ikke-lineær sammenhæng.

Indeholder to variable målt på 26 individer:

  • koncentration, koncentration af radioaktiv tracer
  • tid, tid for målingen af koncentration efter bolus injektion ved tid 0
data a1;
    infile "http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/kw.txt" URL firstobs=2;
    input tid koncentration;
run;

1.16 Blodtryk og fedme

Datafil med navn bp benyttes i uge 7, den generelle lineære model.

Datasættet indeholder 3 variable målt på 102 individer

  • sexnr køn (1=male, 2=female)
  • obese fedmegrad, vægt/idealvægt
  • bp systolisk blodtryk
data bp;
    infile "http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/bp.txt"
        URL firstobs=2;
    input sex obese bp;
    log10bp=log10(bp);
    log10obese=log10(obese);
run;

1.17 Prostatakræft

Datafil med navn prostate benyttes i uge 8, logistisk regression.

Datasættet indeholder 6 variable målt på 380 mænd med prostatakræft. Formålet med undersøgelsen er at bestemme hvordan risikoen for at tumor er trængt igennem prostatakapslen afhænger af forklarende variable og hvorvidt disse variable kan benyttes til at prædiktere gennemtrængning. Variablene er

  • gennemtraengning01 tumor har penetreret kapslen (0=nej, 1=ja)
  • involvering kapsel involvering ved rektal eksploration (0=ej involvering, 1=involvering)
  • knude knudes placering på lap (“ingen”,“venstre”,“hoejre”,“begge”)
  • psa Prostataspecifikt Antigen i Plasma (PSA, ng/ml)
  • alder65 Under / over 65 år (“Under”/“Over”)
  • gleason Gleason score, 0-10.
data prostata;
    infile "http://staff.pubhealth.ku.dk/~sr/BasicStatistics/datasets/prostate.txt"
        URL firstobs=2;
    input gennemtraengning01 involvering knude $ psa alder65 $ gleason;
run;    

Data er lånt fra Hosmer & Lemeshow: Applied Logistic Regression, 2nd ed.

1.18 Calcium tilskud

Datafil med navn calcium.txt benyttes i uge 10 om korrelerede data.

Datasættet indeholder 4 variable observeret for 112 piger. Variablene er følgende:

  • girl fortløbende identifikationsnummer for hver pige
  • grp binær variabel der angiver om pigen får calciumtilskud (C) eller placebo (P)
  • visit besøg, nummereret 1-5
  • years antal år siden baseline for besøget
  • bmd angiver “Bone Mineral Density”
  • baseline BMD målt ved baseline (=besøg 1)
  • nmissing totalt antal manglende værdier pr individ
data calcium;
    infile "http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/calcium.txt" URL firstobs=2;
    input girl grp $ visit years bmd baseline nmissing dropout;
run;

1.19 Kaniner

Datafil med navn kanin.txt benyttes i uge 10 om korrelerede data.

Datasættet indeholder observationer af hævelse efter vaccination af 6 kaniner, hvor hver kanin er vaccineret 6 gange. Datafilen er i såkaldt bredt format, dvs hver linje indholder information for en kanin.

Variable:

  • kanin idnummerr
  • a-f indeholder målinger af hævelsen efter vaccination 1-6
data kanin; 
    infile "http://publicifsv.sund.ku.dk/~sr/BasicStatistics/datasets/kanin.txt" URL firstobs=2; 
    input kanin a b c d e f; 
run;

Hele datasættet:

  kanin   a   b   c   d   e   f
1     1 7.9 6.1 7.5 6.9 6.7 7.3
2     2 8.7 8.2 8.1 8.5 9.9 8.3
3     3 7.4 7.7 6.0 6.8 7.3 7.3
4     4 7.4 7.1 6.4 7.7 6.4 5.8
5     5 7.1 8.1 6.2 8.5 6.4 6.4
6     6 8.2 5.9 7.5 8.5 7.3 7.7