forked from babayoshihiko/logisticreg
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path03-predictables.Rmd
59 lines (33 loc) · 6.19 KB
/
03-predictables.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
# 説明変数 {#predictables}
ロジスティック回帰においては、式の右辺側にある変数を、共変量 (covariate)、説明変数 (predictable variable)、独立変数 (independent variable) などと言います。
それぞれ、少しづつ意味が違うのですが、その違いは分かりづらいです。
## 尺度 {#scale}
統計学においては、変数の型は以下の4つの尺度に分類することが通常です。\index{しゃくど@尺度}
* 名義尺度: 数値化されていない変数。例: 性別、都道府県
* 順序尺度: 順序関係はあるが、数値化されていない変数。例:「頑健、プレフレイル、フレイル」、要介護度
* 間隔尺度: 計測可能な変数ではあるが、0 の扱いが難しい。例:バーセル指数、MMSE
* 比例尺度: 0からはじまる計測可能な変数。例:身長、年齢
名義尺度は順序尺度は、平均値などの計算はできません。介護などで「施設利用者の要介護度の平均」など便宜上計算されることはありますが、統計的な意味はありません。
ロジスティック回帰の場合、このうち名義尺度と比例尺度を主に用いることになります。
比例尺度であっても、名義尺度のように使うこともできます。例えば、年齢を「65歳以上と65歳未満」の2値変数に分けることは、よくある方法です。
## 統計的に説明変数を選択
説明変数は、理論的に求められる方が望ましいとされています。
しかし、探索的な研究などでは、まだどの変数が説明変数になりうるか、予想がつかないことがあります。その際は、今ある変数から統計的に変数を見つける方法があります。
### ステップワイズを使用している論文
@wang2020association は、嚥下障害のリスク因子をロジスティック回帰で調査しました。この中で、説明変数が相関していることを発見しました。フレイルは、バーセル指数と年齢に相関関係があるため、フレイルを残し、バーセル指数と年齢は独立因子としては採用していません。これを説明している文章は以下の通りです。
:::: {.blackbox data-latex=""}
The results of Spearman's correlation coefficient showed that there was a significant correlation between frailty and the Barthel Index (r = 0.592, $P$ < 0.0001), and frailty increases with age. Therefore, the Barthel Index and age were not used as independent variates in the subsequent multivariable stepwise regression analyses, and the results indicated pre-frail odds ratio and frail phenotype, history of choking/coughing while drinking were associated with dysphagia with statistical significances (Table 3).
::::
個々の表現は若干疑問が 2 点残ります。まず、フレイルは「頑健、プレフレイル、フレイル」の3値変数(順序尺度)でバーセル指数は 0 ~ 100 点(間隔尺度?)ですが、どうやら比例尺度として扱って相関係数を求めています^[さらに付け加えるなら、相関係数の値がどの程度なら削除するかの基準が明示されていません。]。もう 1 点は、そもそもですがフレイルは加齢と相関があるのは想定しているはずなので、解析前から検討すべきであるという点です。
このような疑問点は残りますが、ロジスティック回帰の変数の選択の仕方としては参考になります。
### R によるステップワイズ {#stepwise-r}
R では、基本機能として `StepAIC()` 関数があります。また、stepwiseLogit パッケージの `StepReg()` では、選択基準として AIC のほか、AICc, SBC, IC(1), IC(3/2), HQ, HQc and Significant Levels(SL) を選ぶことができます。
## 理論的に変数を選択
### 理論的に選択している研究
@kwak2018prediction は、血液検査からサルコペニアを予測する手法を研究している論文です。
血液中には、さまざまな物質があります。これを測定して、筋肉の減少であるサルコペニアの予測をしようというものです。ただし、血中濃度は、何でもかんでも測定できるわけではありません。先行研究から、20種類の物質を、可能性のある物質として抽出しています。
以下が、論文中で先行研究から物質を特定している箇所です。実に11もの論文を引用し、20種類の物質を候補として挙げて、この後にロジスティック回帰を行っていきました。
:::: {.blackbox data-latex=""}
To identify effective molecular biomarkers for diagnosis of sarcopenia, candidates were selected by searching the relevant literature and subjected to immunochemical analyses using elderly people sera of normal and sarcopenia group that was clinically manifested based on AWGS. We examined 21 biomarker candidates, including proteins related to skeletal muscle function or metabolism and muscle-derived cytokines (myokines), angiotensin-converting enzyme (ACE)$^{19}$, insulin-like growth factor 1 (IGF-1)$^{20}$, procollagen type III N-terminal peptide (P3NP)$^{21}$}, fibroblast growth factor $^{21}$ (FGF21)$^{22}$, myostatin$^{23}$, growth differentiation factor 11 (GDF11)$^{24}$, meteorin-like (METRNL)$^{25}$, macrophage migration inhibitory factor (MIF)$^{26}$, fatty acid binding protein 3 (FABP3)$^{27}$, ciliary neurotrophic factor (CNTF)$^{28}$, secreted protein acidic and rich in cysteine (SPARC)$^{29}$, brain-derived neurotrophic factor (BDNF), tumor necrosis factor-α (TNF-α), interleukin 6 (IL-6), interleukin 8 (IL-8), interleukin 10 (IL-10), interleukin 15 (IL-15), interleukin 1β (IL-1β), monocyte chemotactic Protein 1 (MCP-1), transforming growth factor β 1 (TGFβ1), and vascular endothelial growth factor (VEGF)$^{30}$.
::::
なお、この論文では、この後ロジスティック回帰を使ってリスクスコアの計算式を作っています。\index{りすくすこあ@リスクスコア}リスクスコアについては、他の例を使って Chapter \@ref(propensityscore) で解説します。