前書き

R とは、統計解析を主目的としたプログラミング言語です。 R の特徴としては、まずプログラミング言語としては、オープンソースとして開発されていること、誰もが拡張を行えること、プログラミング言語としては統計解析に特化した記述があることが挙げられます。 統計解析環境としての特徴は、基本的にコマンドベースであることが初学者にとって大きな障壁となっています。一方、常に最新の統計手法が使用できることは最大の利点です。これは、R がオープンソースであることから、統計学の専門家らが新たな統計手法を開発した際に、R で実装していることが挙げられます。 医療における統計解析を例にとると、ランダム化比較試験で必要な反復測定の二元配置分散分析や混合モデルの二元配置分散分析は、商用ソフトウェアでは基本機能に含まれておらず、追加パッケージを購入する必要があることがおります。 R の場合は、これらの最新解析方法が無料で得られます。

RStudio とは、R を使用する際の統合環境です。 R と RStudio は、開発者は異なります。 また、RStudio をウェブブラウザー上で実行する RStudio.cloud というサービスがあります。 こちらは、 R と RStudio をインストールすることなく使うことができるだけではなく、 初学者がつまづく様々な設定を、あらかじめ設定したうえで提供できるため、学習環境として最適です。

医療従事者(ここでは医師、看護師、理学療法士、作業療法士、言語聴覚士、臨床心理士、臨床検査技師、介護福祉士など)は、統計については苦手意識を持っており、プログラミングは未経験なことケースが多いと思われます。一方で、医療におけるエビデンスを判断するには、統計が避けられないことを熟知しています。

本書は、医療従事者を対象として、RStudio.cloud を利用し、統計解析の基礎から応用を学ぶ場を提供します。 類似書と比較し、本書の特徴は、以下を目指しています。

  • 研究デザインごとのデータの作成、解析、図の作成が一連の流れになっている。
  • できる限り、実際に論文で使用されているデータを使用している。
  • 比較的エラーが発生しにくい方法を採用している。
  • 変数名などは命名方法を統一することで、コードを読みやすくしている。
  • 可能であれば、複数のライブラリを試している。

一方で、以下のことは行いません。

  • コードが読みにくくなる処理
  • 処理速度を早くするライブラリの使用
  • メモリなどを過度に使う機能、とくに機械学習
  • パイプ記法 (magrittr を使用する記法、4.1 で実装された記法)

本書のタイトルにあるもう一つのキーワードは、オープンアクセス論文です。 通常、論文は有料で販売されている学術ジャーナルに掲載されています。 オープンアクセス論文とは、オンラインで無料かつ自由に配布されている論文です。 ここ数年は、論文だけでなく論文中に使われたデータを提供しているものも増えてきました。 オープンアクセスとはいえ、査読はしっかりされているものを厳選してきました。 本書は、こういった最先端の研究の統計解析を、その論文のデータを使って再現する試みです。

実際の論文データをもとに、RStudio で統計解析を行うことで、RStudio と論文の読解・作成のスキルを同時に挙げることを目的としています。