はじめに:

この vignette には PROscorerパッケージで点数化する手順の説明が含まれています。

PROBLEM: 患者報告アウトカム（Patient Reported Outcome, PRO）指標やその他の PRO に類似した指標は、正式な研究プロトコル文書や、発表された研究結果の報告書では、しばしば不十分に記述されている。

CONSEQUENCES: プロトコルでは、提案された分析計画が適切であるかどうかを含めて、PRO測定値の研究成果としての適合性を評価することが困難または不可能になります。
同じ結果が発表された研究結果にも当てはまる。さらに、発表された研究におけるPROメジャーの記述が不十分であると、研究結果を解釈し、複製し、再現する能力が妨げられる。全体として、これはPROと同様の尺度に依存する研究の科学的進歩を妨げるものである。

SOLUTION: 研究計画書や論文にPRO指標を記述するための明確なガイドラインに沿って書かれた、特定のPRO機器の高品質な記述（すなわち、この vignette 文書）のリポジトリを作成する。

本文書は、QOL（Quality of Life）やその他の PRO（Patient-Reported Outcome）をエンドポイントとする研究のプロトコールや原稿作成の負担を軽減することを目的としています。

ここでは、正式な研究プロトコル文書にこの指標を結果指標として使用する目的で、詳しく解説いたします。また、そのような研究の結果を報告する研究論文原稿の「測定方法」節にも適しています（字数制限に合わせて編集する可能性もあります）。これらは、これらの目的を念頭に置いて書かれており、PRO 尺度を記述するための「ベストプラクティス」のいくつかの情報源（参考文献は近日公開）と、大規模ながんセンターのプロトコル審査委員長としての私の個人的な経験に基づいて私が作成した、以下の_「PRO尺度の記述に関するガイドライン」_に従っています。

本文書の使い方:

各指標の説明には、関連する参考文献が記載されています。ほとんどの場合、説明文をそのままコピー＆ペーストして、ごくわずかな修正を加えるだけでOKです。

以下のような修正が必要です。

参考文献を「参考文献」セクションに移動し、それに合わせて本文中の引用番号を更新する。
尺度のすべてのスコアが研究目的に合致しない場合、焦点となる尺度のスコアを示す一文を追加してください。

PROscorer パッケージとこの vignette の文書を引用してください（すぐに DOI を取得したいと思います）。

Baser, RE (2017). PROscorer: Scoring Functions for Patient-Reported Outcome (PRO) Measures and Other Psychometric Instruments. R Package Version 0.0.1. https://cran.r-project.org/package=PROscorer

Baser, RE (2017). Descriptions of Instruments Scored by PROscorer. R Package Vignette version 0.0.1. https://cran.r-project.org/package=PROscorer

PRO 測定解説のガイドライン

私は、大規模ながん治療・研究機関で生物統計学プロトコル審査委員会の委員長を長年務めた際に、以下のガイドラインを作成しました。 PROscorer パッケージにスコアリング機能を提供したいとお考えの方は、このガイドラインを参考にして機器の説明を書いてください。近いうちに、このガイドラインをより使いやすいチェックリストに更新する予定ですが、これで始められるでしょう。

Information to Include in Descriptions of PRO Measures:

指標の質問／項目の総数、回答形式（5点リッカート尺度、真／偽など）、各項目について回答者に検討を求める期間（「過去1週間で、どれくらいの頻度で…」など）を示す。
尺度から得られる下位尺度スコアの名称、各下位尺度が測定することを意図している特定の構成要素の説明、各下位尺度に含まれる項目数、各下位尺度で可能なスコアの範囲、高いスコアの解釈（例えば、高いスコアはより重度の症状レベルを示す／そうでないことを示す）、利用可能な場合には、各下位尺度スコアの信頼性係数（例えば、内部一貫性、テスト・リテスト）、および関連する場合には、尺度の合計スコアの信頼性係数（例えば、内部一貫性、テスト・リテスト）。
1. 機器のすべての尺度が研究目的の評価に関連しない場合は、どの尺度のスコアを利用するかを示してください。
2. 多くのPROMスコアには、臨床的または診断的に関連すると考えられる2つ以上の範囲のカテゴリーにスコアを分割する有効なカットポイントがある。プロトコルの PROM スコアが分類される場合は、各カテゴリーを定義するスコアのカットポイントまたは範囲、および各カテゴリーの臨床的解釈を示すこと。
PROM のスコアリング手順、またはスコアリング手順を含む出版物の引用と参照。
1. 利用可能であれば，採点指示書を含む出版物の引用と参照で十分である。多くの場合、採点方法は PROM の最初の心理測定検証の報告書に含まれている。
2. 新たに開発されたPROMの場合のように、採点手順が未発表の場合は、プロトコルに、場合によっては付録として含めなければならない。
3. また、PROscorer Rパッケージおよび本 vignertte 文書（前節参照）を引用すること。
試験参加者が各 PROM を完了するのにかかる時間の推定値、および全 PROM を完了するのにかかる時間の推定値。 PROMs の完全なバッテリーを完了するのにかかる時間の見積もり。

手順:

Female Sexual Function Index (FSFI)

FSFI（Female Sexual Function Index）は，女性の性機能に関する多面的な自己報告指標です[REF 1]。 FSFI は，女性の性機能を多面的に自己報告する指標で，19の項目について，「過去4週間」を基準に、リッカート尺度で評価してもらいます。 4つの項目は1～5で評価され、15項目は0～5で評価されます（0は「性交を試みなかった」という回答オプションに対応）。記入には約5～10分かかります。

FSFI は、FSFI トータルスコアに加えて、異なる性機能領域に対応する6つのサブスケールスコアを算出します。欲求（2項目）、喚起（4項目）、潤滑（4項目）、オルガスム（3項目）、満足（3項目）、痛み（3項目）です。 FSFI のスコアリングアルゴリズムは、各サブスケールの項目を合計し、各サブスケールの最大可能スコアが6になるように合計をスケーリングします。各下位尺度の最小可能スコアは0であるが、Desire と Satisfaction の最小可能スコアはそれぞれ1.2と0.8です。これは、この2つの下位尺度には、0～5ではなく1～5で評価される4つの項目が含まれているためです。 FSFIの総得点は、6つの下位尺度の得点の合計であり、範囲は2〜36である。スコアが高いほど、すべてのスコアにおいて機能が向上していることを示す。 FSFI の正確なスコアリングは、PROscorer Rパッケージの__fsfi()__関数[REF 2]を使用して行うことができます。

最初の FSFI 検証研究[REF 1]では、FSFIトータルスコア（クロンバックのα = 0.97）およびサブスケール（クロンバックのα範囲 = 0.89～0.96）の優れた内部一貫性信頼性が報告されました。 FSFIのトータルスコアが26.55以下であれば、女性の性機能障害を示唆する診断カットオフスコアとして検証されています[REF 3]。また、FSFI は、性的に活発な女性がんサバイバーの性機能を評価するためにも有効とされています[REF 4]。

参照文献:

Rosen, R, Brown, C, Heiman, J, Leiblum, S, Meston, C, Shabsigh, R, … D’Agostino, R. (2000). The Female Sexual Function Index (FSFI): a multidimensional self-report instrument for the assessment of female sexual function. Journal of Sex & Marital Therapy, 26(2), 191–208.
Baser, RE (2016). PROscorer: Scoring Functions for Patient-Reported Outcome (PRO) Measures and Other Psychometric Instruments. R Package Version 0.0.1.
Wiegel, M, Meston, C, & Rosen, R. (2005). The Female Sexual Function Index (FSFI): Cross-Validation and Development of Clinical Cutoff Scores. Journal of Sex & Marital Therapy, 31(1), 1–20.
Baser, RE, Li, Y, & Carter, J. (2012). Psychometric validation of the female sexual function index (FSFI) in cancer survivors. Cancer, 118(18), 4606–4618.

Cognitive Causation (CC) と Negative Affect in Risk (NAR)

Cognitive Causation (CC) と Negative Affect in Risk (NAR) の2つの尺度は、直感的ながんリスク認知の側面を測定する新しい尺度です[REF 1]。 CC 尺度は、回答者が、がんのリスクについて考えることは、がんの発症を促すことになり、そのような考えを最小限に抑えることは、実際にがんのリスクを減らすことになると考える程度を測定します。本来は10項目[REF 1]で構成されていますが、7項目[REF 2]のみで採点することが推奨されています。 NAR スケールには6項目が含まれており、負の予期感情、すなわちがんリスクの情報処理中に生じる負の感情（例：恐怖）を測定します。 CC と NAR の項目には、4つのリッカートタイプの回答選択肢があり、それぞれに数字のスコアが割り当てられています：「強く反対」＝0、「反対」＝1、「賛成」＝2、「強く賛成」＝3。各項目の回答には約2～5分かかります。

望ましいスコアリング方法は，まず項目スコアの平均値を算出し，その平均値を0から100の範囲に変換することである。スコアが高いほど、測定される構成要素のレベルが高いことを示します[REF 2]。スコアは、特定の尺度の項目の少なくとも半分を有効に記入した回答者にのみ割り当てるべきである。 CC および NAR 尺度は、PROscorer R パッケージの narcc() 関数を使用して正確にスコアリングすることができます。

両尺度とも、多様なサンプルにおいて一貫して高い信頼性を示しており、クロンバックのアルファ係数はすべて0. 89以上[REF 1]。また、多様なサンプルにおいて測定不変性が確認されています[REF 2]。

REFERENCES:

Hay, JL, Baser, R, Weinstein, ND, Li, Y, Primavera, L, & Kemeny, MM. (2014). Examining intuitive risk perceptions for cancer in diverse populations. Health, Risk & Society, 16(3), 227–242.
Baser, RE, Li, Y, Brennessel, D, Kemeny, MM, & Hay, JL. (2017). Measurement Invariance of Intuitive Cancer Risk Perceptions Across Diverse Populations: The Cognitive Causation and Negative Affect in Risk Scales. Journal of Health Psychology.
Baser, RE (2016). PROscorer: Scoring Functions for Patient-Reported Outcome (PRO) Measures and Other Psychometric Instruments. R Package Version 0.0.1.

EORTC QLQ-C30 (version 3.0)

European Organization for Research and Treatment of Cancer (EORTC) QLQ-C30 Quality of Life Questionnaire (version 3.0) は、がん患者のQOLを評価するためにデザインされた30項目の質問票です[REF 1]。 QLQ-C30 の30項目には、多項目のスケールスコアと単項目のスコアがあり、合計16種類のスコアがあります。これらには、1つの Global Health Status/QoL 尺度（2項目）、5つの機能尺度（身体機能：5項目、役割機能：2項目、情緒機能：4項目、認知機能：2項目、社会機能：2項目）、3つの症状尺度（疲労：3項目、悪心・嘔吐：2項目、疼痛：2項目）、6つの単項目の症状スコア（呼吸困難、不眠、食欲不振、便秘、下痢、経済的困難、すべて単項目）、および最近検証された総合サマリースコア（Global Health Status/QoLと経済的困難を除いた他のスコアから算出）[REF 2]。この質問票では、患者さんに「過去1週間」にそれぞれの問題をどの程度経験したかを、「全く経験していない」から「非常に経験している」までの4段階のリッカート尺度で回答していただきます。例外として、Global Health Status/QoLスケールの2項目については、「非常に悪い」から「素晴らしい」までの7段階で評価してもらっています。

QLQ-C30[REF 3]の採点方法は、すべての尺度と単項目のスコアを0から100の範囲に変換します。全般的な健康状態/QoL尺度の高得点は高いQoLを、機能尺度の高得点は高い/健康的なレベルの機能を、症状尺度/項目の高得点は高いレベルの症状/問題を表します。新しい総合スコアも0～100の範囲で、スコアが高いほど機能が良好で、症状のレベルが低いことを示しています。新しい総合サマリースコアを含むEORTC QLQ-C30（バージョン3.0）の正確なスコアリングは、PROscorer Rパッケージで qlq_c30() 関数を使用して行うことができます[REF 4]。 QLQ-C30 は広範に検証されており、臨床試験で広く使用されています。多項目の尺度は一般的に良好な内的整合性信頼性係数[REF 1]を有しています。

REFERENCES:

Aaronson NK, Ahmedzai S, Bergman B, Bullinger M, Cull A, Duez NJ, Filiberti A, Flechtner H, Fleishman SB, de Haes JCJM, Kaasa S, Klee MC, Osoba D, Razavi D, Rofe PB, Schraub S, Sneeuw KCA, Sullivan M, Takeda F (1993). The European Organisation for Research and Treatment of Cancer QLQ-C30: A quality-of-life instrument for use in international clinical trials in oncology. Journal of the National Cancer Institute, ; 85: 365-376.
Giesinger JM, Kieffer JM, Fayers PM, Groenvold M, Petersen MA, Scott NW, Sprangers MAG, Velikova G, Aaronson NK (2016). Replication and validation of higher order models demonstrated that a summary score for the EORTC QLQ-C30 is robust. Journal of Clinical Epidemiology 69:79–88.
Fayers PM, Aaronson NK, Bjordal K, Groenvold M, Curran D, Bottomley A, on behalf of the EORTC Quality of Life Group. The EORTC QLQ-C30 Scoring Manual (3rd Edition). Published by: European Organisation for Research and Treatment of Cancer, Brussels 2001.
Baser, RE (2016). PROscorer: Scoring Functions for Patient-Reported Outcome (PRO) Measures and Other Psychometric Instruments. R Package Version 0.0.1.

PROscorerによる点数化の手順

Ray Baser

2021-06-05

はじめに:

本文書の使い方:

PRO 測定解説のガイドライン

手順:

Female Sexual Function Index (FSFI)

参照文献:

Cognitive Causation (CC) と Negative Affect in Risk (NAR)

REFERENCES:

EORTC QLQ-C30 (version 3.0)

REFERENCES: