The China Study lagi: Sebuah analisis multivariat menunjukkan bahwa aturan schistosomiasis!

Di bagian komentar dari Denise Mingers posting pada 16 Juli 2010, yang membahas beberapa data dari China Study (sebagai tindak lanjut posting sebelumnya pada topik yang sama), Denise sendiri diposting data dia digunakan dalam nya analisa. Data ini adalah dari China Study. Jadi saya memutuskan untuk mengambil melihat data dan melakukan beberapa dari multivariat dengan menggunakan WarpPLS (warppls.com).

Pertama saya membangun sebuah model yang mengeksplorasi hubungan dengan tujuan menguji asumsi bahwa konsumsi protein hewani menyebabkan kanker kolorektal, melalui efek menengah pada kolesterol total. Saya membangun model dengan ilmu pelet jarak jauh berbagai asosiasi hipotesis untuk mengeksplorasi beberapa hubungan secara bersamaan, termasuk beberapa yang akal sehat. Termasuk hubungan akal sehat biasanya ide yang baik dalam analisis multivariat eksplorasi.

Model ini ditunjukkan pada grafik di bawah ini, dengan hasil. (Klik untuk memperbesar Gunakan "CRTL" dan "+" tombol untuk memperbesar, dan CRTL "dan" -. "Untuk memperkecil.) Panah mengeksplorasi hubungan kausatif antara variabel Variabel ditunjukkan dalam oval Artinya.. masing-masing variabel adalah sebagai berikut: konsumsi protein aprotein = hewan; pprotein = tanaman konsumsi protein; cholest = kolesterol total; crcancer = kanker kolorektal.



Koefisien jalur (diindikasikan sebagai koefisien beta) mencerminkan kekuatan hubungan; mereka adalah sedikit seperti univariat standar (atau Pearson) koefisien korelasi, kecuali bahwa mereka mempertimbangkan hubungan multivariat pertimbangan (yang mereka kontrol untuk efek bersaing pada setiap variabel). Sebuah beta negatif berarti bahwa hubungan negatif; yaitu, peningkatan variabel dikaitkan dengan penurunan variabel yang menunjuk ke.

Nilai P menunjukkan signifikansi statistik hubungan; P lebih rendah dari 0,05 berarti hubungan yang signifikan (95 persen atau lebih tinggi kemungkinan bahwa hubungan itu nyata). Nilai R-squared mencerminkan persentase perbedaan dijelaskan untuk variabel tertentu; lebih tinggi mereka, semakin baik model fit dengan data. Abaikan (R) 1i bawah nama variabel; itu hanya berarti bahwa setiap variabel diukur melalui indikator tunggal (atau ukuran tunggal, yaitu, variabel tidak variabel laten).

Saya harus mencatat bahwa nilai P telah dihitung dengan menggunakan teknik nonparametrik, bentuk resampling disebut jackknifing, yang tidak memerlukan asumsi bahwa data yang terdistribusi normal yang harus dipenuhi. Ini bagus, karena saya memeriksa data, dan itu tidak terlihat seperti itu biasanya didistribusikan. Jadi, apa model di atas memberitahu kita? Ini memberitahu kita bahwa:

- Sebagai konsumsi protein hewani meningkat, penurunan kanker kolorektal, tetapi tidak dengan cara yang signifikan secara statistik (beta = -0,13; P = 0,11).

- Sebagai konsumsi protein hewani meningkat, penurunan konsumsi protein nabati secara signifikan (beta = -0,19; P <0,01). Hal ini untuk diharapkan.

- Sebagai konsumsi meningkat protein tanaman, meningkat kanker kolorektal secara signifikan (beta = 0,30; P = 0,03). Hal ini signifikan secara statistik karena P lebih rendah dari 0,05.

- Sebagai konsumsi protein hewani meningkat, total meningkat kolesterol secara signifikan (beta = 0,20; P <0,01). Tidak ada kejutan di sini. Dan, dengan cara, kadar kolesterol total dalam penelitian ini cukup rendah; peningkatan secara keseluruhan dalam mereka mungkin akan menjadi sehat.

- Sebagai konsumsi meningkat protein tanaman, kolesterol total menurun secara signifikan (beta = -0,23; P = 0,02). Tidak mengherankan di sini baik, karena konsumsi protein nabati berhubungan negatif dengan konsumsi protein hewani; dan yang terakhir cenderung meningkat kolesterol total.

- Sebagai total meningkat kolesterol, meningkatkan kanker kolorektal secara signifikan (beta = 0,45; P <0,01). Kejutan besar di sini!

Mengapa kejutan besar dengan hubungan yang tampaknya kuat antara kolesterol total dan kanker kolorektal? Alasannya adalah bahwa hal itu tidak masuk akal, karena konsumsi protein hewani tampaknya meningkatkan kolesterol total (yang kita kenal biasanya tidak), namun konsumsi protein hewani tampaknya menurunkan kanker kolorektal.

Ketika sesuatu seperti ini terjadi dalam analisis multivariat, biasanya adalah karena model tidak memasukkan variabel yang memiliki hubungan penting dengan variabel lain. Dengan kata lain, model ini tidak lengkap, maka hasil tidak masuk akal. Seperti yang saya katakan sebelumnya di posting sebelumnya, hubungan antara variabel yang tersirat oleh koefisien asosiasi juga harus masuk akal.

Sekarang, Denise menunjukkan bahwa variabel hilang di sini mungkin adalah infeksi schistosomiasis. Dataset bahwa ia disediakan termasuk yang variabel, meskipun ada beberapa nilai yang hilang (sekitar 28 persen dari data untuk variabel yang hilang), jadi saya menambahkan ke model dengan cara yang tampaknya masuk akal. Model baru ini ditampilkan pada grafik di bawah ini. Dalam model, schisto = infeksi schistosomiasis.



Jadi, apa ini baru, dan lebih lengkap, model yang memberitahu kita? Ini memberitahu kita beberapa hal yang model sebelumnya mengatakan kepada kami, tapi beberapa hal baru, yang membuat lebih banyak rasa. Perhatikan bahwa model ini sesuai dengan data yang jauh lebih baik dari sebelumnya, khususnya mengenai efek keseluruhan pada kanker kolorektal, yang ditunjukkan oleh nilai R-squared tinggi untuk variabel yang (R-squared = 0,73). Terutama, model baru ini memberitahu kita bahwa:

- Seiring dengan peningkatan infeksi schistosomiasis, meningkat kanker kolorektal secara signifikan (beta = 0,83; P <0,01). Ini adalah hubungan yang lebih kuat dari yang sebelumnya antara kolesterol total dan kanker kolorektal; meskipun beberapa data pada infeksi schistosomiasis selama beberapa kabupaten hilang (hubungan mungkin lebih kuat dengan dataset lengkap). Dan hubungan ini kuat masuk akal, karena infeksi schistosomiasis memang dikaitkan dengan tingkat kanker meningkat. Informasi lebih lanjut tentang infeksi schistosomiasis dapat ditemukan di sini.

- Infeksi Schistosomiasis tidak memiliki hubungan yang signifikan dengan variabel-variabel ini: konsumsi protein hewani, konsumsi protein tanaman, atau kolesterol total. Ini masuk akal, karena infeksi disebabkan oleh cacing yang tidak biasanya hadir dalam tumbuhan atau hewan makanan, dan infeksi itu sendiri tidak secara khusus terkait dengan kelainan yang akan membawa kita untuk mengharapkan kenaikan besar dalam kolesterol total.

- Konsumsi Protein hewani tidak memiliki hubungan yang signifikan dengan kanker kolorektal. Beta di sini sangat rendah, dan negatif (beta = -0,03).

- Konsumsi protein Tanaman tidak memiliki hubungan yang signifikan dengan kanker kolorektal. Beta untuk asosiasi ini positif dan trivial (beta = 0,15), tetapi nilai P terlalu tinggi (P = 0,20) bagi kita untuk membuang kesempatan dalam konteks dataset ini. Sebuah dataset lebih bertarget, dengan data pada makanan nabati tertentu (misalnya, makanan berbasis gandum), dapat menghasilkan hasil yang berbeda mungkin asosiasi yang lebih signifikan, mungkin kurang signifikan.

Berikut adalah plot yang menunjukkan hubungan antara infeksi schistosomiasis dan kanker kolorektal. Nilai-nilai yang standar, yang berarti bahwa nol pada sumbu horisontal adalah rata-rata angka infeksi schistosomiasis dalam dataset. Bentuk plot adalah sama satu dengan data unstandardized. Seperti yang Anda lihat, titik data yang sangat dekat dengan garis, yang menunjukkan hubungan linier yang sangat kuat.



Jadi, dalam ringkasan, analisis multivariat ini membenarkan hampir semua yang mengatakan Denise dalam dirinya 16 Juli 2010 posting. Ia bahkan mendukung Denise peringatan tentang melompat ke kesimpulan terlalu dini mengenai kemungkinan hubungan antara konsumsi gandum dan kanker kolorektal (sebelumnya disorot oleh analisis univariat). Bukan berarti mereka kesimpulan yang salah; mereka mungkin benar.

Analisis multivariat ini juga mendukung Dr. Campbell pernyataan tentang kualitas data China Study. Data yang saya menganalisis sudah dikelompokkan berdasarkan daerah, sehingga ukuran sampel (65 kasus) tidak begitu tinggi untuk meragukan nilai-nilai P. (Karena itu, sampel kecil membuat masalah mereka sendiri, seperti kekuatan statistik yang rendah dan peningkatan kemungkinan kesalahan yang disebabkan Bias.) Hasilnya dirangkum dalam posting ini juga masuk akal mengingat penelitian empiris masa lalu.

Ini adalah data yang sangat baik; Data yang perlu dianalisis dengan baik!

Dapatkan Sample GRATIS Produk sponsor di bawah ini, KLIK dan lihat caranya