Monday, November 16, 2015

Penyebab kuat bisa ada tanpa korelasi: Kasus aneh dari rantai perokok, dan catatan tentang diet

Para peneliti ingin mempelajari sampel data dan mencari hubungan antara variabel. Seringkali asosiasi yang direpresentasikan dalam bentuk koefisien korelasi, yang pergi dari -1 ke 1. ukuran lain yang populer dari asosiasi adalah koefisien jalur, yang biasanya memiliki jangkauan sempit variasi. Apa yang banyak peneliti tampaknya lupa adalah bahwa asosiasi mereka menemukan sangat tergantung pada sampel yang mereka cari di, dan pada rentang variasi dari variabel yang dianalisis.

Peringatan lupa: Penyebab tanpa korelasi

Seringkali mereka yang melakukan analisis statistik multivariat pada data tidak menyadari keterbatasan tertentu. Banyak kali ini karena kurangnya keakraban dengan uji statistik. Satu peringatan kita melihat banyak meskipun adalah: Korelasi tidak berarti sebab-akibat. Hal ini, tentu saja, benar-benar benar. Jika Anda mengambil berat badan saya dari 1 sampai 20 tahun, dan harga bensin di AS selama periode itu, Anda akan menemukan bahwa mereka sangat berkorelasi. Tapi akal sehat memberitahu saya bahwa tidak ada sebab-akibat apapun antara kedua variabel.

Jadi korelasi tidak berarti sebab-akibat baik-baik saja, tapi ada peringatan lain yang jarang terlihat: Ada dapat sebab-akibat yang kuat tanpa korelasi. Tentu saja hal ini dapat menyebabkan bahkan kesimpulan lebih aneh dari korelasi tidak berarti masalah sebab-akibat. Jika ada sebab-akibat yang kuat antara variabel B dan Y, dan tidak menunjukkan sebagai korelasi, variabel lain A dapat melompat dan mencuri korelasi yang tidak terpakai; boleh dikatakan.

Studi rantai perokok

Untuk menggambarkan hal ini, mari kita mempertimbangkan kasus fiktif berikut, sebuah studi dari 100 kota. Studi ini berfokus pada efek dari merokok dan gen pada kematian kanker paru-paru. Merokok secara signifikan meningkatkan kemungkinan kematian akibat kanker paru-paru; itu adalah faktor penyebab yang sangat kuat. Berikut adalah beberapa rincian lebih lanjut. Antara 35 dan 40 persen dari populasi adalah rantai perokok. Dan ada genotipe (satu set gen), ditemukan dalam persentase kecil dari populasi (sekitar 7 persen), yang merupakan perlindungan terhadap kanker paru-paru. Semua orang-orang yang rantai perokok meninggal akibat kanker paru-paru kecuali mereka mati dari penyebab lain (misalnya, kecelakaan). Meninggal akibat penyebab lain adalah jauh lebih umum di antara orang-orang yang memiliki genotipe pelindung.

(Ini saya buat data yang fiktif dengan asosiasi ini dalam pikiran, menggunakan persamaan. Saya juga menambahkan error tidak berkorelasi ke dalam persamaan, untuk membuat data terlihat sedikit lebih realistis. Misalnya, kematian acak terjadi pada awal kehidupan akan mengurangi sedikit pun hubungan numerik antara rantai merokok dan kanker kematian dalam sampel 100 kota.)

Tabel di bawah menunjukkan bagian dari data, dan memberikan gambaran tentang distribusi persentase perokok (perokok), persentase dengan genotipe pelindung (Pgenotype), dan persentase kematian akibat kanker paru-paru (MLCancer). (Klik untuk memperbesar Gunakan "CRTL" dan "+" tombol untuk memperbesar, dan CRTL "dan" -. "Untuk memperkecil.) Setiap baris sesuai dengan kota Sisa data, hingga baris 100. , memiliki distribusi yang sama.



Grafik di bawah ini menunjukkan distribusi kematian akibat kanker paru-paru terhadap: (a) persentase perokok, di atas; dan (b) persentase dengan genotipe pelindung, di bagian bawah. Korelasi ditunjukkan di bagian atas setiap grafik. (Mereka dapat bervariasi dari -1 sampai 1. Semakin dekat mereka ke -1 atau 1, yang kuat adalah asosiasi, negatif atau positif, antara variabel.) Korelasi antara kematian akibat kanker paru-paru dan persentase perokok adalah sedikit negatif dan secara statistik tidak signifikan (-0,087). Korelasi antara kematian akibat kanker paru-paru dan persentase dengan genotipe pelindung negatif, kuat, dan signifikan secara statistik (-0,613).



Meskipun merokok secara signifikan meningkatkan kemungkinan kematian akibat kanker paru-paru, korelasi memberitahu kami sebaliknya. Korelasi memberitahu kita bahwa kanker paru-paru tampaknya tidak menyebabkan kematian akibat kanker paru-paru, dan bahwa memiliki genotipe pelindung tampaknya secara signifikan mengurangi kematian akibat kanker. Mengapa?

Jika tidak ada variasi, tidak ada korelasi

Alasannya adalah bahwa peneliti mengumpulkan data hanya sekitar perokok rantai. Artinya, Perokok variabel hanya mencakup rantai perokok. Jika ini bukan kasus fiktif, dengan fokus studi pada rantai perokok bisa dilihat sebagai strategi cerdas yang digunakan oleh para peneliti yang didanai oleh perusahaan rokok. Para peneliti bisa mengatakan sesuatu seperti ini: Kami fokus analisis kami pada mereka yang paling mungkin untuk mengembangkan kanker paru-paru Atau, ini bisa menjadi hasil dari kebodohan polos ketika merancang proyek penelitian..

Dengan membatasi studi mereka untuk rantai perokok para peneliti secara dramatis mengurangi variabilitas dalam satu variabel tertentu: sejauh mana peserta penelitian merokok. Tanpa variasi, tidak ada korelasi. Tidak peduli apa tes atau perangkat lunak statistik yang digunakan, tidak ada hubungan yang signifikan akan ditemukan antara kematian akibat kanker paru-paru dan persentase perokok berdasarkan dataset ini. Tidak peduli apa tes atau perangkat lunak statistik yang digunakan, hubungan yang signifikan dan kuat akan ditemukan antara kematian akibat kanker paru-paru dan persentase dengan genotipe pelindung.

Tentu saja, ini bisa menyebabkan kesimpulan yang sangat menyesatkan. Merokok tidak menyebabkan kanker paru-paru; penyebab sebenarnya adalah genetik.

Catatan tentang diet

Pertimbangkan analogi antara merokok dan konsumsi makanan tertentu, dan Anda mungkin akan melihat apa artinya ini untuk analisis data pengamatan mengenai pilihan diet dan penyakit. Hal ini berlaku untuk hampir semua studi observasional, termasuk China Study. (Studi menggunakan manipulasi kontrol eksperimental akan mungkin memastikan variasi yang cukup dalam variabel yang diteliti.) Dalam China Study, data dari puluhan kabupaten dikumpulkan. Satu mungkin menemukan hubungan yang signifikan antara konsumsi makanan A dan Y. penyakit

Mungkin ada hubungan yang lebih kuat antara B makanan dan penyakit Y, tetapi asosiasi yang mungkin tidak muncul dalam analisis statistik sama sekali, hanya karena ada sedikit variasi dalam data mengenai konsumsi makanan B. Misalnya, semua orang sampel mungkin memiliki makan makanan B; tentang jumlah yang sama. Atau tidak. Atau di suatu tempat di antara, dalam kisaran agak kecil variasi.

Buta huruf statistik, pilihan yang buruk, dan perpajakan

Statistik adalah kejahatan yang diperlukan. Hal ini berguna untuk pergi dari sampel kecil ke yang besar ketika kita mempelajari setiap asosiasi kausal mungkin. Dengan demikian, seseorang dapat mengetahui apakah efek yang diamati benar-benar berlaku untuk persentase lebih besar dari populasi, atau sebenarnya terbatas pada sekelompok kecil individu. Masalahnya adalah bahwa kita manusia sangat buruk di menyimpulkan asosiasi yang sebenarnya dari hanya melihat di meja besar dengan angka. Kita perlu uji statistik untuk itu.

Namun, ketidaktahuan tentang fenomena statistik dasar, seperti yang dijelaskan di sini, dapat mahal. Sekelompok orang mungkin menghilangkan makanan A dari diet mereka berdasarkan koefisien asosiasi yang dihasilkan dari apa yang tampaknya menjadi analisis sangat pintar, menggantinya dengan makanan B. Masalahnya adalah bahwa makanan B mungkin sama berbahaya, atau bahkan lebih berbahaya. Dan, efek yang mungkin tidak muncul pada analisis statistik kecuali mereka memiliki variasi yang cukup dalam konsumsi makanan B.

Pembaca blog ini mungkin bertanya-tanya mengapa kita secara eksplisit menggunakan istilah-istilah seperti menunjukkan ketika kita merujuk ke hubungan yang disarankan oleh koefisien yang signifikan dari asosiasi (misalnya, korelasi linear). Inilah sebabnya, antara lain.

Orang tidak harus menjadi ahli matematika untuk memahami konsep-konsep statistik dasar. Dan melakukannya dapat sangat membantu dalam kehidupan yang pada umumnya, tidak hanya dalam keputusan diet dan gaya hidup. Bahkan dalam pilihan sederhana, seperti apa yang berada di. Kami selalu bertaruh pada sesuatu. Misalnya, investasi apapun pada dasarnya taruhan. Beberapa hasil jauh lebih mungkin daripada yang lain.

Setelah saya memiliki percakapan yang menarik dengan petugas tingkat tinggi dari pemerintah negara bagian. Aku adalah bagian dari sebuah tim ilmu pelet jarak jauh konsultan bekerja pada sebuah proyek teknologi informasi. Kami berbicara tentang lotere negara, yang merupakan sumber besar pendapatan bagi negara, membandingkannya dengan pajak negara. Dia mengatakan kepada saya sesuatu untuk efek ini:

Undian kami pada dasarnya adalah pajak atas statistik buta huruf.

Dapatkan Sample GRATIS Produk sponsor di bawah ini, KLIK dan lihat caranya