DB: The China Study: Dengan sampel yang cukup besar, sesuatu yang signifikan

Ada banyak referensi baru-baru ini pada diet dan gaya hidup blog ke China Study. Kecuali bahwa mereka tidak benar-benar referensi ke China Study, tetapi untuk posting blog oleh Denise Minger. Posting ini memang sangat baik, dan brilian, dan kemungkinan untuk menjaga Denise dari memiliki kehidupan untuk sementara waktu. Bahwa itu menyebabkan begitu banyak bunga merupakan bukti efek yang posting brilian dapat memiliki di Internet. Banyak berpikir bahwa Internet akan menyebabkan depersonalisasi dan de-individualisasi komunikasi. Namun, kebanyakan orang mengacu ke posting Denise, bukan untuk pos besar ditulis oleh seseorang di sebuah blog.

Lagi pula, saya tidak akan mengulangi apa yang dikatakan Denise di posting di sini. Tujuan saya dengan posting ini adalah sedikit lebih umum, dan berlaku untuk interpretasi hasil penelitian kuantitatif secara umum. Posting ini adalah peringatan tentang penelitian besar. Ini adalah studi yang mengklaim utama kredibilitas adalah bahwa mereka didasarkan pada sampel yang sangat besar. The China Study adalah contoh yang baik. Ini jelas mengklaim telah tertutup 2.400 kabupaten dan 880 juta orang.

Ada banyak teknik analisis statistik yang berbeda yang digunakan dalam analisis kuantitatif hubungan antara variabel, dimana variabel dapat hal-hal seperti asupan makanan nutrisi dan insiden penyakit tertentu. Secara umum, analisis statistik menghasilkan dua jenis utama hasil: (a) koefisien asosiasi (misalnya, korelasi); dan (b) nilai P (yang ukuran signifikansi statistik). Tentu saja ada banyak lagi untuk analisis statistik dari kedua jenis angka, tapi dua ini biasanya yang paling penting ketika datang untuk menciptakan atau menguji hipotesis. Nilai-nilai P, khususnya, yang sering digunakan sebagai dasar untuk klaim asosiasi yang signifikan. Nilai P lebih rendah dari 0,05 biasanya dianggap cukup rendah untuk mendukung klaim tersebut.

Dalam analisis pasang variabel (dikenal sebagai "univariat", atau "bivariat" analisis), koefisien asosiasi memberikan gambaran tentang seberapa kuat variabel yang terkait. Semakin tinggi koefisien ini, yang lebih kuat variabel yang terkait. Nilai-nilai P memberitahu kita apakah asosiasi yang jelas adalah mungkin karena kebetulan, mengingat ilmu pelet jarak jauh sampel tertentu. Misalnya, jika nilai P adalah 0,05, atau 5 persen, kemungkinan bahwa asosiasi yang terkait adalah karena kebetulan adalah 5 persen. Beberapa orang ingin mengatakan bahwa, dalam kasus seperti ini, seseorang memiliki kepercayaan 95 persen bahwa hubungan itu nyata.

Satu hal yang banyak orang tidak menyadari adalah bahwa nilai-nilai P sangat sensitif terhadap ukuran sampel. Misalnya, dengan sampel 50 orang, korelasi 0,6 mungkin signifikan secara statistik pada tingkat 0,01 (yaitu, nilai P lebih rendah dari 0,01). Dengan sampel 50.000 orang, korelasi lebih kecil dari 0,06 mungkin signifikan secara statistik pada tingkat yang sama. Kedua korelasi dapat digunakan oleh peneliti untuk mengklaim bahwa ada hubungan yang signifikan antara dua variabel, meskipun asosiasi pertama (korelasi = 0.6) adalah 10 kali lebih kuat dari kedua (korelasi = 0,06).

Jadi, dengan sampel yang sangat besar, hasil cherry-picking sangat mudah. Telah berpendapat kadang-kadang bahwa ini bukan teknis berbohong, karena salah satu melaporkan asosiasi yang memang signifikan secara statistik. Tapi, dengan melakukan hal ini, salah satu dapat menghilangkan asosiasi lain, yang mungkin lebih kuat. Jenis latihan kadang-kadang disebut sebagai berbohong dengan statistik.

Dengan sampel yang cukup besar orang dapat dengan mudah menunjukkan bahwa air minum menyebabkan kanker.

Ini adalah mengapa saya sering ingin melihat koefisien asosiasi bersama dengan nilai-nilai P. Untuk sederhana variabel-pair korelasi, saya umumnya menganggap korelasi sekitar 0,3 menjadi indikasi dari asosiasi yang wajar, dan korelasi pada atau di atas 0,6 untuk menjadi indikasi hubungan yang kuat. Kesimpulan ini terlepas dari nilai P. Apakah ini akan menunjukkan penyebab adalah cerita lain; kita harus menggunakan akal sehat dan teori yang baik.

Jika Anda mengambil berat badan saya dari 1 sampai 20 tahun, dan harga bensin di AS selama periode itu, Anda akan menemukan bahwa mereka sangat berkorelasi. Tapi akal sehat memberitahu saya bahwa tidak ada sebab-akibat apapun antara kedua variabel.

Ada sejumlah isu lain yang perlu dipertimbangkan yang saya tidak akan menutupi di sini. Sebagai contoh, hubungan mungkin nonlinier, dan analisis korelasi berbasis standar buta terhadap non-linear. Hal ini berlaku bahkan untuk teknik korelasi berbasis canggih statistik seperti analisis regresi berganda, yang mengontrol efek dari beberapa variabel bersaing pada satu variabel dependen utama. Mengabaikan non-linear dapat menyebabkan interpretasi menyesatkan asosiasi, seperti hubungan antara kolesterol total dan penyakit kardiovaskular.

Perhatikan bahwa posting ini bukan sebuah tuduhan analisis kuantitatif secara umum. Saya tidak mengatakan mengabaikan angka. Denise posting blog pada kenyataannya menggunakan analisis kuantitatif hati, dengan baik ol akal sehat, untuk menghilangkan prasangka beberapa klaim berdasarkan, baik, analisis kuantitatif. Jika Anda tertarik dengan ini dan isu-isu analisis statistik yang lebih maju lainnya, saya mengundang Anda untuk melihat di blog saya yang lain. Ini berfokus pada yang kuat analisis data nonlinier WarpPLS berbasis.

Dapatkan Sample GRATIS Produk sponsor di bawah ini, KLIK dan lihat caranya

The China Study: Dengan sampel yang cukup besar, sesuatu yang signifikan

FOLLOW FB PAGE