ปุจฉา: จงอธิบายความเหมือนและความแตกต่างระหว่างความแปรปรวน (Variance) และส่วนเบี่ยงเบนมาตรฐาน (Standard deviation) ในเชิง conceptual และการแปลความ ห้ามอธิบายว่าต่างกันที่ตัวหนึ่งยกกำลังสองและอีกตัวถอดรากที่สอง

วิสัจฉนา: ขอให้ช่วยกันตอบ คำถามนี้ซึ่งนักศึกษาที่จบปริญญาตรีทางสถิติกว่าร้อยละ 95 ตอบไม่ได้

เป็นเรื่องแปลกแต่จริงที่คนไทยแม้กระทั่งนิสิตนักศึกษาที่จบมาทางสถิติศาสตร์โดยตรง มักเรียนมาโดยการท่องจำสูตร แทนค่า กดเครื่องคอมพิวเตอร์เพื่อคำนวณ ท่องจำการพิสูจน์ทางคณิตศาสตร์มาสอบมากกว่าที่จะเข้าใจทฤษฎีทางสถิติศาสตร์จริงๆ

คำถามนี้เลย ทำให้ไปกันไม่เป็นเลยทีเดียว เพราะจำได้แต่สูตรว่า ยกกำลังสอง (Variance) และ ถอดรากที่สอง (Standard deviation)

ทั้ง Variance และ Standard deviation ต่างก็เป็นสถิติเชิงบรรยายที่ใช้วัดการกระจาย (Measure of dispersion) ทั้งคู่ และต้องใช้กับตัวแปรที่เป็นตัวแปร Interval /ratio scale of measurement เท่านั้น เราคงไม่สามารถคำนวณส่วนเบี่ยงเบนมาตรฐานของตัวแปรศาสนาได้

ส่วนเบี่ยงเบนมาตรฐานนั้นเป็นระยะทางเฉลี่ยของข้อมูลทุกค่าจากค่าเฉลี่ยเลขคณิต มีหน่วยตรงกับตัวแปรที่เรานำมาคำนวณส่วนเบี่ยงเบนมาตรฐานนั้น เนื่องจากเป็นระยะห่างเฉลี่ยจึงเป็นสิ่งที่คนทั่วไปเข้าใจได้ง่ายกว่า ไม่ซับซ้อน ยิ่งข้อมูลชุดใดมีระยะห่างเฉลี่ยออกมาจากค่ากลางมาก ย่อมแสดงว่ามีการกระจายมาก

แต่ส่วนเบี่ยงเบนมาตรฐานนั้นนักสถิติไม่นิยมนำไปใช้งานในการอนุมานทางสถิติ แต่นำความแปรปรวนไปใช้งานแทน  เพราะความแปรปรวนนั้นมี statistical distribution ที่แน่นอนกว่า เช่น Variance แจกแจงแบบไคกำลังสอง

ขอให้เราลองสังเกตว่า น้อยครั้งมากที่เราจะรายงานค่าความแปรปรวนในรายงานการวิจัย เรามักจะรายงานค่า Standard deviation มากกว่า เพราะแปลความได้ง่ายกว่า เช่น ชายไทยมีส่วนสูงเฉลี่ย 170 เซนติเมตร และมีส่วนเบี่ยงเบนมาตรฐานของความสูงเท่ากับ 10 เซนติเมตร คงมีคนน้อยคนที่จะรายงานว่า ชายไทยมีส่วนสูงเฉลี่ย 170 เซนติเมตร และความแปรปรวนของส่วนสูงเท่ากับ 100 เซนติเมตรกำลังสอง คนอ่านรายงานคงบอกว่าไอ้คนเขียนมันบ้าที่รายงานมาอย่างนี้ ตรงนี้เราคงเห็นว่าหน่วยของความแปรปรวนกับส่วนเบี่ยงเบนมาตรฐานไม่เหมือนกันเลย

เราสนใจการกระจายของข้อมูล เพื่อให้ทราบความไม่แน่นอนของข้อมูล อย่างเช่นในทางการเงิน การกระจายของผลตอบแทนคือความเสี่ยงที่ต้องดูแลให้ดี โดยเฉพาะเมื่อเราจัด portfolio

ความแปรปรวนนั้นทางสถิติศาสตร์และความน่าจะเป็นถือว่าเป็น The second central moment หรือ โมเมนต์ที่สองจากศูนย์กลาง ศูนย์กลางที่ว่าก็คือค่าเฉลี่ยเลขคณิต นักสถิติศาสตร์คำนวณ moment เพือจะอธิบายลักษณะของการแจกแจง (Moments characterize distribution) เช่น The first central moment คือค่าเฉลี่ยเลขคณิต เป็นตัวชี้วัดค่ากลาง The second central moment คือความแปรปรวน เป็นตัวชี้วัดการกระจาย The third central moment เป็นตัวชี้วัดความเบ้ (Skewness) ของข้อมูล The fourth central moment เป็นตัวชี้วัดความโด่ง ของข้อมูล (Kurtosis)

ขอให้ลองพิจารณารูปข้างล่างนี้ เรามีข้อมูล x1 ไปจนถึง xn เราลากเส้นความห่างจากค่ากลางมายังจุดข้อมูลทุกจุด แล้วยกกำลังสอง จะได้รูปสี่เหลี่ยมจัตุรัสซ้อนๆ กันไป ในทางเรขาคณิต สี่เหลี่ยมจัตุรัสนั้นคือพื้นที่ เมื่อเรานำพื้นที่ดังกล่าวมารวมกันแล้วหาค่าเฉลี่ยเราจะได้ ความแปรปรวนออกมา และแน่นอนเมื่อเราถอดรากที่สองของพื้นที่ซึ่งเป็นสี่เหลี่ยมจัตุรัสดังกล่าว จะทำให้เราได้ระยะห่างเฉลี่ยของข้อมูลจากค่ากลาง ทำไมเราจึงต้องยกกำลังก็เนื่องจากเป็นการแก้ปัญหา Cancellation problem ในทางคณิตศาสตร์ซึ่งมีค่าได้ทั้งบวกและลบ ความแปรปรวนในที่นี่จึงกลายเป็นพื้นที่จัตุรัสที่สร้างจากระยะห่างระหว่างข้อมูลแต่ละจุดกับค่ากลางนำมาเฉลี่ยกัน

มีข้อถกเถียงกันนิดหน่อยว่า ตัวหารควรเป็น N หรือ N-1 กันแน่ เพื่อให้ทั้งความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานที่คำนวณได้ เป็นตัวประมาณค่าที่ไม่เอนเอียง (Unbiased estimator) ต้องหารด้วย N-1 เพราะเราต้องประมาณค่าของค่าเฉลี่ยเลขคณิตก่อนจึงจะคำนวณ Variance หรือ Standard deviation ได้ ทำให้ต้องเสียองศาอิสระหรือ degree of freedom ไปเท่ากับหนึ่ง หากขนาดตัวอย่าง (N) มีขนาดใหญ่มากๆ แล้ว N กับ N-1 นั้นจะแทบไม่แตกต่างกันอยู่ดี แต่โดยทฤษฎีควรใช้ N-1 เป็นตัวหารมากกว่าGeometrical representation of variance and standard deviation.jpg

ดังนั้น เราแทบจะไม่ใช่ความแปรปรวนในการสื่อสารกับชาวบ้าน คนทั่วไป เพราะหน่วยนั้นแปลกและเข้าใจได้ยากกว่า ในขณะที่ส่วนเบี่ยงเบนมาตรฐานมีหน่วยเดียวกันกับตัวแปรที่เราวัดและมีความหมายที่เข้าใจได้ง่ายกว่า คือระยะห่างเฉลี่ยระหว่างข้อมูลทั้งหมดกับค่ากลาง

3 thoughts on “ความหมายของ Variance และ Standard deviation

Leave a comment