การถดถอยเชิงเส้นอย่างง่าย พื้นฐานการถดถอยเชิงเส้น
ข้าว. 2.1. พล็อตเส้นการถดถอย
นิพจน์แรกอนุญาตให้ใช้ค่าตัวประกอบที่กำหนด xคำนวณค่าทางทฤษฎีของลักษณะผลลัพธ์โดยการแทนที่ค่าที่แท้จริงของปัจจัยลงไป x. บนกราฟ ค่าทางทฤษฎีจะอยู่บนเส้นตรงซึ่งแสดงถึงเส้นถดถอย (รูปที่ 2.1)
การสร้างการถดถอยเชิงเส้นเกิดขึ้นเพื่อประมาณค่าพารามิเตอร์ กและ ข. วิธีการดั้งเดิมในการประมาณค่าพารามิเตอร์การถดถอยเชิงเส้นนั้นยึดตาม วิธี กำลังสองน้อยที่สุด(เอ็มเอ็นซี)
วิธีกำลังสองน้อยที่สุดช่วยให้เราได้รับการประมาณค่าของพารามิเตอร์ a และ b ซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าจริงจากค่าทางทฤษฎีมีค่าน้อยที่สุด:
ในการหาค่าต่ำสุด จำเป็นต้องคำนวณอนุพันธ์ย่อยของผลรวม (4) สำหรับแต่ละพารามิเตอร์ – กและ ข- และจัดให้เป็นศูนย์
(5)
มาแปลงร่างกันเถอะเราได้รับ ระบบสมการปกติ:
(6)
ในระบบนี้ ไม่มีขนาดตัวอย่าง ปริมาณคำนวณได้ง่ายจากข้อมูลเดิม เราแก้ระบบด้วยความเคารพ กและ ข, เราได้รับ:
(7)
. (8)
นิพจน์ (7) สามารถเขียนได้ในรูปแบบอื่น:
(9)
โดยที่ความแปรปรวนร่วมของลักษณะ ความแปรปรวนของปัจจัยอยู่ที่ไหน x.
พารามิเตอร์ ขเรียกว่า ค่าสัมประสิทธิ์การถดถอยค่าของมันแสดงการเปลี่ยนแปลงโดยเฉลี่ยของผลลัพธ์โดยมีการเปลี่ยนแปลงปัจจัยหนึ่งหน่วย ความเป็นไปได้ที่ชัดเจน การตีความทางเศรษฐกิจทำสัมประสิทธิ์การถดถอย สมการเชิงเส้นการถดถอยแบบคู่เป็นเรื่องปกติในการวิจัยทางเศรษฐมิติ
อย่างเป็นทางการ ก –ความหมาย ยที่ x= 0. ถ้า xไม่มีและไม่สามารถมีค่าเป็นศูนย์ได้ ดังนั้นการตีความคำศัพท์อิสระนี้ กไม่สมเหตุสมผล พารามิเตอร์ กอาจไม่มีเนื้อหาทางเศรษฐกิจ ความพยายามที่จะตีความในเชิงเศรษฐกิจอาจนำไปสู่ความไร้สาระ โดยเฉพาะอย่างยิ่งเมื่อ ก< 0. Интерпретировать можно лишь знак при параметре ก.ถ้า ก> 0 ดังนั้นการเปลี่ยนแปลงสัมพัทธ์ในผลลัพธ์จะเกิดขึ้นช้ากว่าการเปลี่ยนแปลงปัจจัย ลองเปรียบเทียบการเปลี่ยนแปลงที่เกี่ยวข้องเหล่านี้:
< при > 0, > 0 <
บางครั้งสมการการถดถอยแบบคู่เชิงเส้นจะถูกเขียนขึ้นสำหรับการเบี่ยงเบนไปจากค่าเฉลี่ย:
ที่ไหน , . ในกรณีนี้ เงื่อนไขอิสระจะเท่ากับศูนย์ ซึ่งสะท้อนให้เห็นในนิพจน์ (10) ข้อเท็จจริงนี้ตามมาจากการพิจารณาทางเรขาคณิต: เส้นตรงเดียวกัน (3) สอดคล้องกับสมการการถดถอย แต่เมื่อประมาณค่าการถดถอยในส่วนเบี่ยงเบน ต้นกำเนิดของพิกัดจะย้ายไปยังจุดที่มีพิกัด ในกรณีนี้ ในนิพจน์ (8) ผลรวมทั้งสองจะเท่ากับศูนย์ ซึ่งจะนำมาซึ่งความเท่าเทียมกันของเทอมอิสระเป็นศูนย์
ให้เราพิจารณาเป็นตัวอย่างสำหรับกลุ่มองค์กรที่ผลิตผลิตภัณฑ์ประเภทหนึ่ง การถดถอยของต้นทุนในผลผลิตผลิตภัณฑ์ .
ตารางที่ 2.1
ผลผลิตผลิตภัณฑ์พันหน่วย() | ต้นทุนการผลิต ล้านรูเบิล() | ||||
31,1 | |||||
67,9 |
ความต่อเนื่องของตารางที่ 2.1
141,6 | |||||
104,7 | |||||
178,4 | |||||
104,7 | |||||
141,6 | |||||
รวมทั้งหมด: 22 | 770,0 |
ระบบสมการปกติจะมีลักษณะดังนี้:
แก้ได้แล้วเราก็ได้ ก =-5,79, ข = 36,84.
สมการถดถอยคือ:
การแทนค่าลงในสมการ เอ็กซ์ลองหาค่าทางทฤษฎีกัน ย(คอลัมน์สุดท้ายของตาราง)
ขนาด กไม่สมเหตุสมผลทางเศรษฐกิจ ถ้าเป็นตัวแปร xและ ยแสดงในรูปของการเบี่ยงเบนจากระดับเฉลี่ย จากนั้นเส้นถดถอยบนกราฟจะผ่านจุดกำเนิดของพิกัด การประมาณค่าสัมประสิทธิ์การถดถอยจะไม่เปลี่ยนแปลง:
, ที่ไหน , .
ในการถดถอยเชิงเส้น ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นทำหน้าที่เป็นตัวบ่งชี้ความใกล้ชิดของการเชื่อมต่อ ร:
ค่านี้แสดงถึงส่วนแบ่งของความแปรปรวน ยเกิดจากอิทธิพลของปัจจัยอื่นๆ ที่ไม่ได้คำนึงถึงในแบบจำลอง
2.3. เงื่อนไขเบื้องต้นของ OLS (เงื่อนไข Gauss-Markov)
การเชื่อมต่อระหว่าง ยและ xในการถดถอยแบบคู่ไม่ทำงาน แต่มีความสัมพันธ์กัน ดังนั้นการประมาณค่าพารามิเตอร์ กและ ขเป็นตัวแปรสุ่มที่มีคุณสมบัติขึ้นอยู่กับคุณสมบัติขององค์ประกอบสุ่ม ε อย่างมีนัยสำคัญ เพื่อรับผ่าน MNC ผลลัพธ์ที่ดีที่สุดมีความจำเป็นต้องปฏิบัติตามข้อกำหนดเบื้องต้นต่อไปนี้เกี่ยวกับการเบี่ยงเบนแบบสุ่ม (เงื่อนไข Gauss-Markov):
1. ความคาดหวังทางคณิตศาสตร์ของการเบี่ยงเบนแบบสุ่มเป็นศูนย์สำหรับการสังเกตทั้งหมด: .
2. ความแปรปรวนของการเบี่ยงเบนแบบสุ่มคงที่: .
ความเป็นไปได้ของข้อกำหนดเบื้องต้นนี้เรียกว่า การรักร่วมเพศ -ความแปรปรวนคงที่ของการเบี่ยงเบน ความเป็นไปไม่ได้ของหลักฐานนี้เรียกว่า ความไม่สมดุล -ความไม่แน่นอนของความแปรปรวนของการเบี่ยงเบน
3. การเบี่ยงเบนแบบสุ่ม εiและ ε เจเป็นอิสระจากกันเพื่อ:
ความเป็นไปได้ของเงื่อนไขนี้เรียกว่า ไม่มีความสัมพันธ์อัตโนมัติ.
4. ความแปรปรวนสุ่มต้องไม่ขึ้นกับตัวแปรอธิบาย โดยทั่วไปแล้ว เงื่อนไขนี้จะเป็นไปตามอัตโนมัติหากตัวแปรอธิบายในแบบจำลองที่กำหนดไม่ได้สุ่ม นอกจากนี้ ความเป็นไปได้ของข้อกำหนดเบื้องต้นสำหรับแบบจำลองทางเศรษฐมิตินั้นไม่สำคัญเท่ากับเมื่อเปรียบเทียบกับสามตัวแรก
หากเป็นไปตามข้อกำหนดเบื้องต้นที่ระบุไว้ ทฤษฎีบทเกาส์-มาร์กอฟ: การประมาณค่า (7) และ (8) ที่ได้รับโดยใช้ OLS มีความแปรปรวนน้อยที่สุดในกลุ่มของการประมาณค่าที่ไม่เอนเอียงเชิงเส้นทั้งหมด .
ดังนั้น หากเป็นไปตามเงื่อนไขแบบเกาส์เซียน - การประมาณค่า Markov (7) และ (8) ไม่เพียงแต่เป็นการประมาณค่าสัมประสิทธิ์การถดถอยที่เป็นกลางเท่านั้น แต่ยังมีประสิทธิภาพสูงสุดด้วย กล่าวคือ มีความแปรปรวนน้อยที่สุดเมื่อเปรียบเทียบกับค่าประมาณอื่นๆ ของพารามิเตอร์เหล่านี้ที่เป็นเส้นตรงเทียบกับค่าต่างๆ ใช่แล้ว.
เป็นความเข้าใจถึงความสำคัญของเงื่อนไขแบบเกาส์เซียน - Markov แยกแยะนักวิจัยที่มีความสามารถโดยใช้การวิเคราะห์การถดถอยจากนักวิจัยที่ไร้ความสามารถ หากไม่ตรงตามเงื่อนไขเหล่านี้ ผู้วิจัยจะต้องตระหนักถึงสิ่งนี้ หากสามารถดำเนินการแก้ไขได้ นักวิเคราะห์ก็ควรจะดำเนินการได้ หากสถานการณ์ไม่สามารถแก้ไขได้ ผู้วิจัยจะต้องสามารถประเมินได้ว่าสิ่งนี้อาจส่งผลกระทบต่อผลลัพธ์อย่างจริงจังเพียงใด
2.4. การประมาณค่านัยสำคัญของพารามิเตอร์เชิงเส้น
การถดถอยและความสัมพันธ์
หลังจากพบสมการการถดถอยเชิงเส้น (3) แล้ว จะมีการประเมินความสำคัญของทั้งสมการโดยรวมและพารามิเตอร์แต่ละตัว
การประเมินนัยสำคัญของสมการถดถอยโดยรวมจะใช้ เอฟ-เกณฑ์ชาวประมง ในกรณีนี้ มีการเสนอสมมติฐานว่างว่าสัมประสิทธิ์การถดถอยเท่ากับศูนย์ และด้วยเหตุนี้ปัจจัย เอ็กซ์ไม่ส่งผลกระทบต่อผลลัพธ์ ย.
ก่อนที่จะคำนวณเกณฑ์ จะต้องดำเนินการวิเคราะห์ความแปรปรวน จะแสดงได้ว่าผลรวมของส่วนเบี่ยงเบนกำลังสอง (MSD) ยจากค่าเฉลี่ยแบ่งออกเป็นสองส่วน - อธิบายและอธิบายไม่ได้:
(รวม RMSE) =
มีสองกรณีที่เป็นไปได้ในกรณีนี้: เมื่อค่าเบี่ยงเบนมาตรฐานรวมเท่ากับค่าเบี่ยงเบนมาตรฐานที่เหลือพอดี และเมื่อค่าเบี่ยงเบนมาตรฐานรวมเท่ากับค่าเบี่ยงเบนมาตรฐานของตัวประกอบ
ในกรณีแรกปัจจัย เอ็กซ์ไม่มีผลกระทบต่อผลลัพธ์ ความแปรปรวนทั้งหมด ยเนื่องจากอิทธิพลของปัจจัยอื่นๆ เส้นการถดถอยจึงขนานกับแกน โอ้และ .
ในกรณีที่สอง ปัจจัยอื่น ๆ ไม่ส่งผลกระทบต่อผลลัพธ์ ยเชื่อมต่อกับ xตามหน้าที่แล้ว และ RMSE คงเหลือเป็นศูนย์
แต่ในทางปฏิบัติ ทั้งสองพจน์จะอยู่ทางด้านขวาของ (13) ประโยชน์ของเส้นถดถอยสำหรับการทำนายขึ้นอยู่กับความแปรผันทั้งหมด ยอธิบายความแปรผันที่อธิบายไว้ หากค่าเบี่ยงเบนมาตรฐานที่อธิบายไว้มากกว่าค่าเบี่ยงเบนมาตรฐานคงเหลือ สมการการถดถอยจะมีนัยสำคัญทางสถิติและเป็นปัจจัย เอ็กซ์มีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ ย. นี่เทียบเท่ากับความจริงที่ว่าค่าสัมประสิทธิ์ความมุ่งมั่นจะเข้าใกล้ความสามัคคี
จำนวนองศาความเป็นอิสระ(df-องศาแห่งอิสรภาพ) คือจำนวนค่าที่แตกต่างกันอย่างอิสระของคุณลักษณะ
สำหรับค่าเบี่ยงเบนมาตรฐานทั่วไป จำเป็นต้องมีค่าเบี่ยงเบนอิสระ เนื่องจาก ซึ่งช่วยให้คุณเปลี่ยนแปลงค่าได้อย่างอิสระและอย่างหลัง nส่วนเบี่ยงเบนที่ 2 ถูกกำหนดจากจำนวนรวมเท่ากับศูนย์ นั่นเป็นเหตุผล .
ค่าเบี่ยงเบนมาตรฐานแฟคทอเรียลสามารถแสดงได้ดังนี้:
ค่าเบี่ยงเบนมาตรฐานนี้ขึ้นอยู่กับพารามิเตอร์เพียงตัวเดียว ขเนื่องจากนิพจน์ใต้เครื่องหมายผลรวมใช้ไม่ได้กับค่าของคุณลักษณะผลลัพธ์ ดังนั้น ค่าเบี่ยงเบนมาตรฐานแฟคทอเรียลจึงมีระดับความเป็นอิสระหนึ่งระดับ และ
เพื่อระบุสิ่งนี้ เราจะใช้การเปรียบเทียบกับความเท่าเทียมกันของความสมดุล (11) เช่นเดียวกับความเท่าเทียมกัน (11) เราสามารถเขียนความเท่าเทียมกันระหว่างจำนวนระดับความเป็นอิสระได้:
ดังนั้นเราจึงสามารถเขียนได้ . จากความสมดุลนี้ เราจึงกำหนดได้ว่า
เราได้หารค่าเบี่ยงเบนมาตรฐานแต่ละค่าด้วยจำนวนองศาอิสระ กำลังสองเฉลี่ยของการเบี่ยงเบนหรือ การกระจายตัวต่อระดับความอิสระ:
. (15)
. (16)
. (17)
เมื่อเปรียบเทียบปัจจัยและความแปรปรวนคงเหลือต่อระดับความเป็นอิสระ เราได้รับ เอฟ-เกณฑ์สำหรับการทดสอบสมมติฐานว่าง ซึ่งในกรณีนี้จะเขียนเป็น
หากเป็นจริง ความแปรปรวนก็ไม่แตกต่างกัน สำหรับการพิสูจน์เป็นสิ่งจำเป็น การกระจายตัวของปัจจัยจะเกินการกระจายตัวของสารตกค้างหลายครั้ง
สนีเดคคอร์ นักสถิติชาวอังกฤษได้พัฒนาตารางค่าวิกฤต เอฟในระดับต่างๆ ของสาระสำคัญของ Snedecor และระดับความเป็นอิสระที่แตกต่างกัน ค่าตาราง เอฟ-เกณฑ์คือค่าสูงสุดของอัตราส่วนของความแปรปรวนที่สามารถเกิดขึ้นได้หากพวกมันแยกจากกันแบบสุ่มตามระดับความน่าจะเป็นของสมมติฐานที่เป็นโมฆะ
เมื่อค้นหาค่าตาราง เอฟ-เกณฑ์ มีการระบุระดับนัยสำคัญ (ปกติ 0.05 หรือ 0.01) และระดับความอิสระสองระดับ - ตัวเศษ (เท่ากับหนึ่ง) และตัวส่วนเท่ากับ
ค่าที่คำนวณได้ เอฟถือว่าเชื่อถือได้ (ต่างจากอันหนึ่ง) หากมีค่ามากกว่าค่าตาราง กล่าวคือ (α;1; ) ในกรณีนี้ จะถูกปฏิเสธและมีข้อสรุปเกี่ยวกับความสำคัญของส่วนที่เกิน ข้อเท็จจริงข้างบน D สารตกค้างกล่าวคือเกี่ยวกับสาระสำคัญ การเชื่อมต่อทางสถิติระหว่าง ยและ x.
ถ้า จากนั้นความน่าจะเป็นจะสูงกว่าระดับที่กำหนด (เช่น 0.05) และสมมติฐานนี้ไม่สามารถปฏิเสธได้หากไม่มีความเสี่ยงร้ายแรงในการสรุปข้อสรุปที่ผิดเกี่ยวกับการดำรงอยู่ของความสัมพันธ์ระหว่าง ยและ x.สมการการถดถอยถือว่าไม่มีนัยสำคัญทางสถิติและไม่ถูกปฏิเสธ
ขนาด เอฟ-เกณฑ์เกี่ยวข้องกับค่าสัมประสิทธิ์การตัดสินใจ
, (19)
ในการถดถอยเชิงเส้น ความสำคัญของสมการไม่เพียงแต่สมการโดยรวมเท่านั้น แต่ยังรวมถึงพารามิเตอร์แต่ละตัวด้วย
ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอยถูกกำหนดโดยสูตร:
, (20)
ความแปรปรวนคงเหลือต่อระดับความอิสระ (เหมือนกับ )
ค่าความผิดพลาดมาตรฐานร่วมกับ ที-การแจกแจงของนักเรียนในระดับความเป็นอิสระใช้เพื่อทดสอบความสำคัญของสัมประสิทธิ์การถดถอยและคำนวณช่วงความเชื่อมั่น
ขนาดของสัมประสิทธิ์การถดถอยจะถูกเปรียบเทียบกับข้อผิดพลาดมาตรฐาน มูลค่าที่แท้จริงถูกกำหนดไว้ ที-การทดสอบของนักเรียน
แล้วนำไปเปรียบเทียบกับค่าตารางที่ระดับนัยสำคัญ α และจำนวนดีกรีอิสระ ที่นี่สมมติฐานว่างได้รับการทดสอบในรูปแบบที่ถือว่าไม่มีนัยสำคัญของความสัมพันธ์ทางสถิติระหว่าง ยและ เอ็กซ์แต่คำนึงถึงคุณค่าเท่านั้น ขและไม่ใช่อัตราส่วนระหว่างปัจจัยและความแปรปรวนคงเหลือในความสมดุลโดยรวมของความแปรปรวนของคุณลักษณะผลลัพธ์ แต่ ความหมายทั่วไปสมมติฐานก็เหมือนกัน: การตรวจสอบความสัมพันธ์ทางสถิติระหว่างกัน ยและ เอ็กซ์หรือขาดไป
ถ้า (α; ) ดังนั้นสมมติฐานควรถูกปฏิเสธ และความสัมพันธ์ทางสถิติ ยกับ เอ็กซ์ถือว่าสถาปนาแล้ว ในกรณี (α; ) ไม่สามารถปฏิเสธสมมติฐานว่างได้ และผลกระทบ เอ็กซ์บน ยถือว่าไม่มีนัยสำคัญ
มีการเชื่อมต่อระหว่างและ เอฟ:
มันเป็นไปตามนั้น
ช่วงความเชื่อมั่นสำหรับ ขกำหนดให้เป็น
โดยที่ค่าสัมประสิทธิ์การถดถอยที่คำนวณ (ประมาณ) โดยใช้ OLS
ข้อผิดพลาดมาตรฐานของพารามิเตอร์ถูกกำหนดโดยสูตร:
ขั้นตอนการประเมินประเด็นสำคัญ กไม่แตกต่างจากนั้นสำหรับพารามิเตอร์ ข. ในกรณีนี้คือมูลค่าที่แท้จริง ที-เกณฑ์คำนวณโดยใช้สูตร:
ขั้นตอนการทดสอบความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นแตกต่างจากขั้นตอนที่ให้ไว้ข้างต้น อธิบายได้โดย รวิธีการแจกแจงตัวแปรสุ่มตามกฎปกติเฉพาะเมื่อใด จำนวนมากการสังเกตและค่าเล็กน้อย | ร|. ในกรณีนี้สมมติฐานเกี่ยวกับการไม่มีความสัมพันธ์กันระหว่าง ยและ เอ็กซ์ตรวจสอบตามสถิติ
, (26)
ซึ่งหากยุติธรรมจะมีการกระจายโดยประมาณตามกฎหมายนักศึกษาโดยมีระดับความเป็นอิสระ () ถ้า จากนั้นสมมติฐานจะถูกปฏิเสธโดยมีความน่าจะเป็นของข้อผิดพลาดไม่เกิน α . จาก (19) จะเห็นได้ว่าในการถดถอยเชิงเส้นคู่ นอกจากนี้ ดังนั้น . ดังนั้น การทดสอบสมมติฐานเกี่ยวกับความสำคัญของการถดถอยและสัมประสิทธิ์สหสัมพันธ์จึงเทียบเท่ากับการทดสอบสมมติฐานเกี่ยวกับความสำคัญของสมการการถดถอยเชิงเส้น
แต่ด้วยตัวอย่างและคุณค่าเพียงเล็กน้อย รใกล้กับ ก็ควรคำนึงถึงการกระจายตัวด้วย รตัวแปรสุ่มแตกต่างจากปกติอย่างไร และการสร้างช่วงความเชื่อมั่นสำหรับ รไม่สามารถทำได้ด้วยวิธีมาตรฐาน ในกรณีนี้ก็มักเกิดความขัดแย้งได้ง่ายว่า ช่วงความมั่นใจจะมีค่ามากกว่าหนึ่ง
เพื่อเอาชนะความยากลำบากนี้เรียกว่า
z- การเปลี่ยนแปลงของชาวประมง:
, (27)
ซึ่งให้ปริมาณการแจกแจงตามปกติ zซึ่งมีค่าเมื่อมีการเปลี่ยนแปลง รจาก –1 เป็น +1 เปลี่ยนจาก -∞ เป็น +∞ ข้อผิดพลาดมาตรฐานของค่านี้คือ:
. (28)
เพื่อความคุ้มค่า zมีตารางที่แสดงค่าสำหรับค่าที่เกี่ยวข้อง ร.
สำหรับ zสมมติฐานว่างถูกหยิบยกขึ้นมา ซึ่งก็คือไม่มีความสัมพันธ์กัน ในกรณีนี้คือค่าสถิติ
ซึ่งกระจายตามกฎของนักศึกษาโดยมีระดับความเป็นอิสระ () ไม่เกินค่าในตารางที่ระดับนัยสำคัญที่สอดคล้องกัน
สำหรับแต่ละค่า zสามารถคำนวณค่าวิกฤตได้ ร. ตารางค่าวิกฤต รออกแบบมาสำหรับระดับนัยสำคัญ 0.05 และ 0.01 และจำนวนองศาอิสระที่สอดคล้องกัน หากคำนวณค่าแล้ว รเกินค่าตารางในค่าสัมบูรณ์ จากนั้นค่านี้ รถือว่ามีนัยสำคัญ มิฉะนั้นมูลค่าที่แท้จริงจะไม่มีสาระสำคัญ
2.5. ตัวแบบการถดถอยแบบไม่เชิงเส้น
และการทำให้เป็นเส้นตรง
จนถึงตอนนี้เราก็ได้แต่พิจารณาเท่านั้น เชิงเส้นแบบจำลองการถดถอย ยจาก x(3). ในขณะเดียวกันก็มีการเชื่อมโยงที่สำคัญหลายประการในระบบเศรษฐกิจด้วย ไม่เชิงเส้น. ตัวอย่างของแบบจำลองการถดถอยประเภทนี้ ได้แก่ ฟังก์ชันการผลิต (การพึ่งพาระหว่างปริมาณของผลิตภัณฑ์ที่ผลิตและปัจจัยหลักในการผลิต - แรงงาน ทุน ฯลฯ) และฟังก์ชันอุปสงค์ (การพึ่งพาระหว่างอุปสงค์สำหรับสินค้าหรือบริการประเภทใดก็ตาม) มือและรายได้และราคาสำหรับสินค้านี้และสินค้าอื่น ๆ - อีกด้านหนึ่ง)
เมื่อวิเคราะห์การพึ่งพาการถดถอยแบบไม่เชิงเส้น ปัญหาที่สำคัญที่สุดในการใช้กำลังสองน้อยที่สุดแบบคลาสสิกคือวิธีการสร้างเชิงเส้น ในกรณีของการทำให้เชิงเส้นตรงของการพึ่งพาแบบไม่เชิงเส้น เราจะได้สมการการถดถอยเชิงเส้นประเภท (3) ซึ่งพารามิเตอร์ของสมการจะถูกประมาณโดยวิธีกำลังสองน้อยที่สุดตามปกติ หลังจากนั้นจึงสามารถเขียนความสัมพันธ์แบบไม่เชิงเส้นดั้งเดิมลงได้
แบบจำลองพหุนามของระดับตามอำเภอใจมีความโดดเด่นค่อนข้างแตกต่างในแง่นี้:
ซึ่งสามารถประยุกต์ใช้วิธีกำลังสองน้อยที่สุดตามปกติได้โดยไม่ต้องสร้างเชิงเส้นเบื้องต้น
ลองพิจารณาขั้นตอนนี้โดยสัมพันธ์กับพาราโบลาระดับที่สอง:
. (31)
การพึ่งพาดังกล่าวมีความเหมาะสมหากการพึ่งพาที่เพิ่มขึ้นเปลี่ยนเป็นค่าที่ลดลงในช่วงระยะเวลาหนึ่งหรือในทางกลับกัน ในกรณีนี้ คุณสามารถกำหนดค่าของปัจจัยที่ค่าสูงสุดหรือ ค่าต่ำสุดสัญญาณที่มีประสิทธิภาพ หากข้อมูลต้นฉบับตรวจไม่พบการเปลี่ยนแปลงในทิศทางของความสัมพันธ์ พารามิเตอร์ของพาราโบลาจะตีความได้ยาก และรูปแบบของความสัมพันธ์จะถูกแทนที่ด้วยแบบจำลองที่ไม่เชิงเส้นอื่นๆ จะดีกว่า
การใช้วิธีกำลังสองน้อยที่สุดในการประมาณค่าพารามิเตอร์ของพาราโบลาในระดับที่สองนั้นมาจากการหาความแตกต่างของผลรวมของกำลังสองของการถดถอยที่เหลือสำหรับพารามิเตอร์ที่ประมาณไว้แต่ละตัว และการทำให้นิพจน์ผลลัพธ์เท่ากับศูนย์ ได้รับระบบสมการปกติจำนวนซึ่งเท่ากับจำนวนพารามิเตอร์ที่ถูกประมาณคือ สาม:
(32)
ระบบนี้สามารถแก้ไขได้ด้วยวิธีใดวิธีหนึ่งโดยเฉพาะโดยใช้วิธีดีเทอร์มิแนนต์
ค่าสุดขีดของฟังก์ชันจะถูกสังเกตเมื่อค่าตัวประกอบเท่ากับ:
ถ้า แล้วจะมีค่าสูงสุด นั่นคือ การพึ่งพาเพิ่มขึ้นก่อนแล้วจึงลดลง การพึ่งพาอาศัยกันแบบนี้พบเห็นได้ในเศรษฐศาสตร์แรงงานเมื่อศึกษา ค่าจ้างคนงาน แรงงานทางกายภาพเมื่ออายุเป็นปัจจัย เมื่อพาราโบลามีค่าต่ำสุด ซึ่งมักจะปรากฏในต้นทุนการผลิตต่อหน่วย ขึ้นอยู่กับปริมาณผลผลิต
ในการพึ่งพาแบบไม่เชิงเส้นซึ่งไม่ใช่พหุนามแบบคลาสสิก จำเป็นต้องมีการดำเนินการเชิงเส้นเบื้องต้น ซึ่งประกอบด้วยการแปลงตัวแปรหรือพารามิเตอร์โมเดล หรือการรวมกันของการแปลงเหล่านี้ ลองพิจารณาบางคลาสของการพึ่งพาดังกล่าว
การขึ้นต่อกันของประเภทไฮเปอร์โบลิกมีรูปแบบ:
. (33)
ตัวอย่างของการพึ่งพาอาศัยกันคือ เส้นโค้งฟิลลิปส์โดยระบุความสัมพันธ์แบบผกผันระหว่างเปอร์เซ็นต์ของการเติบโตของค่าจ้างและอัตราการว่างงาน ในกรณีนี้คือค่าพารามิเตอร์ ขจะมากกว่าศูนย์
อีกตัวอย่างหนึ่งของการพึ่งพา (33) คือ เส้นโค้งเอนเจลโดยกำหนดรูปแบบดังนี้: เมื่อรายได้เพิ่มขึ้น ส่วนแบ่งรายได้ที่ใช้ไปกับอาหารก็ลดลง และส่วนแบ่งรายได้ที่ใช้กับผลิตภัณฑ์ที่ไม่ใช่อาหารก็จะเพิ่มขึ้น ในกรณีนี้ เครื่องหมายผลลัพธ์ใน (33) จะแสดงส่วนแบ่งค่าใช้จ่ายสำหรับผลิตภัณฑ์ที่ไม่ใช่อาหาร
การทำให้เป็นเส้นตรงของสมการ (33) จะลดลงเป็นการแทนที่ตัวประกอบ และสมการการถดถอยจะมีรูปแบบ (3) ซึ่งแทนที่จะเป็นตัวประกอบ เอ็กซ์เราใช้ปัจจัย z:
เส้นโค้งครึ่งลอการิทึมจะลดลงเหลือสมการเชิงเส้นเดียวกัน:
, (35)
ซึ่งสามารถใช้เพื่ออธิบายเส้นโค้งเอนเจลได้ ที่นี่ ln( x) ถูกแทนที่ด้วย zและเราได้สมการ (34)
ตัวบ่งชี้ทางเศรษฐกิจในระดับที่ค่อนข้างกว้างนั้นมีลักษณะเฉพาะด้วยอัตราการเติบโตสัมพัทธ์คงที่โดยประมาณเมื่อเวลาผ่านไป สิ่งนี้สอดคล้องกับการขึ้นต่อกันของประเภทเอ็กซ์โปเนนเชียล (เอ็กซ์โปเนนเชียล) ซึ่งเขียนในรูปแบบ:
หรือในรูปแบบ
. (37)
การพึ่งพาอาศัยกันต่อไปนี้ก็เป็นไปได้เช่นกัน:
. (38)
ในการถดถอยประเภท (36) - (38) จะใช้วิธีการเชิงเส้นตรงแบบเดียวกัน - ลอการิทึม สมการ (36) ลดลงเป็นรูปแบบ:
. (39)
การเปลี่ยนตัวแปรจะลดเป็น รูปแบบเชิงเส้น:
, (40)
ที่ไหน . ถ้า อีเป็นไปตามเงื่อนไขเกาส์-มาร์กอฟ ค่าพารามิเตอร์ของสมการ (36) ถูกประมาณโดยใช้วิธีกำลังสองน้อยที่สุดจากสมการ (40) สมการ (37) ลดลงเป็นรูปแบบ:
ซึ่งแตกต่างจาก (39) ในรูปของพจน์อิสระเท่านั้น และสมการเชิงเส้นมีลักษณะดังนี้
, (42)
ที่ไหน . ตัวเลือก กและ ขได้มาจากวิธีกำลังสองน้อยที่สุดตามปกติ จากนั้นจึงใช้พารามิเตอร์ กขึ้นอยู่กับ (37) มันกลายเป็นแอนติลอการิทึม ก. เมื่อใช้ลอการิทึม (38) เราจะได้ความสัมพันธ์เชิงเส้น:
, (43)
โดยที่ และสัญลักษณ์ที่เหลือจะเหมือนกับข้างต้น ในที่นี้ OLS ยังใช้กับข้อมูลที่แปลงและพารามิเตอร์ด้วย ขสำหรับ (38) ได้รับเป็นแอนติลอการิทึมของสัมประสิทธิ์ ใน.
ความสัมพันธ์ระหว่างกฎหมายอำนาจแพร่หลายในทางปฏิบัติในการวิจัยทางเศรษฐกิจและสังคม ใช้เพื่อสร้างและวิเคราะห์ฟังก์ชันการผลิต ในฟังก์ชั่นเช่น:
คุณค่าโดยเฉพาะอย่างยิ่งคือความจริงที่ว่าพารามิเตอร์ ขเท่ากับค่าสัมประสิทธิ์ความยืดหยุ่นของลักษณะผลลัพธ์ตามปัจจัย เอ็กซ์. เมื่อแปลง (44) ด้วยลอการิทึม เราจะได้การถดถอยเชิงเส้น:
, (45)
ความไม่เชิงเส้นอีกประเภทหนึ่งที่สามารถลดให้เป็นรูปแบบเชิงเส้นได้ก็คือ ความสัมพันธ์แบบผกผัน:
. (46)
เราได้รับการเปลี่ยนทดแทน
การถดถอยคืออะไร?
พิจารณาตัวแปรต่อเนื่องสองตัว x=(x 1 , x 2 , .., xn), y=(y 1 , y 2 , ..., y n)
ลองวางจุดบนแผนกระจายสองมิติแล้วบอกว่าเรามี ความสัมพันธ์เชิงเส้นถ้าข้อมูลประมาณเป็นเส้นตรง
ถ้าเราเชื่อแบบนั้น ยขึ้นอยู่กับ xและการเปลี่ยนแปลงใน ยเกิดจากการเปลี่ยนแปลงใน xเราสามารถกำหนดเส้นการถดถอยได้ (regression ยบน x) ซึ่งอธิบายความสัมพันธ์เชิงเส้นระหว่างตัวแปรทั้งสองนี้ได้ดีที่สุด
การใช้คำว่าการถดถอยทางสถิติมาจากปรากฏการณ์ที่เรียกว่าการถดถอยต่อค่าเฉลี่ย ซึ่งเกิดจากเซอร์ ฟรานซิส กัลตัน (1889)
เขาแสดงให้เห็นว่าถึงแม้พ่อตัวสูงมักจะมีลูกชายตัวสูง แต่ส่วนสูงโดยเฉลี่ยของลูกชายยังน้อยกว่าพ่อตัวสูงอีกด้วย ความสูงเฉลี่ยของลูกชาย "ถดถอย" และ "ถอยหลัง" ไปสู่ความสูงเฉลี่ยของพ่อทุกคนในประชากร ดังนั้น โดยเฉลี่ยแล้ว พ่อตัวสูงจะมีลูกชายที่ตัวเตี้ยกว่า (แต่ก็ยังค่อนข้างสูง) และพ่อตัวเตี้ยก็มีลูกชายที่สูงกว่า (แต่ก็ยังค่อนข้างเตี้ย)
เส้นถดถอย
สมการทางคณิตศาสตร์ที่ประมาณเส้นการถดถอยเชิงเส้นอย่างง่าย (ตามคู่)
xเรียกว่าตัวแปรอิสระหรือตัวทำนาย
ย- ตัวแปรตามหรือตัวแปรตอบสนอง นี่คือคุณค่าที่เราคาดหวัง ย(โดยเฉลี่ย)ถ้าเรารู้คุณค่า x, เช่น. คือ “มูลค่าที่คาดการณ์ไว้” ย»
- ก- สมาชิกอิสระ (ทางแยก) ของสายการประเมิน นี่คือความหมาย ย, เมื่อไร x=0(รูปที่ 1)
- ข - ความลาดชันหรือการไล่ระดับสีของเส้นประมาณ มันแสดงถึงจำนวนเงินที่ใช้ ยเพิ่มขึ้นโดยเฉลี่ยถ้าเราเพิ่มขึ้น xสำหรับหนึ่งหน่วย
- กและ ขเรียกว่าสัมประสิทธิ์การถดถอยของเส้นประมาณ แม้ว่าคำนี้มักใช้สำหรับเท่านั้น ข.
การถดถอยเชิงเส้นแบบคู่สามารถขยายเพื่อรวมตัวแปรอิสระมากกว่าหนึ่งตัวได้ ในกรณีนี้จะเรียกว่า การถดถอยหลายครั้ง.
รูปที่ 1. เส้นการถดถอยเชิงเส้นที่แสดงจุดตัด a และความชัน b (ปริมาณ Y จะเพิ่มขึ้นเมื่อ x เพิ่มขึ้นหนึ่งหน่วย)
วิธีกำลังสองน้อยที่สุด
เราทำการวิเคราะห์การถดถอยโดยใช้ตัวอย่างการสังเกตโดยที่ กและ ข- การประมาณค่าตัวอย่างของพารามิเตอร์จริง (ทั่วไป) α และ β ซึ่งกำหนดเส้นการถดถอยเชิงเส้นในประชากร (ประชากรทั่วไป)
ที่สุด วิธีการง่ายๆการกำหนดค่าสัมประสิทธิ์ กและ ขเป็น วิธีกำลังสองน้อยที่สุด(เอ็มเอ็นซี)
ประเมินความพอดีโดยดูจากสิ่งตกค้าง (ระยะห่างแนวตั้งของแต่ละจุดจากเส้น เช่น สิ่งตกค้าง = สังเกตได้ ย- คาดการณ์ ย, ข้าว. 2).
เลือกเส้นที่เหมาะสมที่สุดเพื่อให้ผลรวมของกำลังสองของส่วนที่เหลือน้อยที่สุด
ข้าว. 2. เส้นการถดถอยเชิงเส้นพร้อมภาพส่วนที่เหลือ (เส้นประแนวตั้ง) สำหรับแต่ละจุด
สมมติฐานการถดถอยเชิงเส้น
ดังนั้น สำหรับแต่ละค่าที่สังเกตได้ ส่วนที่เหลือจะเท่ากับผลต่างและค่าที่คาดการณ์ไว้ที่สอดคล้องกัน แต่ละส่วนที่เหลืออาจเป็นค่าบวกหรือลบก็ได้
คุณสามารถใช้ค่าคงเหลือเพื่อทดสอบสมมติฐานเบื้องหลังการถดถอยเชิงเส้นต่อไปนี้:
- โดยปกติปริมาณที่เหลือจะกระจายโดยมีค่าเฉลี่ยเป็นศูนย์
หากสมมติฐานเกี่ยวกับความเป็นเส้นตรง ความปกติ และ/หรือความแปรปรวนคงที่เป็นเรื่องที่น่าสงสัย เราสามารถแปลงหรือคำนวณเส้นการถดถอยใหม่ซึ่งเป็นไปตามสมมติฐานเหล่านี้ (เช่น ใช้การแปลงลอการิทึม เป็นต้น)
ค่าผิดปกติ (ค่าผิดปกติ) และจุดอิทธิพล
การสังเกตที่ "มีอิทธิพล" หากละเว้น จะเปลี่ยนค่าประมาณพารามิเตอร์แบบจำลองตั้งแต่หนึ่งค่าขึ้นไป (เช่น ความชันหรือจุดตัดกัน)
ค่าผิดปกติ (การสังเกตที่ไม่สอดคล้องกับค่าส่วนใหญ่ในชุดข้อมูล) อาจเป็นการสังเกตที่ "มีอิทธิพล" และสามารถตรวจพบด้วยสายตาได้อย่างง่ายดายโดยการตรวจสอบพล็อตกระจายแบบไบวาเรียตหรือพล็อตส่วนที่เหลือ
ทั้งสำหรับค่าผิดปกติและสำหรับการสังเกต "ที่มีอิทธิพล" (จุด) จะใช้แบบจำลองทั้งที่มีและไม่มีการรวมเข้าด้วยกัน และให้ความสนใจกับการเปลี่ยนแปลงในการประมาณค่า (สัมประสิทธิ์การถดถอย)
เมื่อทำการวิเคราะห์ คุณไม่ควรละทิ้งค่าผิดปกติหรือจุดอิทธิพลโดยอัตโนมัติ เนื่องจากการเพิกเฉยต่อสิ่งเหล่านั้นอาจส่งผลต่อผลลัพธ์ที่ได้รับ ศึกษาสาเหตุของค่าผิดปกติเหล่านี้และวิเคราะห์อยู่เสมอ
สมมติฐานการถดถอยเชิงเส้น
เมื่อสร้างการถดถอยเชิงเส้น สมมติฐานว่างจะถูกทดสอบว่าความชันทั่วไปของเส้นการถดถอย β เท่ากับศูนย์
หากความชันของเส้นเป็นศูนย์ จะไม่มีความสัมพันธ์เชิงเส้นระหว่าง และ: การเปลี่ยนแปลงจะไม่ส่งผลกระทบ
เพื่อทดสอบสมมติฐานว่างที่ว่าความชันที่แท้จริงเป็นศูนย์ คุณสามารถใช้อัลกอริทึมต่อไปนี้:
คำนวณสถิติการทดสอบเท่ากับอัตราส่วน ซึ่งขึ้นอยู่กับการแจกแจงด้วยดีกรีอิสระ โดยที่ค่าคลาดเคลื่อนมาตรฐานของสัมประสิทธิ์
,
- การประมาณค่าการกระจายตัวของสารตกค้าง
โดยทั่วไป หากถึงระดับนัยสำคัญ สมมติฐานว่างจะถูกปฏิเสธ
โดยที่คือจุดเปอร์เซ็นต์ของการแจกแจงด้วยระดับความอิสระ ซึ่งให้ความน่าจะเป็นของการทดสอบสองด้าน
นี่คือช่วงที่มีความชันทั่วไปที่มีความน่าจะเป็น 95%
สำหรับตัวอย่างขนาดใหญ่ เราสามารถประมาณค่าได้ 1.96 (นั่นคือ สถิติการทดสอบมีแนวโน้มที่จะแจกแจงแบบปกติ)
การประเมินคุณภาพของการถดถอยเชิงเส้น: สัมประสิทธิ์การกำหนด R 2
เพราะความสัมพันธ์เชิงเส้นและเราคาดว่าการเปลี่ยนแปลงจะเป็น
และเรียกมันว่าความแปรผันที่เกิดจากหรืออธิบายโดยการถดถอย ความแปรผันที่เหลือควรมีค่าน้อยที่สุด
ถ้าเป็นเช่นนั้น ส่วนใหญ่ความแปรผันจะถูกอธิบายโดยการถดถอย และจุดต่างๆ จะอยู่ใกล้กับเส้นถดถอย กล่าวคือ เส้นนี้เหมาะกับข้อมูลอย่างดี
เรียกว่าสัดส่วนของความแปรปรวนทั้งหมดที่อธิบายโดยการถดถอย ค่าสัมประสิทธิ์การตัดสินใจมักจะแสดงเป็นเปอร์เซ็นต์และแสดงแทน ร 2(ในการถดถอยเชิงเส้นคู่ นี่คือปริมาณ ร 2, กำลังสองของสัมประสิทธิ์สหสัมพันธ์) ช่วยให้คุณสามารถประเมินคุณภาพของสมการถดถอยได้
ความแตกต่างแสดงถึงเปอร์เซ็นต์ของความแปรปรวนที่ไม่สามารถอธิบายได้ด้วยการถดถอย
ไม่มีการทดสอบอย่างเป็นทางการในการประเมิน เราต้องพึ่งพาวิจารณญาณส่วนตัวเพื่อกำหนดความดีของเส้นการถดถอย
การใช้เส้นการถดถอยเพื่อพยากรณ์
คุณสามารถใช้เส้นการถดถอยเพื่อทำนายค่าจากค่าที่ปลายสุดของช่วงที่สังเกตได้ (อย่าคาดการณ์เกินขีดจำกัดเหล่านี้)
เราทำนายค่าเฉลี่ยของสิ่งที่สังเกตได้ซึ่งมีค่าเฉพาะโดยการแทนค่านั้นลงในสมการของเส้นการถดถอย
ดังนั้น ถ้าเราคาดการณ์ว่า ใช้ค่าทำนายนี้และค่าคลาดเคลื่อนมาตรฐานเพื่อประมาณค่าช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยประชากรที่แท้จริง
การทำซ้ำขั้นตอนนี้สำหรับค่าที่แตกต่างกันทำให้คุณสามารถสร้างขีดจำกัดความเชื่อมั่นสำหรับบรรทัดนี้ได้ นี่คือแถบหรือพื้นที่ที่มีเส้นจริง เช่น ที่ระดับความเชื่อมั่น 95%
แผนการถดถอยอย่างง่าย
การออกแบบการถดถอยอย่างง่ายประกอบด้วยตัวทำนายต่อเนื่องหนึ่งตัว หากมีการสังเกต 3 รายการที่มีค่าตัวทำนาย P เช่น 7, 4 และ 9 และการออกแบบมีเอฟเฟกต์ลำดับที่หนึ่ง P ดังนั้นเมทริกซ์การออกแบบ X จะเป็น
และสมการถดถอยโดยใช้ P สำหรับ X1 คือ
Y = b0 + b1 ป
หากการออกแบบการถดถอยอย่างง่ายมีผลกระทบ การสั่งซื้อสินค้าที่สูงขึ้นตัวอย่างเช่นสำหรับ P เอฟเฟกต์กำลังสองค่าในคอลัมน์ X1 ในเมทริกซ์การออกแบบจะถูกยกขึ้นเป็นกำลังสอง:
และสมการจะอยู่ในรูป
Y = b0 + b1 P2
วิธีการเข้ารหัสที่จำกัดด้วยซิกมาและมีพารามิเตอร์มากเกินไปไม่สามารถใช้ได้กับการออกแบบการถดถอยอย่างง่ายและการออกแบบอื่นๆ ที่มีเฉพาะตัวทำนายต่อเนื่อง (เนื่องจากไม่มีตัวทำนายเชิงหมวดหมู่) โดยไม่คำนึงถึงวิธีการเข้ารหัสที่เลือก ค่าของตัวแปรต่อเนื่องจะเพิ่มขึ้นตามลำดับและใช้เป็นค่าสำหรับตัวแปร X ในกรณีนี้ จะไม่มีการบันทึกซ้ำ นอกจากนี้ เมื่ออธิบายแผนการถดถอย คุณสามารถละเว้นเมทริกซ์การออกแบบ X ได้ และใช้ได้กับสมการการถดถอยเท่านั้น
ตัวอย่าง: การวิเคราะห์การถดถอยอย่างง่าย
ตัวอย่างนี้ใช้ข้อมูลที่นำเสนอในตาราง:
ข้าว. 3. ตารางข้อมูลเบื้องต้น
ข้อมูลที่รวบรวมจากการเปรียบเทียบสำมะโนประชากรปี 1960 และ 1970 ใน 30 มณฑลที่สุ่มเลือก ชื่อเทศมณฑลจะแสดงเป็นชื่อสังเกตการณ์ ข้อมูลเกี่ยวกับตัวแปรแต่ละตัวมีดังต่อไปนี้:
ข้าว. 4. ตารางข้อกำหนดตัวแปร
ปัญหาการวิจัย
สำหรับตัวอย่างนี้ จะมีการวิเคราะห์ความสัมพันธ์ระหว่างอัตราความยากจนและระดับที่คาดการณ์เปอร์เซ็นต์ของครอบครัวที่อยู่ต่ำกว่าเส้นความยากจน ดังนั้น เราจะถือว่าตัวแปร 3 (Pt_Poor) เป็นตัวแปรตาม
เราสามารถตั้งสมมติฐานได้ว่า การเปลี่ยนแปลงขนาดประชากรและเปอร์เซ็นต์ของครอบครัวที่อยู่ต่ำกว่าเส้นความยากจนมีความสัมพันธ์กัน ดูเหมือนสมเหตุสมผลที่จะคาดหวังว่าความยากจนจะนำไปสู่การย้ายถิ่นฐานออก ดังนั้นจะมีความสัมพันธ์เชิงลบระหว่างเปอร์เซ็นต์ของผู้ที่อยู่ใต้เส้นความยากจนกับการเปลี่ยนแปลงของประชากร ดังนั้น เราจะถือว่าตัวแปร 1 (Pop_Chng) เป็นตัวแปรทำนาย
ดูผลลัพธ์
ค่าสัมประสิทธิ์การถดถอย
ข้าว. 5. ค่าสัมประสิทธิ์การถดถอยของ Pt_Poor บน Pop_Chng
ที่จุดตัดของแถว Pop_Chng และคอลัมน์ Param ค่าสัมประสิทธิ์ที่ไม่ได้มาตรฐานสำหรับการถดถอยของ Pt_Poor บน Pop_Chng คือ -0.40374 ซึ่งหมายความว่าทุกๆ หนึ่งหน่วยของประชากรที่ลดลง จะมีอัตราความยากจนเพิ่มขึ้นที่ .40374 ขีดจำกัดความเชื่อมั่น 95% บนและล่าง (ค่าเริ่มต้น) สำหรับสัมประสิทธิ์ที่ไม่ได้มาตรฐานนี้ไม่รวมศูนย์ ดังนั้นสัมประสิทธิ์การถดถอยจึงมีนัยสำคัญที่ระดับ p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.
การกระจายตัวของตัวแปร
ค่าสัมประสิทธิ์สหสัมพันธ์อาจถูกประเมินสูงเกินไปหรือประเมินต่ำไปอย่างมาก หากมีค่าผิดปกติจำนวนมากในข้อมูล มาศึกษาการกระจายตัวของตัวแปรตาม Pt_Poor ตามเขตกัน เมื่อต้องการทำเช่นนี้ เรามาสร้างฮิสโตแกรมของตัวแปร Pt_Poor กัน
ข้าว. 6. ฮิสโตแกรมของตัวแปร Pt_Poor
อย่างที่คุณเห็น การแจกแจงของตัวแปรนี้แตกต่างอย่างเห็นได้ชัดจากการแจกแจงแบบปกติ อย่างไรก็ตาม แม้ว่าแม้แต่สองมณฑล (สองคอลัมน์ทางขวา) ก็มีเปอร์เซ็นต์ของครอบครัวที่ต่ำกว่าเส้นความยากจนมากกว่าที่คาดไว้ภายใต้การกระจายแบบปกติ แต่ดูเหมือนว่าครอบครัวเหล่านั้นจะ "อยู่ในช่วง"
ข้าว. 7. ฮิสโตแกรมของตัวแปร Pt_Poor
การตัดสินนี้ค่อนข้างเป็นอัตวิสัย หลักทั่วไปคือ ควรพิจารณาค่าผิดปกติหากการสังเกต (หรือการสังเกต) ไม่อยู่ภายในช่วงเวลา (เฉลี่ย ± 3 เท่าของส่วนเบี่ยงเบนมาตรฐาน) ในกรณีนี้ ควรทำการวิเคราะห์ซ้ำโดยมีและไม่มีค่าผิดปกติเพื่อให้แน่ใจว่าจะไม่มีผลกระทบสำคัญต่อความสัมพันธ์ระหว่างสมาชิกประชากร
แผนภูมิกระจาย
หากสมมติฐานข้อใดข้อหนึ่งเป็นนิรนัยเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรที่กำหนด จะเป็นประโยชน์ในการทดสอบบนกราฟของแผนภาพกระจายที่สอดคล้องกัน
ข้าว. 8. แผนภาพกระจาย
แผนภูมิกระจายแสดงความสัมพันธ์เชิงลบที่ชัดเจน (-.65) ระหว่างตัวแปรทั้งสอง นอกจากนี้ยังแสดงช่วงความเชื่อมั่น 95% สำหรับเส้นการถดถอย กล่าวคือ มีความน่าจะเป็น 95% ที่เส้นการถดถอยจะอยู่ระหว่างเส้นโค้งประสองเส้น
เกณฑ์ความสำคัญ
ข้าว. 9. ตารางแสดงเกณฑ์นัยสำคัญ
การทดสอบค่าสัมประสิทธิ์การถดถอย Pop_Chng ยืนยันว่า Pop_Chng เกี่ยวข้องอย่างยิ่งกับ Pt_Poor , p<.001 .
บรรทัดล่าง
ตัวอย่างนี้แสดงวิธีวิเคราะห์การออกแบบการถดถอยอย่างง่าย นอกจากนี้ยังมีการนำเสนอการตีความค่าสัมประสิทธิ์การถดถอยที่ไม่ได้มาตรฐานและเป็นมาตรฐานด้วย มีการพูดคุยถึงความสำคัญของการศึกษาการกระจายการตอบสนองของตัวแปรตาม และเทคนิคในการกำหนดทิศทางและความเข้มแข็งของความสัมพันธ์ระหว่างตัวทำนายและตัวแปรตาม
เรื่อง:องค์ประกอบของทฤษฎีสหสัมพันธ์
วัตถุของประชากรทั่วไปจำนวนหนึ่งมีลักษณะเฉพาะ X, Y, ... หลายประการที่สามารถศึกษาได้ ซึ่งสามารถตีความได้ว่าเป็นระบบของปริมาณที่สัมพันธ์กัน ตัวอย่างได้แก่: น้ำหนักของสัตว์และปริมาณฮีโมโกลบินในเลือด ความสูงของผู้ชายและปริมาตรของหน้าอก การเพิ่มขึ้นของสถานที่ทำงานในห้องและอุบัติการณ์ของการติดเชื้อไวรัส ปริมาณของยาที่จ่ายและ ความเข้มข้นในเลือด ฯลฯ
เห็นได้ชัดว่ามีความเชื่อมโยงระหว่างปริมาณเหล่านี้ แต่ไม่สามารถพึ่งพาการทำงานที่เข้มงวดได้ เนื่องจากการเปลี่ยนแปลงในปริมาณใดปริมาณหนึ่งไม่เพียงได้รับอิทธิพลจากการเปลี่ยนแปลงในปริมาณที่สองเท่านั้น แต่ยังรวมถึงปัจจัยอื่น ๆ ด้วย ในกรณีเช่นนี้ กล่าวกันว่าปริมาณทั้งสองมีความเกี่ยวข้องกัน สุ่ม(เช่นสุ่ม) การพึ่งพาอาศัยกัน เราจะศึกษากรณีพิเศษของการพึ่งพาสุ่ม - การพึ่งพาความสัมพันธ์.
คำนิยาม:สุ่มหากการเปลี่ยนแปลงในหนึ่งในนั้นไม่เพียงได้รับอิทธิพลจากการเปลี่ยนแปลงในปริมาณที่สองเท่านั้น แต่ยังรวมถึงปัจจัยอื่น ๆ ด้วย
คำนิยาม:การพึ่งพาตัวแปรสุ่มเรียกว่า ทางสถิติ,หากการเปลี่ยนแปลงในอันใดอันหนึ่งนำไปสู่การเปลี่ยนแปลงในกฎหมายการกระจายของอีกอัน
คำนิยาม:หากการเปลี่ยนแปลงในตัวแปรสุ่มตัวใดตัวหนึ่งทำให้เกิดการเปลี่ยนแปลงในค่าเฉลี่ยของตัวแปรสุ่มตัวอื่น การพึ่งพาทางสถิติจะถูกเรียกว่า ความสัมพันธ์
ตัวอย่าง การพึ่งพาความสัมพันธ์เป็นการเชื่อมต่อระหว่าง:
น้ำหนักและส่วนสูงของร่างกาย
ปริมาณรังสีไอออไนซ์และจำนวนการกลายพันธุ์
เม็ดสีผมมนุษย์และสีตา
ตัวชี้วัดมาตรฐานการครองชีพของประชากรและอัตราการเสียชีวิต
จำนวนผู้บรรยายที่พลาดและเกรดสอบ ฯลฯ
เป็นการพึ่งพาสหสัมพันธ์ซึ่งมักพบในธรรมชาติเนื่องจากอิทธิพลซึ่งกันและกันและการผสมผสานอย่างใกล้ชิดของปัจจัยที่แตกต่างกันมากที่หลากหลายซึ่งกำหนดค่าของตัวบ่งชี้ที่กำลังศึกษา
ผลลัพธ์ของการสังเกตที่ดำเนินการกับวัตถุทางชีววิทยาเฉพาะตามคุณลักษณะที่เกี่ยวข้องกับความสัมพันธ์ Y และ X สามารถแสดงเป็นจุดบนระนาบได้โดยการสร้างระบบพิกัดสี่เหลี่ยม ผลลัพธ์ที่ได้คือแผนภาพกระจายที่ช่วยให้สามารถตัดสินรูปแบบและความใกล้ชิดของความสัมพันธ์ระหว่างคุณลักษณะที่แตกต่างกันได้
หากความสัมพันธ์นี้สามารถประมาณได้ด้วยเส้นโค้งบางเส้น ก็จะสามารถคาดการณ์การเปลี่ยนแปลงในพารามิเตอร์ตัวใดตัวหนึ่งด้วยการเปลี่ยนแปลงเป้าหมายในพารามิเตอร์อื่นได้
การพึ่งพาสหสัมพันธ์จาก
สามารถอธิบายได้โดยใช้สมการของแบบฟอร์ม
(1)
ช
เดอ
ค่าเฉลี่ยแบบมีเงื่อนไขปริมาณ สอดคล้องกับค่า ปริมาณ
, ก
ฟังก์ชั่นบางอย่าง เรียกสมการ (1) บน
.
รูปที่ 1. การถดถอยเชิงเส้นมีความสำคัญ แบบอย่าง
.
การทำงาน
เรียกว่า การถดถอยตัวอย่าง
บน
และกราฟของมันคือ เส้นการถดถอยตัวอย่าง
บน
.
ค่อนข้างคล้ายกัน ตัวอย่างสมการถดถอย
บน คือสมการ
.
ขึ้นอยู่กับประเภทของสมการการถดถอยและรูปร่างของเส้นการถดถอยที่สอดคล้องกัน รูปร่างของความสัมพันธ์ระหว่างปริมาณที่พิจารณาจะถูกกำหนด - เชิงเส้น กำลังสอง เลขชี้กำลัง เลขชี้กำลัง
คำถามที่สำคัญที่สุดคือการเลือกประเภทของฟังก์ชันการถดถอย
[หรือ
] เช่น เชิงเส้นหรือไม่เชิงเส้น (เลขชี้กำลัง ลอการิทึม ฯลฯ)
ในทางปฏิบัติ ประเภทของฟังก์ชันการถดถอยสามารถกำหนดได้โดยการสร้างชุดของจุดบนระนาบพิกัดที่สอดคล้องกับคู่การสังเกตที่มีอยู่ทั้งหมด (
).
ข้าว. 2. การถดถอยเชิงเส้นไม่มีนัยสำคัญ แบบอย่าง
.
ร
เป็น. 3. โมเดลไม่เชิงเส้น
.
ตัวอย่างเช่นในรูปที่ 1 มีแนวโน้มเห็นคุณค่าที่เพิ่มขึ้นอย่างเห็นได้ชัด ด้วยการเติบโต
ในขณะที่ค่าเฉลี่ย สายตาตั้งอยู่บนเส้นตรง มันสมเหตุสมผลแล้วที่จะใช้โมเดลเชิงเส้น (ประเภทของการพึ่งพา จาก
มักเรียกว่าแบบจำลองการพึ่งพา จาก
.
ในรูปที่ 2 ค่าเฉลี่ย ไม่ต้องพึ่ง ดังนั้นการถดถอยเชิงเส้นจึงไม่มีนัยสำคัญ (ฟังก์ชันการถดถอยมีค่าคงที่และเท่ากับ ).
ในรูป 3. มีแนวโน้มที่แบบจำลองจะไม่เป็นเชิงเส้น
ตัวอย่างของการพึ่งพาเชิงเส้น:
เพิ่มปริมาณไอโอดีนที่บริโภคและลดอุบัติการณ์ของโรคคอพอก
เพิ่มระยะเวลาในการให้บริการของพนักงานและเพิ่มผลผลิต
ตัวอย่างของการพึ่งพาเส้นโค้ง:
เมื่อปริมาณฝนเพิ่มขึ้น ผลผลิตจะเพิ่มขึ้น แต่สิ่งนี้เกิดขึ้นจนถึงขีดจำกัดปริมาณฝนที่แน่นอน หลังจากจุดวิกฤติ ฝนตกมากเกินไป ดินล้นหลาม และผลผลิตลดลง
ความสัมพันธ์ระหว่างปริมาณคลอรีนที่ใช้ฆ่าเชื้อในน้ำกับจำนวนแบคทีเรียใน 1 มิลลิลิตร น้ำ. เมื่อปริมาณคลอรีนเพิ่มขึ้น จำนวนแบคทีเรียในน้ำจะลดลง แต่เมื่อถึงจุดวิกฤติ จำนวนแบคทีเรียจะยังคงที่ (หรือหายไปเลย) ไม่ว่าเราจะเพิ่มปริมาณคลอรีนมากเพียงใด
การถดถอยเชิงเส้น
เมื่อเลือกประเภทของฟังก์ชันการถดถอยแล้ว เช่น ประเภทของรูปแบบการพึ่งพาที่อยู่ระหว่างการพิจารณา จาก X (หรือ X จาก Y) เช่น โมเดลเชิงเส้น
จำเป็นต้องกำหนดค่าเฉพาะของสัมประสิทธิ์แบบจำลอง
สำหรับค่านิยมที่แตกต่างกัน กและ
คุณสามารถสร้างการขึ้นต่อกันของแบบฟอร์มได้ไม่จำกัดจำนวน
นั่นคือ มีเส้นตรงจำนวนอนันต์บนระนาบพิกัด แต่เราต้องการการพึ่งพาที่สอดคล้องกับค่าที่สังเกตได้ดีที่สุด ดังนั้นงานจึงต้องเลือกค่าสัมประสิทธิ์ที่ดีที่สุด
วิธีกำลังสองน้อยที่สุด (LS)
ฟังก์ชันเชิงเส้น
เราค้นหาตามข้อสังเกตที่มีอยู่จำนวนหนึ่งเท่านั้น เราใช้เพื่อค้นหาฟังก์ชันที่เหมาะสมที่สุดกับค่าที่สังเกตได้ วิธีกำลังสองน้อยที่สุด
รูปที่ 4. คำอธิบายสำหรับการประมาณค่าสัมประสิทธิ์โดยใช้วิธีกำลังสองน้อยที่สุด
เรามาแสดงว่า: - ค่าที่คำนวณจากสมการ
- ค่าที่วัดได้
- ความแตกต่างระหว่างค่าที่วัดได้และค่าที่คำนวณได้โดยใช้สมการ
.
ใน วิธีกำลังสองน้อยที่สุดมันเป็นสิ่งจำเป็นอย่างนั้น ความแตกต่างระหว่างการวัด และค่าที่คำนวณโดยใช้สมการ น้อยที่สุด ดังนั้นเราจึงสามารถหาค่าสัมประสิทธิ์ได้ กและ เพื่อให้ผลรวมของการเบี่ยงเบนกำลังสองของค่าที่สังเกตได้จากค่าบนเส้นถดถอยตรงมีค่าน้อยที่สุด:
เงื่อนไขนี้จะเกิดขึ้นได้หากพารามิเตอร์ กและ จะถูกคำนวณโดยใช้สูตร:
เรียกว่า ค่าสัมประสิทธิ์การถดถอย; เรียกว่า สมาชิกฟรีสมการถดถอย
เส้นตรงที่ได้จะเป็นค่าประมาณของเส้นถดถอยตามทฤษฎี เรามี
ดังนั้น,
เป็น สมการการถดถอยเชิงเส้น
การถดถอยสามารถทำได้โดยตรง
และย้อนกลับ
.
คำนิยาม: การถดถอยแบบย้อนกลับ หมายความว่าเมื่อพารามิเตอร์หนึ่งเพิ่มขึ้น ค่าของพารามิเตอร์อื่นจะลดลง
กระทรวงศึกษาธิการและวิทยาศาสตร์แห่งสหพันธรัฐรัสเซีย
หน่วยงานกลางเพื่อการศึกษา
สถาบันการศึกษาของรัฐที่มีการศึกษาวิชาชีพชั้นสูง
สถาบันการเงินและเศรษฐกิจทางจดหมายทั้งหมดของรัสเซีย
สาขาในตูลา
ทดสอบ
ในสาขาวิชา "เศรษฐมิติ"
ตูลา - 2010
ปัญหาที่ 2 (ก, ข)
สำหรับองค์กรอุตสาหกรรมเบาได้รับข้อมูลที่แสดงถึงการพึ่งพาปริมาณผลผลิต (Y, ล้านรูเบิล) กับปริมาณการลงทุน (X, ล้านรูเบิล) ตาราง 1.
เอ็กซ์ | 33 | 17 | 23 | 17 | 36 | 25 | 39 | 20 | 13 | 12 |
ย | 43 | 27 | 32 | 29 | 45 | 35 | 47 | 32 | 22 | 24 |
ที่จำเป็น:
1. ค้นหาพารามิเตอร์ของสมการการถดถอยเชิงเส้น ให้การตีความทางเศรษฐศาสตร์ของสัมประสิทธิ์การถดถอย
2. คำนวณส่วนที่เหลือ ค้นหาผลรวมที่เหลือของกำลังสอง ประมาณการความแปรปรวนของส่วนที่เหลือ
; วางแผนส่วนที่เหลือ3. ตรวจสอบการปฏิบัติตามข้อกำหนดเบื้องต้นของ MNC
4. ตรวจสอบความสำคัญของพารามิเตอร์ของสมการถดถอยโดยใช้การทดสอบของนักเรียน (α=0.05)
5. คำนวณค่าสัมประสิทธิ์การกำหนด ตรวจสอบความสำคัญของสมการถดถอยโดยใช้การทดสอบ F ของฟิชเชอร์ (α=0.05) ค้นหาค่าคลาดเคลื่อนสัมพัทธ์โดยเฉลี่ยของการประมาณ สรุปเกี่ยวกับคุณภาพของแบบจำลอง
6. ทำนายค่าเฉลี่ยของตัวบ่งชี้ Y ที่ระดับนัยสำคัญ α=0.1 หากค่าที่ทำนายของปัจจัย X คือ 80% ของค่าสูงสุด
7. นำเสนอแบบกราฟิก: ค่าจริงและแบบจำลอง Y, จุดพยากรณ์
8. สร้างสมการถดถอยไม่เชิงเส้น:
ซึ่งเกินความจริง;
สงบ;
บ่งชี้
แสดงกราฟของสมการถดถอยที่สร้างขึ้น
9. สำหรับรุ่นที่ระบุ ให้ค้นหาค่าสัมประสิทธิ์การกำหนดและข้อผิดพลาดสัมพัทธ์โดยเฉลี่ยของการประมาณ เปรียบเทียบแบบจำลองตามคุณลักษณะเหล่านี้และสรุปผล
1. โมเดลเชิงเส้นมีรูปแบบ:
เราค้นหาพารามิเตอร์ของสมการการถดถอยเชิงเส้นโดยใช้สูตร
การคำนวณค่าพารามิเตอร์แสดงไว้ในตาราง 2.
ที | ย | x | ใช่ | |||||||
1 | 43 | 33 | 1419 | 1089 | 42,236 | 0,764 | 0,584 | 90,25 | 88,36 | 0,018 |
2 | 27 | 17 | 459 | 289 | 27,692 | -0,692 | 0,479 | 42,25 | 43,56 | 0,026 |
3 | 32 | 23 | 736 | 529 | 33,146 | -1,146 | 1,313 | 0,25 | 2,56 | 0,036 |
4 | 29 | 17 | 493 | 289 | 27,692 | 1,308 | 1,711 | 42,25 | 21,16 | 0,045 |
5 | 45 | 36 | 1620 | 1296 | 44,963 | 0,037 | 0,001 | 156,25 | 129,96 | 0,001 |
6 | 35 | 25 | 875 | 625 | 34,964 | 0,036 | 0,001 | 2,25 | 1,96 | 0,001 |
7 | 47 | 39 | 1833 | 1521 | 47,69 | -0,69 | 0,476 | 240,25 | 179,56 | 0,015 |
8 | 32 | 20 | 640 | 400 | 30,419 | 1,581 | 2,500 | 12,25 | 2,56 | 0,049 |
9 | 22 | 13 | 286 | 169 | 24,056 | -2,056 | 4,227 | 110,25 | 134,56 | 0,093 |
10 | 24 | 12 | 288 | 144 | 23,147 | 0,853 | 0,728 | 132,25 | 92,16 | 0,036 |
∑ | 336 | 235 | 8649 | 6351 | 12,020 | 828,5 | 696,4 | 0,32 | ||
เฉลี่ย | 33,6 | 23,5 | 864,9 | 635,1 |
มากำหนดพารามิเตอร์ของโมเดลเชิงเส้นกัน
โมเดลเชิงเส้นมีรูปแบบ
สัมประสิทธิ์การถดถอย
แสดงให้เห็นว่าเอาต์พุต Y เพิ่มขึ้นโดยเฉลี่ย 0.909 ล้านรูเบิล ด้วยปริมาณการลงทุนเพิ่มขึ้น X 1 ล้านรูเบิล2. คำนวณส่วนที่เหลือ
ผลรวมที่เหลือของกำลังสอง เราจะค้นหาความแปรปรวนที่เหลือโดยใช้สูตร:การคำนวณแสดงไว้ในตาราง 2.
ข้าว. 1. กราฟของสารตกค้าง ε
3. ให้เราตรวจสอบการปฏิบัติตามข้อกำหนดเบื้องต้นของ OLS ตามเกณฑ์ Durbin-Watson
0,584 | |
2,120 | 0,479 |
0,206 | 1,313 |
6,022 | 1,711 |
1,615 | 0,001 |
0,000 | 0,001 |
0,527 | 0,476 |
5,157 | 2,500 |
13,228 | 4,227 |
2,462 | 0,728 |
31,337 | 12,020 |
d1=0.88; d2=1.32 สำหรับ α=0.05, n=10, k=1
,ซึ่งหมายความว่าจำนวนที่เหลือไม่มีความสัมพันธ์กัน
4. มาตรวจสอบความสำคัญของพารามิเตอร์สมการจากการทดสอบของนักเรียนกันดีกว่า (α=0.05)
สำหรับ ν=8; α=0.05.การคำนวณมูลค่า
ผลิตในตาราง 2. เราได้รับ:จากนั้นเราสามารถสรุปได้ว่าสัมประสิทธิ์การถดถอย a และ b มีนัยสำคัญโดยมีความน่าจะเป็น 0.95
5. ค้นหาค่าสัมประสิทธิ์สหสัมพันธ์โดยใช้สูตร
เราจะทำการคำนวณในตาราง 2.
. ที่. ความสัมพันธ์ระหว่างจำนวนเงินลงทุน X และผลผลิต Y ถือว่าใกล้เคียงกันเพราะ .เราหาค่าสัมประสิทธิ์การตัดสินใจโดยใช้สูตร
หากมีความสัมพันธ์ระหว่างปัจจัยและคุณลักษณะด้านประสิทธิภาพ แพทย์มักจะต้องกำหนดจำนวนค่าของคุณลักษณะหนึ่งที่สามารถเปลี่ยนแปลงได้เมื่ออีกค่าหนึ่งเปลี่ยนเป็นหน่วยการวัดที่ยอมรับโดยทั่วไปหรือค่าที่ผู้วิจัยกำหนดเอง
ตัวอย่างเช่นน้ำหนักตัวของเด็กนักเรียนชั้นประถมศึกษาปีที่ 1 (เด็กหญิงหรือเด็กชาย) จะเปลี่ยนแปลงอย่างไรหากส่วนสูงเพิ่มขึ้น 1 ซม. เพื่อวัตถุประสงค์เหล่านี้จึงใช้วิธีการวิเคราะห์การถดถอย
บ่อยครั้งที่วิธีการวิเคราะห์การถดถอยใช้เพื่อพัฒนามาตราส่วนเชิงบรรทัดฐานและมาตรฐานของการพัฒนาทางกายภาพ
- คำจำกัดความของการถดถอย. การถดถอยเป็นฟังก์ชันที่อนุญาตให้หาค่าเฉลี่ยของคุณลักษณะอื่นที่มีความสัมพันธ์กับลักษณะแรกได้จากค่าเฉลี่ยของคุณลักษณะหนึ่ง
เพื่อจุดประสงค์นี้ จะใช้ค่าสัมประสิทธิ์การถดถอยและพารามิเตอร์อื่นๆ อีกจำนวนหนึ่ง ตัวอย่างเช่นคุณสามารถคำนวณจำนวนหวัดโดยเฉลี่ยได้ที่ค่าหนึ่งของอุณหภูมิอากาศเฉลี่ยรายเดือนในช่วงฤดูใบไม้ร่วง-ฤดูหนาว
- การหาค่าสัมประสิทธิ์การถดถอย. สัมประสิทธิ์การถดถอยคือค่าสัมบูรณ์ซึ่งโดยเฉลี่ยแล้วค่าของคุณลักษณะหนึ่งจะเปลี่ยนไปเมื่อคุณลักษณะอื่นที่เกี่ยวข้องกันเปลี่ยนแปลงตามหน่วยการวัดที่ระบุ
- สูตรสัมประสิทธิ์การถดถอย. R y/x = r xy x (σ y / σ x)
โดยที่ R у/х - สัมประสิทธิ์การถดถอย;
r xy - สัมประสิทธิ์สหสัมพันธ์ระหว่างคุณลักษณะ x และ y;
(σ y และ σ x) - ส่วนเบี่ยงเบนมาตรฐานของคุณลักษณะ x และ yในตัวอย่างของเรา
σ x = 4.6 (ค่าเบี่ยงเบนมาตรฐานของอุณหภูมิอากาศในช่วงฤดูใบไม้ร่วง-ฤดูหนาว
σ y = 8.65 (ส่วนเบี่ยงเบนมาตรฐานของจำนวนโรคติดเชื้อและโรคหวัด)
ดังนั้น R y/x คือสัมประสิทธิ์การถดถอย
R у/х = -0.96 x (4.6 / 8.65) = 1.8 เช่น เมื่ออุณหภูมิอากาศเฉลี่ยรายเดือน (x) ลดลง 1 องศา จำนวนโรคติดเชื้อและโรคหวัดโดยเฉลี่ย (y) ในช่วงฤดูใบไม้ร่วง-ฤดูหนาวจะเปลี่ยนไป 1.8 ราย - สมการถดถอย. y = M y + R y/x (x - M x)
โดยที่ y คือค่าเฉลี่ยของคุณลักษณะซึ่งควรพิจารณาเมื่อค่าเฉลี่ยของคุณลักษณะอื่นเปลี่ยนแปลง (x)
x คือค่าเฉลี่ยที่ทราบของคุณลักษณะอื่น
R y/x - สัมประสิทธิ์การถดถอย;
M x, M y - ค่าเฉลี่ยที่ทราบของลักษณะ x และ yตัวอย่างเช่น สามารถกำหนดจำนวนเฉลี่ยของโรคติดเชื้อและโรคหวัด (y) ได้โดยไม่ต้องมีการวัดพิเศษที่ค่าเฉลี่ยใดๆ ของอุณหภูมิอากาศเฉลี่ยรายเดือน (x) ดังนั้น ถ้า x = - 9°, R y/x = 1.8 โรค, M x = -7°, M y = 20 โรค ดังนั้น y = 20 + 1.8 x (9-7) = 20 + 3 .6 = 23.6 โรคต่างๆ
สมการนี้ใช้ในกรณีของความสัมพันธ์เชิงเส้นระหว่างสองคุณลักษณะ (x และ y) - วัตถุประสงค์ของสมการถดถอย. สมการถดถอยใช้ในการสร้างเส้นถดถอย อย่างหลังช่วยให้สามารถหาค่าเฉลี่ย (y) ของคุณลักษณะหนึ่งได้ โดยไม่ต้องมีการวัดพิเศษ ถ้าค่า (x) ของคุณลักษณะอื่นเปลี่ยนแปลงไป จากข้อมูลเหล่านี้ กราฟจะถูกสร้างขึ้น - เส้นถดถอยซึ่งสามารถใช้เพื่อกำหนดจำนวนหวัดเฉลี่ยที่ค่าใด ๆ ของอุณหภูมิเฉลี่ยรายเดือนภายในช่วงระหว่างค่าที่คำนวณได้ของจำนวนหวัด
- การถดถอยซิกมา (สูตร).
โดยที่ σ Rу/х - ซิกมา (ส่วนเบี่ยงเบนมาตรฐาน) ของการถดถอย
σ y - ส่วนเบี่ยงเบนมาตรฐานของคุณลักษณะ y;
r xy - สัมประสิทธิ์สหสัมพันธ์ระหว่างคุณลักษณะ x และ yดังนั้นถ้า σ y - ส่วนเบี่ยงเบนมาตรฐานของจำนวนโรคหวัด = 8.65; r xy - ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างจำนวนหวัด (y) และอุณหภูมิอากาศเฉลี่ยรายเดือนในช่วงฤดูใบไม้ร่วง - ฤดูหนาว (x) เท่ากับ - 0.96 จากนั้น
- การมอบหมายซิกมาการถดถอย. ให้คำอธิบายการวัดความหลากหลายของลักษณะผลลัพธ์ (y)
ตัวอย่างเช่นแสดงลักษณะความหลากหลายของจำนวนหวัดที่ค่าหนึ่งของอุณหภูมิอากาศเฉลี่ยรายเดือนในช่วงฤดูใบไม้ร่วง - ฤดูหนาว ดังนั้น จำนวนเฉลี่ยของโรคหวัดที่อุณหภูมิอากาศ x 1 = -6° อาจมีตั้งแต่ 15.78 โรค จนถึง 20.62 โรค
ที่ x 2 = -9° จำนวนโรคหวัดโดยเฉลี่ยอาจมีตั้งแต่ 21.18 โรคไปจนถึง 26.02 โรค เป็นต้นซิกมาการถดถอยใช้ในการสร้างมาตราส่วนการถดถอยซึ่งสะท้อนถึงความเบี่ยงเบนของค่าของลักษณะผลลัพธ์จากค่าเฉลี่ยที่ลงจุดบนเส้นการถดถอย
- ข้อมูลที่จำเป็นในการคำนวณและพล็อตระดับการถดถอย
- สัมประสิทธิ์การถดถอย - R у/х;
- สมการการถดถอย - y = M y + R y/x (x-M x);
- การถดถอยซิกมา - σ Rx/y
- ลำดับของการคำนวณและการแสดงภาพกราฟิกของมาตราส่วนการถดถอย.
- กำหนดค่าสัมประสิทธิ์การถดถอยโดยใช้สูตร (ดูย่อหน้าที่ 3) ตัวอย่างเช่น มีความจำเป็นต้องกำหนดว่าน้ำหนักตัวจะเปลี่ยนแปลงโดยเฉลี่ยเท่าใด (ในช่วงอายุหนึ่ง ๆ ขึ้นอยู่กับเพศ) หากความสูงเฉลี่ยเปลี่ยนแปลง 1 ซม.
- ใช้สูตรสมการถดถอย (ดูจุดที่ 4) กำหนดว่าน้ำหนักตัวจะเป็นค่าเฉลี่ย (y, y 2, y 3 ... ) * สำหรับค่าความสูงที่แน่นอน (x, x 2, x 3 . ..) .
________________
* ควรคำนวณค่าของ "y" สำหรับค่าที่รู้จักของ "x" อย่างน้อยสามค่าในเวลาเดียวกันจะทราบค่าเฉลี่ยของน้ำหนักและส่วนสูงของร่างกาย (M x และ M y) สำหรับอายุและเพศที่แน่นอน
- คำนวณซิกมาการถดถอยโดยทราบค่าที่สอดคล้องกันของ σ y และ r xy และแทนที่ค่าลงในสูตร (ดูย่อหน้าที่ 6)
- ขึ้นอยู่กับค่าที่ทราบ x 1, x 2, x 3 และค่าเฉลี่ยที่สอดคล้องกัน y 1, y 2 y 3 รวมถึงค่าที่เล็กที่สุด (y - σ rу/х) และใหญ่ที่สุด (y + σ rу /х) ค่า (y) สร้างมาตราส่วนการถดถอย
ในการแสดงระดับการถดถอยแบบกราฟิก ค่า x, x2, x3 (แกนกำหนด) จะถูกทำเครื่องหมายบนกราฟก่อน เช่น เส้นการถดถอยถูกสร้างขึ้น เช่น การพึ่งพาน้ำหนักตัว (y) กับส่วนสูง (x)
จากนั้นที่จุดที่สอดคล้องกัน 1, y 2, y 3 ค่าตัวเลขของซิกมาการถดถอยจะถูกบันทึกไว้เช่น บนกราฟค้นหาค่าที่เล็กที่สุดและใหญ่ที่สุดของ 1, y 2, y 3
- การใช้มาตราส่วนการถดถอยในทางปฏิบัติ. มาตราส่วนและมาตรฐานเชิงบรรทัดฐานกำลังได้รับการพัฒนา โดยเฉพาะอย่างยิ่งสำหรับการพัฒนาทางกายภาพ เมื่อใช้มาตราส่วนมาตรฐาน คุณสามารถประเมินพัฒนาการของเด็กเป็นรายบุคคลได้ ในกรณีนี้การพัฒนาทางกายภาพจะได้รับการประเมินว่ามีความสอดคล้องกันหากตัวอย่างเช่นที่ความสูงระดับหนึ่งน้ำหนักตัวของเด็กอยู่ภายในหนึ่งซิกม่าของการถดถอยไปยังหน่วยน้ำหนักตัวที่คำนวณได้โดยเฉลี่ย - (y) สำหรับความสูงที่กำหนด (x) ( y ± 1 σ Ry/x)
พัฒนาการทางร่างกายถือว่าไม่สอดคล้องกันในแง่ของน้ำหนักตัว หากน้ำหนักตัวของเด็กในส่วนสูงหนึ่งอยู่ภายในซิกมาที่สองของการถดถอย: (y ± 2 σ Ry/x)
การพัฒนาทางกายภาพจะไม่ลงรอยกันอย่างมากเนื่องจากน้ำหนักตัวที่มากเกินไปและไม่เพียงพอ หากน้ำหนักตัวสำหรับส่วนสูงหนึ่งอยู่ภายในซิกมาที่สามของการถดถอย (y ± 3 σ Ry/x)
จากผลการศึกษาทางสถิติเกี่ยวกับพัฒนาการทางกายภาพของเด็กชายอายุ 5 ขวบ เป็นที่ทราบกันว่าส่วนสูงเฉลี่ย (x) คือ 109 ซม. และน้ำหนักตัวเฉลี่ย (y) คือ 19 กก. ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างส่วนสูงและน้ำหนักตัวคือ +0.9 ส่วนเบี่ยงเบนมาตรฐานแสดงอยู่ในตาราง
ที่จำเป็น:
- คำนวณค่าสัมประสิทธิ์การถดถอย
- ใช้สมการถดถอยกำหนดว่าน้ำหนักตัวที่คาดหวังของเด็กชายอายุ 5 ขวบจะมีส่วนสูงเท่ากับ x1 = 100 ซม., x2 = 110 ซม., x3 = 120 ซม.
- คำนวณซิกมาการถดถอย สร้างมาตราส่วนการถดถอย และนำเสนอผลลัพธ์ของการแก้ปัญหาในรูปแบบกราฟิก
- หาข้อสรุปที่เหมาะสม
เงื่อนไขของปัญหาและผลลัพธ์ของการแก้ปัญหาแสดงไว้ในตารางสรุป
ตารางที่ 1
เงื่อนไขของปัญหา | ผลลัพธ์ของการแก้ปัญหา | ||||||||
สมการถดถอย | ซิกม่าถดถอย | ระดับการถดถอย (น้ำหนักตัวที่คาดหวัง (เป็นกิโลกรัม)) | |||||||
ม | σ | r xy | ใช่/ใช่ | เอ็กซ์ | ยู | σ Rx/y | y - σ Rу/х | y + σ Rу/х | |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
ส่วนสูง (x) | 109 ซม | ±4.4ซม | +0,9 | 0,16 | 100ซม | 17.56 กก | ± 0.35 กก | 17.21 กก | 17.91 กก |
มวลกาย (ญ) | 19 กก | ± 0.8 กก | 110 ซม | 19.16 กก | 18.81 กก | 19.51 กก | |||
120 ซม | 20.76 กก | 20.41 กก | 21.11 กก |
สารละลาย.
บทสรุป.ดังนั้นระดับการถดถอยภายในขอบเขตของค่าที่คำนวณได้ของน้ำหนักตัวทำให้สามารถกำหนดค่าความสูงอื่น ๆ หรือประเมินพัฒนาการของเด็กแต่ละคนได้ เมื่อต้องการทำเช่นนี้ ให้คืนค่าตั้งฉากกับเส้นถดถอย
- วลาซอฟ วี.วี. ระบาดวิทยา. - อ.: GEOTAR-MED, 2547. - 464 หน้า
- ลิซิทซิน ยู.พี. สาธารณสุขและการดูแลสุขภาพ หนังสือเรียนสำหรับมหาวิทยาลัย - อ.: GEOTAR-MED, 2550. - 512 หน้า
- Medic V.A., Yuryev V.K. หลักสูตรการบรรยายด้านสาธารณสุขและการดูแลสุขภาพ ตอนที่ 1 สาธารณสุข - อ.: แพทยศาสตร์, 2546. - 368 หน้า
- Minyaev V.A. , Vishnyakov N.I. และอื่นๆ องค์กรเวชศาสตร์สังคมและการดูแลสุขภาพ (คู่มือ 2 เล่ม) - เซนต์ปีเตอร์สเบิร์ก 2541 -528 หน้า
- Kucherenko V.Z., Agarkov N.M. และอื่น ๆ องค์กรสุขอนามัยทางสังคมและการดูแลสุขภาพ (บทช่วยสอน) - มอสโก, 2000. - 432 น.
- เอส. กลานซ์. สถิติทางการแพทย์และชีววิทยา แปลจากภาษาอังกฤษ - ม., แพรกติกา, 2541. - 459 น.