Multicollinearity (คำจำกัดความประเภท) | ตัวอย่าง 3 อันดับแรกพร้อมคำอธิบาย

Multicollinearity คืออะไร?

Multicollinearity เป็นปรากฏการณ์ทางสถิติที่ตัวแปรสองตัวขึ้นไปในแบบจำลองการถดถอยขึ้นอยู่กับตัวแปรอื่น ๆ ในลักษณะที่สามารถทำนายเชิงเส้นจากอีกตัวแปรหนึ่งด้วยความแม่นยำระดับสูง โดยทั่วไปจะใช้ในการศึกษาเชิงสังเกตและไม่ค่อยได้รับความนิยมในการศึกษาทดลอง

ประเภทของ Multicollinearity

Multicollinearity มีสี่ประเภท

# 1 - Multicollinearity ที่สมบูรณ์แบบ - เกิดขึ้นเมื่อตัวแปรอิสระในสมการทำนายความสัมพันธ์เชิงเส้นที่สมบูรณ์แบบ
# 2 - High Multicollinearity - หมายถึงความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระสองตัวหรือมากกว่าซึ่งไม่มีความสัมพันธ์กันอย่างสมบูรณ์
# 3 - โครงสร้างเชิงเส้น - สิ่งนี้เกิดจากตัวผู้วิจัยเองโดยการใส่ตัวแปรอิสระที่แตกต่างกันในสมการ
# 4 - Multicollineaarity ตามข้อมูล - เกิดจากการทดลองที่นักวิจัยออกแบบมาไม่ดี

สาเหตุของ Multicollinearity

ตัวแปรอิสระการเปลี่ยนแปลงพารามิเตอร์ของตัวแปรทำให้การเปลี่ยนแปลงเล็กน้อยในตัวแปรมีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์และการรวบรวมข้อมูลหมายถึงตัวอย่างของประชากรที่เลือก

ตัวอย่างของ Multicollinearity

ตัวอย่าง # 1

สมมติว่า ABC Ltd a KPO ได้รับการว่าจ้างจาก บริษัท ยาเพื่อให้บริการวิจัยและวิเคราะห์ทางสถิติเกี่ยวกับโรคในอินเดีย สำหรับ ABC ltd นี้ได้เลือกอายุน้ำหนักอาชีพส่วนสูงและสุขภาพเป็นพารามิเตอร์เบื้องต้น

ในตัวอย่างข้างต้นมีสถานการณ์หลายมิติเนื่องจากตัวแปรอิสระที่เลือกสำหรับการศึกษามีความสัมพันธ์โดยตรงกับผลลัพธ์ ดังนั้นจึงขอแนะนำให้ผู้วิจัยปรับเปลี่ยนตัวแปรก่อนที่จะเริ่มโครงการใด ๆ เนื่องจากผลลัพธ์จะได้รับผลกระทบโดยตรงเนื่องจากตัวแปรที่เลือกไว้ที่นี่

ตัวอย่าง # 2

สมมติว่า ABC Ltd ได้รับการแต่งตั้งจาก Tata Motors เพื่อให้เข้าใจว่าปริมาณการขายของมอเตอร์ทาทาจะสูงในหมวดหมู่ใดในตลาด

ในตัวอย่างข้างต้นตัวแปรอิสระประการแรกจะถูกสรุปตามการวิจัยที่จำเป็นต้องทำให้เสร็จ อาจเป็นรายได้ต่อเดือนอายุ แบรนด์ชั้นล่าง หมายความว่าจะมีการเลือกข้อมูลซึ่งจะพอดีกับแท็บเหล่านี้ทั้งหมดเพื่อหาจำนวนคนที่สามารถซื้อรถคันนี้ (ทาทานาโน) ได้โดยไม่ต้องมองไปที่รถคันอื่น

ตัวอย่าง # 3

สมมติว่า บริษัท ABC Ltd ได้รับการว่าจ้างให้ส่งรายงานเพื่อให้ทราบว่ามีกี่คนที่อายุต่ำกว่า 50 ปีมีแนวโน้มที่จะหัวใจวาย สำหรับสิ่งนี้พารามิเตอร์คืออายุเพศประวัติทางการแพทย์

ในตัวอย่างข้างต้นมีความเป็นหลายมิติที่เกิดขึ้นเนื่องจากตัวแปรอิสระ“ อายุ” ต้องได้รับการปรับแต่งให้มีอายุต่ำกว่า 50 ปีสำหรับการเชิญแอปพลิเคชันจากสาธารณะเพื่อให้บุคคลที่มีอายุมากกว่า 50 ปีถูกกรองโดยอัตโนมัติ

ข้อดี

ด้านล่างนี้คือข้อดีบางประการ

ความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระในสมการ
มีประโยชน์มากในแบบจำลองทางสถิติและรายงานการวิจัยที่จัดทำโดย บริษัท วิจัย
ส่งผลโดยตรงต่อผลลัพธ์ที่ต้องการ

ข้อเสีย

ด้านล่างนี้คือข้อเสียบางประการ

ในบางสถานการณ์ปัญหานี้จะได้รับการแก้ไขโดยการรวบรวมข้อมูลเพิ่มเติมเกี่ยวกับตัวแปร
การใช้ตัวแปรดัมมี่อย่างไม่ถูกต้องเช่นผู้วิจัยอาจลืมใช้ตัวแปรดัมมี่เมื่อจำเป็น
การแทรกตัวแปรที่เหมือนกันหรือเหมือนกัน 2 ตัวในสมการเช่น kg และ lbs ในน้ำหนัก
การแทรกตัวแปรในสมการซึ่งเป็นการรวมกันของ 2
ซับซ้อนในการคำนวณเนื่องจากเป็นเทคนิคทางสถิติและต้องใช้เครื่องคำนวณทางสถิติในการดำเนินการ

สรุป

Multicollinearity เป็นเครื่องมือทางสถิติที่ได้รับความนิยมมากที่สุดซึ่งมักใช้ในการวิเคราะห์การถดถอยและการวิเคราะห์ทางสถิติสำหรับฐานข้อมูลขนาดใหญ่และผลลัพธ์ที่ต้องการ บริษัท ยักษ์ใหญ่ทุกแห่งมีแผนกสถิติแยกกันใน บริษัท ของตนเพื่อทำการวิเคราะห์การถดถอยทางสถิติเกี่ยวกับผลิตภัณฑ์หรือบุคคลเพื่อให้มุมมองเชิงกลยุทธ์ของตลาดแก่ผู้บริหารและยังช่วยให้พวกเขาร่างกลยุทธ์ระยะยาวโดยคำนึงถึงเรื่องนี้ การนำเสนอแบบกราฟิกของการวิเคราะห์ช่วยให้ผู้อ่านเห็นภาพที่ชัดเจนของความสัมพันธ์โดยตรงความถูกต้องและประสิทธิภาพ

หากเป้าหมายของนักวิจัยคือการเข้าใจตัวแปรอิสระในสมการความสัมพันธ์เชิงเส้นหลายมิติจะเป็นปัญหาใหญ่สำหรับเขา
ผู้วิจัยต้องทำการเปลี่ยนแปลงที่จำเป็นในตัวแปรในระยะ 0 เองมิฉะนั้นอาจมีผลกระทบอย่างมากต่อผลลัพธ์
Multicollinearity ทำได้โดยการตรวจสอบเมทริกซ์สหสัมพันธ์
มาตรการแก้ไขมีบทบาทสำคัญในการแก้ปัญหาสำหรับความหลากหลายทางธุรกิจ