Сырттан келгендерди кантип аныктаса болот: 10 кадам (сүрөттөр менен)

Мазмуну:

Сырттан келгендерди кантип аныктаса болот: 10 кадам (сүрөттөр менен)
Сырттан келгендерди кантип аныктаса болот: 10 кадам (сүрөттөр менен)

Video: Сырттан келгендерди кантип аныктаса болот: 10 кадам (сүрөттөр менен)

Video: Сырттан келгендерди кантип аныктаса болот: 10 кадам (сүрөттөр менен)
Video: ЭРКЕКТЕР ҮЧҮН | ЖАШ БАЛАДАЙ ЭМЕС, ЧЫНЫГЫ МЫРЗАЛАРДАЙ КИЙИН. 2024, Май
Anonim

Статистикада, сырткы же "сырткы" - бул маалыматтын үлгүсүнүн же топтомунун ичиндеги башка маалыматтардан абдан алыс четтеп кетүүчү маалымат (маалыматтардын жыйындысы маалыматтар деп аталат). Көбүнчө, маалымат топтомундагы сырткы көрсөткүч статистикке аномалдык же эксперименталдык каталар жөнүндө эскертүү катары кызмат кылышы мүмкүн, бул статистиканы маалымат топтомунан тышкаркы бөлүгүн алып салууга алып келиши мүмкүн. Эгерде статист статистикадан тышкаркы маалыматтарды алып салса, изилдөөнүн жыйынтыктары такыр башкача болушу мүмкүн. Демек, статистикалык маалымат топтомун туура түшүнүүнү камсыз кылуу үчүн четтөөлөрдү эсептөөнү жана талдоону билүү абдан маанилүү.

Кадам

Чыгымдарды эсептөө 1 -кадам
Чыгымдарды эсептөө 1 -кадам

Кадам 1. Потенциалдуу чексиз даталарды кантип аныктоону үйрөнүңүз

Чет өлкөлүк даталарды берилиштер топтомунан алып салуу же жок кылууну чечүүдөн мурун, албетте, кайсы датумдардын чектен чыгып кетүү мүмкүнчүлүгү бар экенин аныкташыбыз керек. Жалпысынан алганда, сырткы маалымат - бул бир маалымат топтомундагы башка маалыматтардан абдан алыс четтеп кетүүчү маалымат, башкача айтканда, башка маалыматтардын "сыртында". Маалымат таблицасында же (атап айтканда) графикте четтөөлөрдү аныктоо оңой. Эгерде бир маалымат топтому графикалык түрдө визуалдуу түрдө сүрөттөлсө, сырткы маалымат башка маалыматтардан "өтө алыс" болуп көрүнөт. Эгерде, мисалы, берилиштер топтомундагы маалыматтардын көпчүлүгү түз сызык түзсө, сырткы маалымат бул сызыкты түзүү катары негиздүү чечмеленбейт.

Келгиле, бир бөлмөдө 12 түрдүү нерсенин температурасын чагылдырган маалымат топтомун карап көрөлү. Эгерде 11 нерсенин температурасы болжол менен 70 Фаренгейт (21 градус Цельсий) болсо, ал эми 12 -объект, мештин температурасы 300 Фаренгейт (150 градус Цельсий) болсо, мештин температурасы абдан ыктымал экенин дароо көрүүгө болот сырткы

Чыгымдарды эсептөө 2 -кадам
Чыгымдарды эсептөө 2 -кадам

Кадам 2. Датумдарды эң төмөнкүдөн эң жогоруга карай топтомго жайгаштырыңыз

Маалыматтар топтомунда четтөөлөрдү эсептөөнүн биринчи кадамы - бул маалымат топтомунун медианасын (орточо маанисин) табуу. Эгерде маалыматтар топтомундагы маалыматтар эң кичинесинен чоңуна чейин жайгашса, бул тапшырма өтө жөнөкөй болуп калат. Ошентип, улантуудан мурун, дайындарды ушундай бир маалымат топтомуна иреттеңиз.

Жогорудагы мисалды уланталы. Бул биздин бөлмөдөгү бир нече объекттердин температурасын чагылдырган маалымат топтому: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Датумдарды эң төмөнкүдөн жогору карай иреттей турган болсок, маалыматтардын тартиби төмөнкүдөй болот: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Чыгымдарды эсептөө 3 -кадам
Чыгымдарды эсептөө 3 -кадам

3 -кадам. Датум топтомунун медианасын эсептөө

Маалыматтар топтомунун медианасы - бул маалыматтын экинчи жарымы ошол маалыматтын үстүндө, ал эми калган жарымы анын астында жайгашкан - негизи, бул маалымат - бул маалымат топтомунун "ортосунда" жайгашкан пункт. Эгерде берилиштер топтомундагы берилиштердин саны так болсо, анда аны табуу өтө оңой - медианасы - анын үстүндө жана астында бирдей санга ээ болгон маалымат. Бирок, эгерде берилиштер топтомундагы маалыматтардын саны жуп болсо, анда эч ким ортого туура келбегендиктен, ортодогу 2 маалымат орточо табылат. Белгилей кетүү керек, четтөөлөрдү эсептөөдө медиананын адатта Q2-ni өзгөрмөсү ыйгарылат, анткени Q2 Q1 менен Q3 ортосунда, төмөнкү жана жогорку төрттүн ортосунда болот, аны биз кийинчерээк талкуулайбыз.

  • Датумдардын саны жуп болгон маалымат топтому менен чаташтырбоо керек-2 орто маалыматтын орточо көрсөткүчү көбүнчө маалымат топтомунда жок санды кайтарып берет-бул жакшы. Бирок, эгерде 2 орто маалымат бирдей сан болсо, анда орточо, албетте, ошол эле сан болот, бул дагы жакшы.
  • Жогорудагы мисалда бизде 12 маалымат бар. 2 орто маалымат 6 жана 7-датумдар болуп саналат-70 жана 71. Ошентип, биздин маалымат топтомубуздун медианасы бул 2 сандын орточосу: ((70 + 71) / 2), = 70.5.
Чыгымдарды эсептөө 4 -кадам
Чыгымдарды эсептөө 4 -кадам

Кадам 4. Төмөнкү квартилди эсептөө

Q1 өзгөрмөсүн берген бул маани, маалыматтардын 25 пайызын (же төрттөн бир бөлүгүн) билдирет. Башкача айтканда, бул медианадан төмөн болгон датумдарды экиге бөлүүчү маалымат. Эгерде медианадан ылдыйкы маалыматтардын саны жуп болсо, анда медиананын өзүн тапкандай эле, Q1ди табуу үчүн ортодогу 2 маалыматтын орточо көрсөткүчүн кайра калыбына келтирүү керек.

Биздин мисалда медиананын үстүндө жаткан 6 маалымат бар, ал эми медиананын астында 6 датум бар. Бул төмөнкү квартилди табуу үчүн медианадан ылдый 6 датумдун ортосунда 2 датумду орточо эсепке алуубуз керек дегенди билдирет. Орточо астындагы 6 датумдун үчүнчү жана төртүнчү датумдары экөө тең 70. Демек, орточо ((70 + 70) / 2), = 70. 70 биздин Q1 болуп калат.

Чыгымдарды эсептөө 5 -кадам
Чыгымдарды эсептөө 5 -кадам

Кадам 5. Жогорку квартилди эсептөө

Биз Q3 өзгөрмөсүн берген бул маани, маалымат топтомунда 25 пайыз маалыматтар бар. Q3 табуу Q1 табуу менен дээрлик окшош, бирок бул учурда биз медианадан төмөн эмес, медиананын үстүндөгү маалыматтарды карап жатабыз.

Жогорудагы мисалды улантсак, медиананын үстүндөгү 6 датумдун ортосундагы 2 датум 71 жана 72. Бул 2 маалыматтын орточо көрсөткүчү ((71 + 72)/2), = 71, 5. 71, 5 биздин Q3 болуп саналат.

Чыгымдарды эсептөө 6 -кадам
Чыгымдарды эсептөө 6 -кадам

Кадам 6. Кварталдар аралык аралыкты табыңыз

Азыр биз Q1 жана Q3 таптык, биз бул эки өзгөрмөнүн ортосундагы аралыкты эсептешибиз керек. Q1ден Q3кө чейинки аралык Q3төн Q1ди алып салуу менен табылат. Чек аралык аралыктар үчүн алган баалуулуктар, маалымат топтомуңуздагы сырткы эмес маалыматтардын чектерин аныктоо үчүн абдан маанилүү.

  • Биздин мисалда Q1 жана Q3 баалуулуктарыбыз 70 жана 71, 5. Кварталдык аралыкты табуу үчүн Q3 - Q1 = 71.5 - 70 = алып салабыз. 1, 5.
  • Белгилей кетүү керек, бул Q1, Q3 же экөө тең терс сандар болгон күндө да туура. Мисалы, эгерде биздин Q1 маанибиз -70 болсо, биздин кварталдар аралык туура аралык 71.5 -(-70) = 141, 5 болмок.
Чыгымдарды эсептөө 7 -кадам
Чыгымдарды эсептөө 7 -кадам

Кадам 7. Датум топтомунан "ички тосмону" табыңыз

Берилиштер "ички тосмо" жана "тышкы тосмо" деп аталган сандардын чегине кирерин текшерүү аркылуу табылат. Берилиштер топтомунун ички тосмосунун сыртына түшкөн маалымат "кичине сырткы" деп аталат, ал эми сырткы тосмодон тышкары түшкөн маалымат "негизги сырткы" деп аталат. Датум топтомуңуздагы ички тосмону табуу үчүн, биринчи кезекте аралык аралыкты 1, 5ке көбөйтүңүз. Андан кийин жыйынтыкты Q3кө кошуп, аны Q1ден алып салыңыз. Сиз алган эки баалуулук - бул маалымат топтомунун ички тосмосунун чектери.

  • Биздин мисалда, кварталдар аралык аралык (71.5 - 70), же 1.5. 1.5ти 1.5ке көбөйтсөк 2.25 чыгат. Биз бул санды Q3кө кошобуз жана Q1ди ушул санга чыгарып, ички тосмонун чектерин табабыз:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Ошентип, биздин ички тосмонун чектери 67, 75 жана 73, 75.
  • Биздин маалымат топтомубузда мештин температурасы 300 Фаренгейт - бул чектерден тышкары, андыктан бул маалымат анча чоң эмес. Бирок, биз дагы эле бул температуранын негизги айырмачылык экенин эсептей элекпиз, андыктан эсептөөлөрүбүздү бүтмөйүнчө жыйынтык чыгарууга шашпаңыз.

    Чыгымдарды эсептөө 7 -кадамBullet2
    Чыгымдарды эсептөө 7 -кадамBullet2
Чыгымдарды эсептөө 8 -кадам
Чыгымдарды эсептөө 8 -кадам

Кадам 8. Датум топтомунан "сырткы тосмону" табыңыз

Бул ички тосмону табуу сыяктуу эле жасалат, бирок чейрек аралык аралык 1,5 эмес, 3кө көбөйтүлөт. Ошондон кийин жыйынтык Q3кө кошулат жана Q1ден алынып, сырткы тосмонун жогорку жана төмөнкү чектерин табат.

  • Биздин мисалда, кварталдар аралык аралыкты 3кө көбөйтүү (1, 5 x 3), же 4, 5 берет. Сырткы тосмонун чектерин мурдагыдай эле табабыз:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Сырткы тосмонун чектери болуп саналат 65.5 жана 76.
  • Сырткы тосмонун чегинен тышкары жайгашкан маалыматтар чоң сырткы деп аталат. Бул мисалда, мештин температурасы, 300 Фаренгейт, сырткы тосмонун сыртында экени анык, андыктан бул маалымат "албетте" негизги айырмачылык.

    Чыгымдарды эсептөө 8 -кадамBullet2
    Чыгымдарды эсептөө 8 -кадамBullet2
Чыгымдарды эсептөө 9 -кадам
Чыгымдарды эсептөө 9 -кадам

9 -кадам. Сырткы датаны "жок кылуу" керекпи же жокпу аныктоо үчүн сапаттуу ой жүгүртүүнү колдонуңуз

Жогоруда сүрөттөлгөн ыкманы колдонуу менен, маалыматтын кичине маалымат, негизги маалымат же такыр башкача эместигин аныктоого болот. Бирок, ката кетирбеңиз - маалыматтын сырткы көрүнүшү катары табуу "даттануучу" катары белгилейт, бул "жокко чыгарылышы керек" катары эмес. Берилиштер топтомундагы башка маалыматтардан четтеп кетишине себеп болгон "себеп", аны жок кылууну же жок кылууну аныктоодо абдан маанилүү. Жалпысынан алганда, мисалы, өлчөө, жазуу же эксперименталдык пландоодо катачылыктан улам пайда болгон сырткы көрүнүш жокко чыгарылышы мүмкүн. Башка жагынан алганда, катадан улам пайда болбогон жана мурда болжолдонбогон жаңы маалыматты же тенденцияларды көрсөткөн четтөөлөр, адатта, "жокко чыгарылбайт".

  • Дагы бир критерий - бул маалыматтын жыйындысына чоң таасир тийгизеби, башкача айтканда, аны чаташтырып же туура эмес кылып көрсөтөбү. Бул сиздин маалымат топтомуңуздун орточо жыйынтыгын чыгаргыңыз келсе, эске алуу өтө маанилүү.
  • Келгиле, биздин мисалды изилдеп көрөлү. Бул мисалда, мештин күтүлбөгөн жаратылыш күчтөрү аркылуу 300 Фаренгейтке жеткени "өтө" мүмкүн эместей көрүнгөндүктөн, биз мештин кокусунан күйүп калганын жана натыйжада жогорку температуранын аномалиясына алып келгенин дээрлик ишеним менен жыйынтыктай алабыз. Ошондой эле, эгерде биз сырткы белгилерди алып салбасак, анда биздин маалыматтын орточо мааниси (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 Фаренгейт (Цельсий боюнча 32 градус)), ал эми сырткы көрсөткүчтөрдү алып салсак, орточо (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 Фаренгейт (Цельсий боюнча 21 градус).

    Бул четтөөлөр адамдын катасынан улам келип чыккандыктан жана бөлмөдө орточо температура 90 Фаренгейтке (32 градуска) жетет деп айтуу туура эмес болгондуктан, биз өзүбүздүн сырткы сапаттарыбызды "ыргытып" салганыбыз оң

Чыгымдарды эсептөө 10 -кадам
Чыгымдарды эсептөө 10 -кадам

10 -кадам. Чет жерлерди сактоонун маанилүүлүгүн (кээде) билиңиз

Кээ бир четтөөлөр ката кетиргендиктен жана/же жыйынтыктарды так эмес же ката кетиргендиктен, берилиштер топтомунан алынып салынышы керек болсо да, кээ бир четтөөлөр сакталууга тийиш. Эгерде, мисалы, сырткы көрүнүшү табигый жол менен алынган көрүнөт (башкача айтканда, катанын натыйжасы эмес) жана/же изилденип жаткан кубулушка жаңы көз карашты камсыз кылса, анда сырткы чекитти маалымат топтомунан алып салууга болбойт. Илимий изилдөө, адатта, сырткы көрсөткүчтөргө келгенде абдан сезимтал жагдай - туура эмес четтетүүлөр жаңы трендди же ачылышты көрсөткөн маалыматты жокко чыгарууну билдириши мүмкүн.

Мисалы, биз балык көлмөсүндөгү балыктын көлөмүн көбөйтүү үчүн жаңы дарыны ойлоп таптык дейли. Биз эски маалымат топтомубузду колдонобуз ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69), бирок бул жолу ар бир пункт балыктын салмагын билдирет (грамм менен) төрөлгөндөн баштап башка эксперименталдык дары берилгенден кийин. Башкача айтканда, биринчи дары бир балыктын салмагын 71 граммга, экинчи дары башка балыктын салмагын 70 граммга жеткирет ж.б. Бул учурда, 300 "дагы деле" чоң сырткы көрүнүшү, бирок биз бул маалыматты жокко чыгарбашыбыз керек, анткени ал эч кандай катасыз алынган деп болжолдонуп, бул изилдөө ийгилигин билдирет. Балыкты 300 граммга жеткире турган дары башка бардык дарыларга караганда жакшыраак иштейт, андыктан бул маалымат "эң маанилүү" эмес, "эң маанилүү" болуп саналат

Сунушталууда: