Informație

Cum se găsesc sferturile superioare și inferioare ale scării Ryff?

Cum se găsesc sferturile superioare și inferioare ale scării Ryff?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Am primit această întrebare prin e-mail și am crezut că răspunsul ar putea fi suficient de general pentru a merita postat aici.

Am folosit scala Ryff în cercetările mele. De fapt, sunt confuz cu privire la scor. Scorul minim posibil este 54 și scorul maxim 324. Am calculat acest lucru după inversarea articolelor formulate negativ. Autorul scalei mi-a trimis prin poștă spunând că scala nu are punctaje de tăiere, trebuie să considerați 25% superioară ca fiind un nivel superior de bunăstare psihologică, iar scorurile din 25% inferior ca o bună stare psihologică slabă.

Cum aș găsi 25% superior și inferior (cred că se numește Quartile) din doar scorul minim și maxim pe scară?


Obținerea quartilelor: De obicei, obțineți quartile din date. Astfel, veți avea date eșantion (fie setul dvs. de date sau alt set de date) și puteți utiliza software-ul pentru a vă oferi percentile .25 și .75 (sau, alternativ, puteți obține astfel de valori destul de simplu prin ordonarea datelor).

Desigur, s-ar putea să vă referiți la o noțiune ușor diferită de quartile. S-ar putea să vă gândiți la scoruri scăzute și ridicate în raport cu domeniul scalei. De exemplu, punctul de mijloc al scării de la 1 la 5 este 3. Prin urmare, ați putea spune că o medie sub 3 sugerează că oamenii sunt sub punctul de mijloc pe o scală. Această idee poate fi ușor extinsă la alte percentile din gama de scări.

Ecuația de bază ar putea fi exprimată după cum urmează:

min + percentilă * (max - min)

Undemineste scara minimă șimaxeste scara maximă șipercentilăeste percentila de interes (de exemplu .25 și .75 în cazul dvs. sau spuneți .5 pentru punctul mediu).

Aplicând acest lucru veți obține

54 + .25 * (324 - 54) = 121.5 54 + .75 * (324-54) = 256.5

pentru tăierile mici și mari.

Desigur, există tot felul de discuții pe care le-ați putea avea dacă întregul proces este rezonabil și, în general, ar trebui să încercați să utilizați scala continuă pentru analize.


3 Răspunsuri 3

Puteți verifica Wan și colab. (2014) *. Se bazează pe Bland (2014) pentru a estima acești parametri în funcție de rezumatele de date disponibile. Vezi scenariul C3 în lucrarea lor:

sau, dacă aveți dimensiunea eșantionului:

unde $ q_ <1> $ este prima quartilă, $ m $ mediana, $ q_ <3> $ este a treia quartilă și $ Phi ^ <-1> (z) $ z percentila superioară a standardului distributie normala.

* Wan, Xiang, Wenqian Wang, Jiming Liu și Tiejun Tong. 2014. „Estimarea eșantionului mediu și deviația standard de la dimensiunea eșantionului, mediană, interval și / sau interval intercuartil.” BMC Metodologia cercetării medicale 14 (135). doi: 10.1186 / 1471-2288-14-135.


Ar trebui să folosesc interpolare atunci când găsesc mediană și quartile?

Sunt student la matematică S1 (Edexcel) AS în Marea Britanie. Întrebarea mea: Spuneți că avem o diagramă tulpină și frunză cu 26 valori. Vrem să găsim quartila inferioară. Pentru a obține notele pentru specificațiile noastre, trebuie să găsim a [[n + 1) / 2] a treia valoare. Aceasta este valoarea a 6,75.

Deci, folosesc interpolare pentru a găsi valoarea menționată:

A 6-a valoare + (0,75 * diferență între a 7-a și a 6-a valoare) = valoarea quartilei inferioare.

Dar manualul meu S1 spune că ar trebui să rotunjești 6,75-7 și să dai doar a 7-a valoare ca răspuns.

Deci: ar trebui să folosesc interpolare sau aproximare.


2 Răspunsuri 2

Limitele cutiei se află la balamalele superioare și inferioare, ceea ce poate fi considerat o definiție specială a eșantionului de quartile superioare și inferioare.

Este destul de ușor ca mijloacele de eșantion să cadă deasupra quartilei superioare sau sub quartila inferioară. Rețineți în special că, dacă aveți câteva observații mari, care pot trage media în sus, fără a afecta deloc quartile. (Eșantioanele în care acest lucru tinde să se întâmple ar fi de obicei descrise ca înclinate - în mod specific, atunci când aveți suficiente valori mari pentru a trage media deasupra quartilei superioare, de obicei le-ați descrie drept înclinare dreaptă.)

Uitați ce se întâmplă cu aceste 9 numere ca eșantion:

Balama inferioară este 3, balama superioară este 7 și media și mediana sunt ambele 5. Acum mutați cele două observații cele mai mari până la 13 și 23 (să zicem)

Acum, mediana și balamalele / quartile sunt la fel ca înainte (3,5,7), dar media este acum chiar peste 7, deci ar cădea în afara casetei.

[Graficul cutiei eșantionului superior este simetric, deci media este chiar în mijloc. Graficul inferior al cutiei a avut cele două cele mai mari valori deplasate în sus, ceea ce afectează media și acum pare a fi înclinat la dreapta, într-un mod care lasă media „în afara cutiei”. În mod similar, dacă cele mai mici valori ar fi suficient de scăzute, ar putea trage media sub casetă.]

Dacă mutați cele mai mari două observații (sau chiar cea mai mare) mai sus, media poate fi trasă cât de departe doriți de casetă - poate fi orice număr de intervale intercuartile deasupra quartilei superioare. Mediana și balamalele (/ quartile) nu sunt afectate de valori extreme (atâta timp cât nu există mai mult de $ lfloor (n-1) / 4 rfloor $ din ele), dar cu siguranță media este.


Interacțiunile cititorului

Comentarii

Buna ziua domnule. Postarea ta a fost foarte perspicace pentru mine. Vreau să evaluez importanța percepută & # 8220 & # 8221 a variabilei X în studiul meu pe baza scării Likert în 5 puncte. Vreau să clasific scorurile în trei grupuri- & # 8216Foarte important & # 8217, & # 8216Despre important & # 8217 și & # 8216Mai puțin important & # 8217. Plănuiesc să folosesc scoruri percentile în acest scop. Pot folosi percentila 33 și 66 ca scoruri tăiate pentru clasificarea scorurilor sau există vreo altă modalitate de a determina intervalul limită?

Dacă o diagramă de date arată că scorul 62 echivalează cu a 10-a percentilă, cum s-ar putea găsi la ce echivalează scorul de 55 în percentilă fără a avea un set întreg de date? Informațiile furnizate sunt următoarele:

Deci, dacă un student obține 55 de puncte, cu ce percentilă ar echivala asta? Există o modalitate de a rezolva acest lucru pe baza acestor informații.?

90% = 161
75%= 137
50%= 97
25%= 79
10%= 62

Este aceasta formula utilizată pentru a calcula rangul percentilelor într-un joc March Madness Bracket Challenge? Au existat 14,7 milioane de paranteze înscrise în ESPN & # 8217s Tournament Challenge pentru turneul NCAA din acest an (2021). Dacă te clasezi în percentila 25, înseamnă că rangul tău este
rang = p (n + 1),
= .25(14,700,000+1)
= 3,675,000.25.

Ce înseamnă asta să spun că din 14,7 milioane, când m-am clasat în percentila 25, am clasat aproximativ 3.675.000 din 14,7 milioane? Orice ajutor este apreciat.

Cum pot interpreta rezultatele percentilelor 75, 50 și 24?

Această postare conține răspunsurile la întrebările dvs. Căutați printre primele paragrafe și veți ști cum să interpretați toate percentilele.

Într-un manuscris publicat, (Modern Analytical Facilities 2. A Review of Quality Assurance and Quality Control)
(QA / QC) Proceduri pentru datele litogeochimice, Stephen J. Piercey), am văzut ceva numit ca factor percentilic (PF). Vă rog să-mi dați calea de calcul?

Mulțumesc foarte mult. Este cel mai util.

Vă mulțumesc foarte mult pentru articol și explicație.
Lucrez cu multe instrumente care măsoară funcționarea comportamentală și emoțională la oameni. Scorurile T și percentilele sunt valori comune aici. Încerc totuși să înțeleg de ce percentilele furnizate de dezvoltatorii de instrumente diferă între unele instrumente atunci când le punem împotriva scorurilor T. Deci, un scor T de let & # 8217s spune că 56 ar corespunde cu percentila 78, în timp ce pe alte instrumente același T de 56 ar corespunde cu percentila 73. Se datorează abordării utilizate pentru calcularea acestora?

Bună Alexandra, așa cum arăt în această postare pe blog, există diferite moduri de a calcula percentilele care oferă răspunsuri ușor diferite. Și există și un mod suplimentar pe care nu-l arăt în această postare, care utilizează distribuții de probabilitate, cum ar fi distribuția t. Instrumentele trebuie să utilizeze diferite metode de calcul.

Vă mulțumesc foarte mult pentru sfaturile excelente, care mă ghidează spre o analiză foarte bună a problemei. Puteți să-mi sugerați orice literatură în care să citesc despre percentilele brute? Deoarece aud acest termen pentru prima dată.

Percentilele sunt concepte de bază atât de mari încât mă îndoiesc că voi avea nevoie de o referință pentru. Dacă faceți acest lucru, cele mai multe introduceri în cărțile de statistici le vor acoperi. Știu că acoper percentilele în cartea mea introductivă. Oh, am observat că tu întrebi despre percentile, și mă refer doar la modelarea percentilelor, în loc să le transformi în grupări. Când aveți date continue, de obicei este mai bine să le analizați ca date continue, mai degrabă decât să le convertiți în date categorice sau ordinale, deoarece aruncați informații.

O altă abordare mi se întâmplă. Puteți încerca să modelați percentilele așa cum am descris. De asemenea, puteți efectua regresia Poisson deoarece aveți de-a face cu date de numărare. Aveți nevoie de o variabilă de expunere, care să țină cont de diferitele populații din județe.

Buna Jim,
Am date cumulative de cazuri COVId-19 pentru 3000 de județe din toată SUA până la 31 decembrie. La fel, am două coloane, în coloana Fist, am numele județelor și în a doua coloană am cazuri COVID-19 în acele județele până la 31 decembrie. Trebuie să împart cazurile în număr scăzut, mediu și mare de cazuri folosind percentile și decât să efectuez regresia logistică ordinală. Alegerea naturală este de 0-33 de procente-cazuri scăzute, 33-66 de procente-medii, mai mare de 66 de cazuri percentile-ridicate. Când aleg această diviziune și realizez regresia logistică ordinală în MINITAB, obțin o valoare slabă a probabilității jurnalului. Valoarea probabilității jurnalului devine continuă bună pe măsură ce cresc percentila inițială. De exemplu, când merg pentru 0-80 percentile (cazuri mici), 80-95 percentile (cazuri medii) și mai mare de 95 percentile (cazuri mari), I obțin o valoare relativ bună a probabilității jurnalului. Valoarea probabilității jurnalului se va îmbunătăți în continuare dacă măresc percentila inițială, dar care ar putea fi justificarea pentru acest lucru?

Aici mă frapează că ceea ce ar putea fi percentilele logice aici pentru a împărți datele, ceea ce poate fi justificat.

Îmi pare rău pentru întrebarea lungă

Justificarea unde se fac diviziunile este o problemă dificilă. Nu cunosc subiectul suficient de bine pentru a vă oferi un răspuns concret. Ați putea verifica literatura de specialitate pentru a vedea dacă cineva a conceput o schemă și cum o justifică. Pe de o parte, este extraordinar ca al doilea sistem pe care l-ați conceput să funcționeze mai bine. Cu toate acestea, nu doriți să fiți scheme de cules de cireșe pe baza a ceea ce vă oferă rezultate mai bune de analiză! Prin întrebarea dvs., se pare că ați aprecia această preocupare.

O soluție ar putea fi utilizarea percentilelor brute și potrivirea fie a unui model OLS, fie a modelului neliniar, în funcție de ceea ce oferă o potrivire mai bună a percentilelor brute. Modelele câștigate nu recunosc defectele la 0 și 100, dar s-ar putea să vă ofere o potrivire mai bună decât conceperea unor categorii artificiale. Probabil că este cel mai bine să evitați întreaga întrebare cu privire la conceperea totală a categoriilor utilizând percentilele brute. Mă uit măcar la această abordare.

De asemenea, dacă rămâneți cu regresie ordinală, încercați celelalte funcții de legătură. Minitab folosește implicit Logit. Cu toate acestea, puteți schimba acest lucru în dialogul Opțiuni. Puteți vedea dacă vă oferă o potrivire mai bună. De asemenea, puteți încerca să includeți interacțiune și termeni polinomiali dacă au sens. Dar, din nou, luați în considerare utilizarea percentilelor brute și evitați crearea de date ordinale. Unele date sunt inerent ordinale și nu aveți niciun recurs. Cu toate acestea, aici aveți date mai bune și ar trebui să încercați să le utilizați!

domnule, spuneți-mi câte percentile pot calcula pentru acest set de date52 57 62 62 62 62 65 66 67 68 68 68 69 69 69 71 71 72 72 73 74 74 75 75 75 76 76 78 79 79 79 80 80 82 83 85 88 89 91 93 97 97 97 98 99 101 104 105 105 109.

Nu sunt 100% sigur ce îmi ceri. Dacă vă întrebați câte percentile diferite puteți calcula pentru acel set de date, puteți calcula tehnic un număr infinit de percentile care va varia de la 0 la 100. Este un număr infinit, deoarece puteți calcula percentila 82.454, percentila 92.36456, etc. Există un număr infinit de percentile pe care le-ați putea calcula.

Mulțumiri. Aveau ceea ce numeau un grup de comparație a celor care nu aveau, dar potrivirea a fost cam dezactivată în umila mea părere. Inutil să spunem că cei care nu primesc ajutor de specialitate s-au îmbunătățit și depind de grad și de alți factori. Au fost câștiguri & # 8216modest & # 8217 când a fost implicat un specialist. Obiecția mea este că nu există o diferență prea mare în ceea ce privește scorurile reale, dacă doriți între percentila a 10-a și a 18-a și faptul că nu au raportat înseamnă, s.d. și # 8217, etc. și numai percentila a fost pentru mine supărătoare. Vă mulțumim din nou pentru răspuns.

Citeam un articol publicat de un district școlar folosind obiectiveweb prin care au încercat să demonstreze eficacitatea utilizării unui specialist în lectură. Ei au folosit rangurile percentile în raportarea datelor lor. Datele au fost disponibile pentru două perioade de toamnă și apoi de primăvară. Datele de toamnă au arătat scorurile elevilor la percentila a 10-a, iar în primăvară a fost la percentila a 18-a. Cu toate acestea, atunci când au descris aceste rezultate, acestea au declarat
& # 8220K-3 studenți care au primit sprijin de la un specialist în lectură au crescut cu 8 puncte procentuale între toamnă și primăvară & # 8221. Este acesta un mod adecvat de raportare a datelor?

Pe baza a ceea ce scrieți, eu și # 8217 spun că raportarea este parțial corectă și parțial nu. Nu aș descrie această creștere ca fiind 8 puncte procentuale, deoarece ei scriu despre percentile. Ar fi mai corect să spunem că acești studenți au crescut în medie de la percentila 10 la percentila 18. Nu este precizat că acestea sunt percentile medii, dar eu presupun că sunt.

De asemenea, această raportare nu compară creșterea acestor studenți cu studenții care nu aveau un specialist în lectură. Acestea sunt informațiile importante de comparație. S-au îmbunătățit studenții fără specialiști în lectură mai mult sau mai puțin?

În cele din urmă, raportarea corectă nu precizează că specialistul citit a cauzat creșterea capacității. Având în vedere puținele informații pe care le dețin, nu pare probabil că acestea să poată deduce o relație de cauzalitate. Ar putea exista alți factori care determină efectiv creșterea, fie diferențe între cei cu și fără specialiști sau doar trecerea timpului în sine. Această descriere nu spune că specialiștii determină creșterea (din nou, asta este corect), dar este important să rețineți limitarea.

Este posibil să calculez percentila dacă am disponibilă medie și medie, dar nu setul de date?

Dacă cunoașteți media și deviația standard și puteți presupune că distribuția este aproximativ normală, puteți utiliza proprietățile distribuției normale pentru a estima percentilele. Pentru mai multe informații, citiți postarea mea despre distribuția normală, care acoperă cum să faceți acest lucru. Cu toate acestea, aveți nevoie atât de deviația medie, cât și de cea standard. Cu doar media, nu este posibil.

Salut
există o modalitate sau un program pentru a calcula percentilele din grafice în cazul în care nu avem setul de date, ci doar graficul?

Bună, nu știu niciun mod direct de a calcula percentilele. Desigur, depinde ce tip de grafic.

Dacă aveți o histogramă sau un grafic de distribuție a probabilității, este posibil să puteți estima percentilele pe baza distribuției. Dacă cunoașteți media și deviația standard (fie din grafic, fie din ieșirea numerică) și distribuția este normală sau nu în mod flagrant, puteți folosi cu siguranță aceste informații de distribuție pentru a estima percentilele. Citiți postarea mea despre distribuția normală pentru a vedea cum puteți utiliza această abordare. Într-o secțiune, acoper cum să calculez percentilele folosind această abordare. Acesta este probabil cel mai bun mod.

Dacă aveți un grafic individual de valori, este posibil să puteți estima valorile reale ale datelor și apoi să calculați media și abaterea standard.

Practic, încercați să determinați proprietățile distribuției din grafic, apoi folosiți acele informații de distribuție pentru a estima percentilele. Cu excepția cazului în care cunoașteți informațiile precise de distribuție sau nu aveți date brute, veți putea să aproximați doar percentilele pe baza a ceea ce observați în grafic.

Multe mulțumiri pentru furnizarea acestor explicații într-o limbă care este de fapt ușor de înțeles!

Întrebarea mea este similară cu cea adresată de J R Jenks mai sus. Am un set de date de 500 de persoane care au vizitat un vecin de x ori pe lună. Și vreau să traduc aceste informații într-o scară Likert = (1) niciodată, (2) rar, (3) des și (4) întotdeauna. Problema este că am prea multe zerouri în setul meu de date. Aceasta înseamnă că mulți indivizi au exprimat că pur și simplu nu își vizitează vecinii.

Atunci când utilizați excel pentru a aduce aceste date în percentile, răspunsurile de 0 ori acoperă percentila 10, 20 și chiar 40. Întrebarea mea este, are sens să grupăm toate aceste observații zero într-o singură categorie (adică ignorându-le în mod efectiv) și să folosim o clasificare în quartile pentru observațiile rămase? Sau ar trebui să fie incluse cu toate celelalte răspunsuri într-un calcul de clasificare în quartile sau decile? Orice ajutor va fi mult apreciat!

Lucrez la unele seturi de date ale recensământului și sunt oarecum mistificat de practica ignorării zerourilor atunci când calculez percentilele (știu cum să o fac, dar intuitiv mi se pare greșit).
Spuneți că vă uitați la & # 8220 gospodării cu copii & # 8221. Aveți gospodării totale pentru fiecare zonă (județ, zonă, orice) și numărul gospodăriilor care conțin copii. Deci calculați procentajul pentru fiecare zonă. Apoi, folosind intervalul acestor procente, puteți calcula percentila în care se încadrează fiecare (și apoi le grupați în decile etc.).
În urma unor proceduri recomandate, ei spun să elimine mai întâi orice valoare & # 8220zero & # 8221 din calculul percentilei. Dacă pentru o anumită zonă, nicio gospodărie nu are copii, procentul acesteia ar fi zero, iar această intrare în tabel ar trebui exclusă la calcularea percentilelor.
Mi se pare că distorsionează rezultatul. Dacă unele zone au & # 8220zero & # 8221 ceva, iar altele au diverse sume, de ce ar fi exclusă zona evaluată zero? Dacă o zonă ar avea o singură casă & # 8220 cu copii & # 8221, aceasta ar fi inclusă, dar cea fără niciunul nu ar avea.
Vă mulțumim pentru toate elucidările utile pe statistici!

Iată un scenariu care nu are sens pentru mine. Luați următorul set:
2, 13, 33, 33, 51, 99, 100, 100
Dacă întrebarea îmi cere percentila valorii 51, aș face:
4/8 * 100 = percentila 50.
Dacă întrebarea îmi cere să găsesc valoarea percentilei 50 din set, aș face:
Rang = p (n + 1) = 0,50 * (8 + 1) = 4,5
Valoarea corespunzătoare acestui rang ar fi 33 + (51-33) * 0,5 = 42.
Deci, aș găsi 42 pentru a fi percentila 50.

Știu că a doua întrebare de mai sus folosește a treia definiție (interpolare) a percentilei pe care ați descris-o. Dacă folosesc prima definiție, atunci răspunsul meu la ambele întrebări va fi 51.

Există o modalitate de a utiliza definiția de interpolare în ambele întrebări de mai sus și de a ajunge la același răspuns? Sau scenariul de interpolare este sortit eșecului în scenariul de mai sus?

Aceasta este o întrebare excelentă! Există mai multe lucruri în joc aici. Primul este că, după cum subliniați, folosiți diferite metode. Și nu este surprinzător faptul că diferite metode vor veni cu răspunsuri diferite. În plus, este un eșantion foarte mic, astfel încât precizia estimărilor va fi scăzută. Și, percentila 50 este mediana. Există diferențe mari între unele numere, ceea ce înseamnă că metoda precisă pe care o utilizați pentru a calcula mediana poate produce răspunsuri destul de diferite. Dacă am extras un eșantion mai mare aleatoriu din aceeași populație, vom începe să completăm acele lacune și să obținem informații mai complete despre distribuție. Diferențele dintre diferitele metode ar scădea.

Pentru setul dvs. de date, aș spune că metoda de interpolare nu este condamnată, deoarece cred că oferă cel mai bun răspuns. Cu toate acestea, este & # 8217 & # 8220 condamnat & # 8221 în sensul că este destinat să ofere un răspuns diferit pentru aceste date.

Din nou, gândiți-vă la asta ca la mediană. Metoda pentru calcularea medianei cu un număr par de observații este să vă deplasați spre interior până când ajungeți la centru două numere. Cele două numere din mijloc sunt 33 și 51. Apoi luați media celor două pentru a calcula mediana, care ajunge la 42. Acesta este un mod diferit de a face metoda de interpolare. Pentru acest set de date, există doar un decalaj relativ mare între 33 și 51. Cea de-a 50-a percentilă este cel mai probabil acolo undeva. Având în vedere setul mic de date, 42 este cea mai bună estimare pe care o avem.

Simțul meu este că 51 este puțin în partea superioară. Și, de fapt, există doar 3 valori deasupra și 4 sub ea. Deci, spunând că percentila 50 nu mi se pare bine. Într-adevăr, definiția 1, mai mare decât, îți oferă 51, deoarece trebuie să folosești a 5-a valoare clasată. A doua definiție, mai mare sau egală cu, îți dă 33 deoarece poți folosi a 4-a valoare clasată. Dar niciuna dintre acestea nu se află în mijlocul setului de date. Unul este clasat prea sus, iar celălalt este un rang prea scăzut. Cu un mic set de date, asta face diferența.

Atât metoda de interpolare, cât și metoda mediană găsesc un răspuns mai bun care se încadrează între valorile reale din setul de date. Cred că problemele care stau la baza primelor două metode sunt de două ori micul set de date și sunt forțați să folosească o valoare reală în setul de date. Folosind metoda de interpolare, sunteți încă blocat cu setul de date mic, dar cel puțin nu sunteți blocat cu utilizarea unei valori existente.

Nu sunteți sigur dacă mă puteți ajuta? Mă uit la un salariu din Marea Britanie pentru diferite roluri. Am valorile globale ale percentilei 25, 50, 75 și 100 din Marea Britanie. Am și media britanică (medie).

Am și media regională și mediana.

Este posibil să pot calcula percentilele regionale din datele pe care le dețin?

Nu sunt sigur dacă am postat pe firul corect, dar acest lucru mă încurcă dacă este posibil

Apreciez feedback-ul Jim. Matematica este acolo pentru a o întoarce, dar am vrut doar să văd dacă există un precedent pentru astfel de scenarii.
Toate cele bune,
-Steven

Vă mulțumim pentru articolul de pe această pagină.

Sunt curios dacă există o opinie predominantă dacă percentilele ar trebui să urmeze direcția măsurii generale?
De exemplu, am o măsură de conformitate și graficul respectiv trebuie să evolueze până la conformitate de 100%, deci teoretic percentila dvs. pentru cei mai performanți ar fi peste 95%. Cu toate acestea, pe un grafic al incidentelor de vătămare doriți să mergeți în jos la 0%. În acest caz, vrei să te străduiești să te afli în percentila 5?
Am clienți care doresc să fie în top 5 la sută. Din punct de vedere matematic, văd că este fezabil să întoarceți calculul, dar există considerarea direcției tendințelor.
Gânduri?

Se pare că nu există nicio contradicție pentru măsura dvs. de conformitate. Dacă clienții doresc să fie în top 5%, aceștia trebuie să fie mai mari sau mai mari decât percentila 95. Dar, da, pentru măsura prejudiciului, vrei să fii cel mult a cincea percentilă. Acesta este doar un lucru de percepție în rândul clienților dvs.? Vor să fie în top 5% față de 5%. Dacă da, nu văd niciun motiv pentru a nu-l întoarce așa cum spui. Atâta timp cât sistemul funcționează în funcție de nevoile dvs.

Dacă ți-am înțeles greșit întrebarea, anunță-mă. Dar nu văd o problemă cu ceea ce propuneți. Percentilele se bazează pe ranguri. Tot ce faci cu adevărat este să schimbi criteriile de clasificare de la scăzut este rău la scăzut este bine. Având în vedere scenariul dvs., sună complet legitim.

Salut Jim, ai distribuit un articol foarte frumos, plin de informații profitabile!
În opinia mea, percentilele sunt instrumente statistice vitale, Percentilele oferă o direcție a modului în care valorile datelor sunt răspândite în intervalul de la cea mai mică valoare la cea mai mare valoare.

Bună Jim,
Mulțumesc pentru explicații minunate. Imi dau seama de rezultatele analizei mele de date. Am un nor de puncte LiDAR care a fost colectat de la senzori terestri și bazați pe UAV pe același peisaj. Practic, LiDAR terestru colectează puncte mult mai dense decât LiDAR UAV. Când calculez percentilele 5, 50 și 90, tot timpul, valorile percentilei înălțimii datelor UAV sunt mai mari decât percentilele înălțimii datelor terestre. Nu sunt sigur cum să interpretez acest lucru. Înseamnă că senzorul terestru colectează mai multe date în stratul inferior decât senzorul UAV și UAV colectează mai multe puncte în stratul superior al peisajului? Aș aprecia foarte mult dacă mă ajutați cu interpretarea.


Cum se găsesc sferturile superioare și inferioare ale scării Ryff? - Psihologie

Până acum am discutat două dintre cele trei caracteristici utilizate pentru a descrie distribuțiile, acum trebuie să discutăm restul - variabilitatea. Observați în distribuțiile noastre că nu fiecare scor este același, de exemplu, nu toată lumea obține același scor la examen. Deci, ceea ce trebuie să facem este să descriem rezultatele variate, aproximativ pentru a descrie lățimea distribuției.

    Variabilitateoferă o măsură cuantitativă a gradului în care scorurile dintr-o distribuție sunt distribuite sau grupate împreună.

Cea mai simplă măsură a variabilității este gama, pe care am menționat-o deja în discuțiile noastre anterioare.

    - gamă este diferența dintre limita reală superioară de cea mai mare valoare (maximă) X și limita reală inferioară de cea mai mică (minimă) valoare X.

    - statistica se bazează exclusiv pe cele două valori extream din distribuție, astfel nu captează toți membrii distribuției.

O măsură alternativă a variabilității este gama intercuartilă.

    mediană = Q2 = 4.0 -> folosind interpolare (observați exact la jumătatea distanței între 62,5 și 37,5)
    25% țiglă = Q1 = 2,5 -> limita reală superioară pentru intervalul 2
    75% țiglă = Q3 = 5,5 -> limita reală superioară pentru intervalul 5

Rețineți că gama interquartile este adesea transformată în gama semi-intercuartilăcare este 0,5 din intervalul intercuartil.

Deci, pentru exemplul nostru, gama semi-intercuartilă este (3,0) (0,5) = 1,5

Deci, gama interquartile se concentrează pe jumătatea mijlocie a tuturor scorurilor din distribuție. Astfel, este mai reprezentativ pentru distribuția în ansamblu comparativ cu intervalul și scorurile extreme (adică valorile aberante) nu vor influența măsura (uneori denumită fiind robust). Cu toate acestea, aceasta înseamnă încă că 1/2 din scorurile din distribuție nu sunt reprezentate în măsură.

Abaterea standard este cea mai populară și cea mai importantă măsură a variabilității. Ține cont de toți indivizii din distribuție.

În esență, deviație standardmăsoară cât de departe sunt toți indivizii din distribuție de un standard, unde acel standard este media distribuției.

    Vom începe prin discuție despre abaterea standard parametru, aceasta este abaterea standard a populației. Apoi vom discuta despre abaterea standard statistic (pentru eșantion). Sunt statistici descriptive strâns legate, dar au unele diferențe importante.

Deci, pentru a obține o măsură a abaterii, trebuie să scădem media populației de la fiecare individ din distribuția noastră.

    - dacă scorul este o valoare peste medie scorul deviației va fi pozitiv - dacă scorul este o valoare sub medie scorul deviației va fi negativ

Exemplu: luați în considerare următorul set de date: populația de înălțimi (în inci) pentru clasă

69, 67, 72, 74, 63, 67, 64, 61, 69, 65, 70, 60, 75, 73, 63, 63, 69, 65, 64, 69, 65

S (X - m) = (69 - 67) + (67 - 67) +. + (65 - 67) =?
= 2+ 0 + 5 + 7 + -4 + 0 + -3 + -6 + 2 + -2 + 3 + -7 + 8 + 6 + -4 + -4 + 2 + -2 + -3 + 2 + -2
= 0

Observați că, dacă adăugați toate abaterile, acestea ar trebui / trebuie să fie egale cu 0. Gândiți-vă la asta la un nivel conceptual. Ceea ce faceți este să luați o parte a distribuției și să o faceți pozitivă, iar cealaltă parte negativă și să le adăugați împreună. Ar trebui să se anuleze reciproc.

Deci, ceea ce trebuie să facem este să scăpăm de semnele negative. Facem acest lucru pătrând abaterile și apoi luând rădăcina pătrată a sumei abaterilor pătrate.

Suma pătratelor = SS = S (X - m) 2 = (69 - 67) 2 + (67 - 67) 2 +. + (65 - 67) 2 =
SS = 4+ 0 + 25 + 49 + 16 + 0 + 9 + 36 + 4 + 4 + 9 +49 + 64 + 36 + 16 + 16 + 4 + 4 + 9 + 4 + 4
SS = 362

Ecuația pe care tocmai am folosit-o (SS = S (X - m) 2) este denumită definitional formulă pentru Suma pătratelor. Cu toate acestea, există un alt mod de a calcula SS, denumit formula de calcul. Cele două ecuații sunt echivalente din punct de vedere matematic, cu toate acestea uneori una este mai ușor de utilizat decât cealaltă. Avantajul formulei de calcul este că funcționează direct cu valorile X.

The formula de calcul pentru SS este:

Acum avem suma pătratelor (SS), dar pentru a obține Variația populațieicare este pur și simplu media abaterilor pătrate (vrem varianța populației nu doar SS, deoarece SS depinde de numărul de indivizi din populație, deci vrem media). Deci, pentru a obține media, trebuie să împărțim la numărul de indivizi din populație.

    Varianța populației = s 2 = SS / N

Cu toate acestea, varianța populației nu este exact ceea ce ne dorim, vrem abaterea standard de la media populației. Pentru a obține acest lucru, trebuie să luăm rădăcina pătrată a varianței populației.

    deviație standard = sqroot (varianță) = sqroot (SS/N)

    pasul 1: calculați SS
      - fie folosind formula definițională, fie formula de calcul
      - luați media abaterilor pătrate
      - împarte SS la N
      - luați rădăcina pătrată a varianței

    Acum să trecem la Abaterea standard a unui eșantion

      - calculele sunt aproape la fel aici
        - notație diferită:

      - dacă aveți un eșantion bun, reprezentativ, atunci eșantionul și populația trebuie să fie foarte asemănătoare, iar forma generală a celor două distribuții ar trebui să fie similară. Cu toate acestea, observați că variabilitatea eșantionului este mai mică decât variabilitatea populației.

      - pentru a explica acest lucru, varianța eșantionului este împărțită la n - 1 mai degrabă decât doar n

      - și același lucru este valabil și pentru deviația standard a eșantionului

        deviație standard eșantion = s = sqroot (SS/(n - 1))

      Ceea ce facem cu adevărat aici este să încercăm să folosim un eșantion pentru a face estimări despre natura populației. Dar, din moment ce nu cunoaștem lucruri precum ceea ce înseamnă media populației, într-adevăr nu ne putem măsura abaterile de la standardul populației. Deci, ceea ce folosim este cea mai bună estimare a media populației și aceasta este media eșantionului.

        să presupunem că știi că media eșantionului tău = 5

        dacă primele 4 articole sunt:

        5, 4, 6, 2 atunci care trebuie să fie numărul final?
        5 + 4 + 6 + 2 + X = 25
        va exista o singură valoare a lui X care va face acest lucru să funcționeze. X = 8

      Bine, deci să facem un exemplu de calcul al deviației standard a unui eșantion

      pasul 1: calculați SS

        SS = S (X -) 2
        = (1 - 4) 2 + (2 - 4) 2 + (3 - 4) 2 + (4 - 4) 2 + (4 - 4) 2 + (5 - 4) 2 + (6 - 4) 2 + (7 - 4) 2
        = 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 = 28

      Puteți utiliza în continuare formula de calcul pentru a obține SS

      pasul 2: determinați varianța eșantionului (amintiți-vă că este un eșantion, deci trebuie să luăm în considerare acest lucru)

      pasul 3: determinați abaterea standard a eșantionului

            deviație standard = sqroot (SS/(n - 1))

          Proprietățile abaterii standard (Transformări)

            1) Adăugarea unei constante la fiecare scor din distribuție nu va modifica abaterea standard.

          Deci, dacă adăugați 2 la fiecare scor din distribuție, media se modifică (cu 2), dar varianța rămâne aceeași (observați că niciuna dintre abateri nu s-ar schimba deoarece adăugați 2 la fiecare scor și media se modifică cu 2).

            2) Înmulțirea fiecărui scor cu o constantă determină multiplicarea abaterii standard cu aceeași constantă.

          Acesta este mai ușor de gândit cu cifre. Suppose that your mean is 20, and that two of the individuals in your distribution are 21 and 23. If you multiply 21 and 23 by 2 you get 42 and 46, and your mean also changes by a factor of 2 and is now 40. Before your deviations were (21 - 20 = 1) & (23 - 20 = 3). But now, your deviations are (42 - 40 = 2) & (46 - 40 = 6). So your deviations are getting twice as big as well.


          Compute 2,3 quartile average in SQL

          I want to write a stored proc in SQL (MySQL) to compute the average of second and third quartiles.

          In other words I have records for measurements for how long it takes for an URL to load. Records are (id,url,time) and they are many measurements for each URL. What I'm trying to do is for each URL remove the lowest and top 25% (i.e. lower and upper quartiles) and compute average of the remaining 25%-75% of loading times. And store this into another table.

          I saw some examples for this for MS SQL and seemed to be relatively easy. But I have to use MySQL where :

          • LIMIT clause doesn't support percents ( no analogue to select top 25% )
          • LIMIT clause doesn't support its arguments to be variables (only constants)
          • functions don't support dynamic SQL (e.g. PREPARE and EXECUTE )

          I can write it in PHP but think in SQL it would have much better overall performance. I will appreciate some help very much.


          # Summaries

          # Key Percentiles Summary

          Percentilă R1 R2 R3 R4 R5 R6 R7 R8 R9
          0 10 10 10 10 10 10 10 10 10
          25 14 14 12 13 14 13.5 14.5 13.83 13.875
          50 18 19 18 18 19 19 19 19 19
          75 40 40 40 35 40 40 37.5 40 40
          90 40 45 40 40 45 49 41 46.33 46
          99 50 50 50 49 50 50 49.1 50 50
          100 50 50 50 50 50 50 50 50 50

          # Methods Differences

          Metodă Index h Interpolation Limits Selection
          R1 N × q Pp = X⌈h⌉ • q = 0 ⇒ P0 = X1
          R2 N × q + 1/2 Pp = (X⌈h – 1/2⌉ + X⌊h + 1/2⌋) / 2 • q = 0 ⇒ P0 = X1
          • q = 1 ⇒ P1 = XN
          R3 N × q Pp = X⌈h⌋ • q ≤ (1/2)/N ⇒ Pp = X1
          R4 N × q X⌊h⌋ + (h − ⌊h⌋) × (X⌊h⌋ + 1 - X⌊h⌋) • q < 1/N ⇒ Pp = X1
          • q = 1 ⇒ P1 = XN
          R5 N × q + 1/2 X⌊h⌋ + (h − ⌊h⌋) × (X⌊h⌋ + 1 - X⌊h⌋) • q ≤ (1/2)/N ⇒ Pp = X1
          • q ≥ (N - 1/2)/N ⇒ Pp = XN
          R6 (N + 1) × q X⌊h⌋ + (h − ⌊h⌋) × (X⌊h⌋ + 1 - X⌊h⌋) • q ≤ 1/(N + 1) ⇒ Pp = X1
          • q ≥ N/(N + 1) ⇒ Pp = XN
          R7 (N - 1) × q + 1 X⌊h⌋ + (h − ⌊h⌋) × (X⌊h⌋ + 1 - X⌊h⌋) • q = 1 ⇒ P1 = XN
          R8 (N + 1/3) × q + 1/3 X⌊h⌋ + (h − ⌊h⌋) × (X⌊h⌋ + 1 - X⌊h⌋) • q ≤ (2/3)/(N + 1/3) ⇒ Pp = X1
          • q ≥ (N - 1/3)/(N + 1/3) ⇒ Pp = XN
          R9 (N + 1/4) × q + 3/8 X⌊h⌋ + (h − ⌊h⌋) × (X⌊h⌋ + 1 - X⌊h⌋) • q < (5/8)/(N + 1/4) ⇒ Pp = X1
          • q ≥ (N - 3/8)/(N + 1/4) ⇒ Pp = XN

          # Tools Summary

          The following software provides functionality to use any of R1-R9:

          q must be in interval q ∈ (0, 1] , otherwise org.apache.commons.math3.exception.OutOfRangeException is thrown.

          # NaN Strategy


          Rezultate

          Human-likeness

          In terms of our measure of human-likeness, we observed a significant main effect of Hand type (F(2.3,169.9)=314.9, p<.001, η 2 =0.782) and a significant main effect of Group (F(4,74)=3.6, p=.01, η 2 =0.153). We also observed a significant interaction between our factors (F(9.2, 169.9)=3.41, p<.001, η 2 =0.034), as shown in Fig. ​ Fig.1a 1a .

          Examining ratings of human-likeness of the mechanical hands in isolation with the Kruskal-Wallis test we observed a significant effect of Group (χ 2 (4)=21.1, p<.001), with Dwass-Steel-Critchlow-Flinger pairwise comparisons showing that the prosthetist group reported that the mechanical hands appeared less human-like than the control group (p<.001), the trained group (p<.001), or the upper-limb absence group (p=.004). Additionally, the control group rated the mechanical hands as less human-like than the lower-limb absence group (p=.027), but no other significant differences were observed. There was no significant effect of group observed for the unrealistic hands (χ 2 (4)=7.47, p=.11). There was, however, a significant effect observed for the realistic hand stimuli (χ 2 (4)=17.62, p=.001), with pairwise comparisons showing that the prosthetist group rated the realistic hands as less human-like than the control group (p<.001) or the upper-limb absence group (p<.001), with no other significant differences observed. Finally, no differences were observed between the groups in terms of how human-like they rated the anatomic hands (χ 2 (4)=2.37, p=.67).

          In summary, the plots (Fig. ​ (Fig.1b) 1b ) and associated analyses suggest that prosthetists tend to report some hand types as being less human-like than most other groups.

          Eeriness

          In terms of our eeriness measure, we observed a significant main effect of Hand type (F(1.91,141.22)=57.97, p<.001, η 2 =0.342) and a significant main effect of Group (F(4,74)=5.42, p<.001, η 2 =0.227). We also observed a significant interaction between our factors (F(7.6, 141.22)=9.34, p<.001, η 2 =0.221), as shown in Fig. ​ Fig.2b 2b .

          (A) Median eeriness ratings for the different hand types for each group. Higher numbers indicate that participants reported the hands to be more eerie. Boxes show quartiles and tails show 95% confidence intervals. (b) The eeriness ratings given by the members of each group in each condition, presented as individual violin plots to better visualize the distributions of the data

          Examining ratings of the mechanical hands in isolation we observed a significant effect of group (χ 2 (4)=18.3, p=.001), with Dwass-Steel-Critchlow-Flinger pairwise comparisons showing that our prosthetists rated mechanical limbs as less eerie than participants with upper-limb absence (p=.002), those with lower-limb absence (p=.003), the control group (p=.006), or the trained group (p=.002), with no other significant differences observed.

          Comparing ratings given by each group to the unrealistic hands also yielded a significant effect (χ 2 (4)=24.8, p<.001). Here, in contrast to the mechanical hand ratings, pairwise comparisons of the unrealistic-looking hands highlighted that both the lower-limb and upper-limb absence groups found this prosthesis type significantly less eerie than the controls (p=.005 and p<.001, respectively), the prosthetists (p=.003 and p<.001, respectively), or the trained group (p=.004 and p<.001, respectively), with no other significant differences observed.

          The ratings of the realistic prosthetic hands yielded a similar pattern (χ 2 (4)=28.7, p<.001), with the lower-limb and upper-limb absence groups reporting the realistic hand to be less eerie than controls (p=.003 and p<.001, respectively), prosthetists (p=.031 and p=.002, respectively), or trained individuals (p<.001 in both cases), with no other significant differences observed.

          With regards to the anatomic hand, where no differences were predicted, we in fact noted a significant effect (χ 2 (4)=19.4, p<.001). Here, pairwise comparisons showed that the controls rated the anatomic hands as looking less eerie than the trained groups (p=.007) or the prosthetists group (p<.001), who themselves rated these stimuli as more eerie than the upper-limb absence (p=.002) or the lower-limb absence groups (p=.03). No other significant differences were observed between the groups.

          In summary, the plots (Fig. ​ (Fig.2b) 2b ) and associated analyses suggest that both upper-limb and lower-limb absence groups rated the realistic and unrealistic prosthetic hands (the type predicted to induce the highest levels of eeriness) as being significantly less eerie than most other groups of participants tested in this study.


          You can use np.percentile to calculate quartiles (including the median):

          Coincidentally, this information is captured with the describe method:

          np.percentile DOES NOT calculate the values of Q1, median, and Q3. Consider the sorted list below:

          running np.percentile(samples, [25, 50, 75]) returns the actual values from the list:

          However, the quartiles are Q1=10.0, Median=14, Q3=24.5 (you can also use this link to find the quartiles and median online). One can use the below code to calculate the quartiles and median of a sorted list (because of sorting this approach requires O(nlogn) computations where n is the number of items). Moreover, finding quartiles and median can be done in O(n) computations using the Median of medians Selection algorithm (order statistics).

          Building upon or rather correcting a bit on what Babak said.

          np.percentile DOES VERY MUCH calculate the values of Q1, median, and Q3. Consider the sorted list below:

          running np.percentile(s1, [25, 50, 75]) returns the actual values from the list:

          However, the quartiles are Q1=68.0, Median=85.5, Q3=92.5, which is the corect thing to say


          Priveste filmarea: Quartis (Iulie 2022).


Comentarii:

  1. Arashigrel

    In my opinion, they are wrong. Scrie -mi în pm, discută -l.

  2. Garlen

    Da, am citit și am înțeles că nu înțeleg despre ce vorbesc :)

  3. Beowulf

    Nu voi consimți

  4. Osmond

    Ce frază talentată

  5. Domenick

    În locul tău ar fi opusul.



Scrie un mesaj