Un text introductiv despre psihologia multimilor,scris acum 11 ani. Avand in vedere actualitatea temei il public si pe blog.

 

Gustave Le Bon: mulţimile imbecilizante

 

Gustave Le Bon este unul dintre primii oameni de ştiinţă care au furnizat o descriere articulată şi cât de cât coerentă a proceselor psihologice de grup. În acelaşi timp, el este şi unul dintre cei mai controversaţi oamenii de ştiinţă, majoritatea autorilor contemporani imputându-i insuficienţa şi incoerenţa ideilor pe care le-a susţinut, dar având şi admiratori care consideră un astfel de tratament ipocrit, şi care preferă, în schimb, să-l felicite pentru  „forţa explozivă” a invenţiilor sale (Moscovici, 2001).

Chiar dacă a scris foarte mult şi despre multe subiecte (printre altele, a lăsat posterităţii şi un tratat de echitaţie), Le Bon este cunoscut în primul rând pentru lucrarea sa din 1895, Psihologia mulţimilor, în care, motivat de contrastul puternic dintre importanţa socio-politică crescândă a mulţimilor şi acţiunile lor complet iraţionale, încerca să desluşească natura şi funcţionarea acestora. Ideea de bază a lucrării sale este simplă: mulţimile reprezintă entităţi puternice şi periculoase care ne dezbracă de stratul civilizat al personalităţii noastre, dând la iveală bruta primitivă care se ascunde dedesubt. Violenţa este un atribut firesc al maselor, caracteristicile lor psihologice lăsând loc doar unor comportamente extreme.

Că mulţimile sunt stupide şi violente au spus-o şi alţii înaintea lui Le Bon. Expresia „mulţimi criminale” era foarte răspândită pe vremea sa. Francezul a mers însă mai departe, susţinând că, formarea unei mulţimi implică nişte procese psihologice excepţionale. Mai exact, personalitatea indivizilor care o compun este estompată şi, în virtutea a ceea ce el numeşte pretenţios legea psihologică a unităţii mentale, sentimentele şi credinţele lor sunt orientate în aceeaşi direcţie. Rezultatul este că „mulţi” devine „unul”, adică, în expresia lui Le Bon, o „fiinţă provizorie” care are propriul său suflet.

Caracteristicile acestei „fiinţe” sunt date de cel mai mic factor comun al trăsăturilor membrilor săi, dar şi de o serie de însuşiri emergente. Faptul că oamenii care compun o mulţime sunt legaţi între ei prin ceea ce au în comun (i.e., substratul primitiv al personalităţii) mai degrabă decât prin ceea ce îi diferenţiază (i.e., intelectul) determină, după Le Bon, mediocritatea intelectuală a mulţimilor. Pe de altă parte, sentimentul de putere imensă pe care mulţimea îl conferă indivizilor care o compun, face ca aceştia să cedeze instinctelor pe care, în mod normal, le controlează cu atenţie. De asemenea, intervine şi o sugestibilitate sporită care are drept efect o intensă contagiune mentală, care orientează ideile şi sentimentele oamenilor în aceeaşi direcţie cu a celorlalţi indivizi care compun masa şi care transformă automat sugestiile în acţiune. Într-o mulţime te afli într-o stare similară hipnozei, personalitatea ta conştientă diluându-se şi fiind înlocuită de cea inconştientă.

Pornind de la aceste procese fundamentale, Le Bon schiţează un portret psihologic al mulţimilor care izbeşte prin ceea ce până şi marele său admirator Sigmund Freud numea „un ton dispreţuitor şi înjositor”. Lăsând deoparte cuvintele grele, Le Bon descrie mulţimile ca impulsive, labile, sensibile la frustrări, exagerate şi lipsite de nuanţe. Incapabile de premeditare şi auto-critică, mulţimile ar fi autoritare şi intolerante, sugestibile şi credule, confundând realul cu imaginarul. Raţionamentele lor se bazează pe asociaţii primitive, care leagă lucruri disparate, fără legătură logică între ele. La rândul ei, imaginaţia mulţimilor este puternic impresionată de imagini şocante şi clare, funcţionând sub semnul miraculosului şi legendarului. Ca urmare a acestui primitivism cognitiv, mulţimile pot asimila ideile doar dacă acestea sunt prezentate într-o formă simplă şi pot fi reprezentate sub formă de imagini. Convingerile lor au o formă religioasă, adică sunt caracterizate de admiraţie, teamă şi supunere faţă de o cauză sau fiinţă, dar şi de intoleranţă şi de dorinţa de a le propaga pretutindeni. Acţiunile mulţimilor sunt după chipul şi asemănarea psihologiei lor afective şi cognitive: mulţimile sunt capabile de acte de curaj ieşite din comun dar şi de crime monstruoase. Depinde de conţinutul sugestiilor pe care le primesc. În acest sens, un rol esenţial îl joacă liderii. După Le Bon, mulţimile au nevoie de un conducător, căruia i se supun instinctiv. Părerea sa despre conducători este la fel de proastă ca cea despre mulţimi: aceştia „se recrutează mai ales dintre acei nevrozaţi, surescitaţi, semi-alienaţi, care rătăcesc în zone vecine cu nebunia”[1] (Le Bon, 1937/1990, p. 66). Totuşi, conducătorii au şi o serie de calităţi, cum ar fi energia imensă şi voinţa de fier. Însă cea mai importantă calitate de care au nevoie pentru a conduce mulţimile este prestigiul, adică abilitatea de a inspira respect şi de a „paraliza facultăţile critice”.

Pentru a rezuma într-o frază descrierea lui Le Bon, putem spune că o mulţime îi omogenizează din punct de vedere psihologic pe membrii săi, le infantilizează stările afective, le reduce capacitatea de a gândi, amplificându-le propensiunea spre acţiune şi obedienţa faţă de conducători energici şi carismatici, dar dezechilibraţi psihic.

 

Evaluare

 

De ce au stârnit ideile lui Le Bon atâtea reacţii negative? În primul rând, la scurtă vreme după apariţia Psihologiei mulţimilor autorul ei a fost acuzat de plagiat. De exemplu, în ediţia din 1901 a cărţii lui Scipio Sighele Mulţimile criminale, italianul avea de grijă să-i „mulţumească” lui Gustave Le Bon pentru că a folosit observaţiile sale asupra mulţimilor fără să-l citeze. O astfel de acuzaţie nu poate face bine prestigiului nici unei lucrări.  Apoi, faptul că unii dintre cei mai oribili dictatori ai secolului XX l-au preţuit pe Le Bon i-a creat acestuia imaginea unui savant cu influenţe malefice asupra istoriei mondiale[2].

Psihologia mulţimilor are însă şi alte probleme decât acuzaţiile de plagiat sau de influenţare nefastă a mersului istoriei. Din punct de vedere al stilului lucrării, limbajul dur şi brutal folosit de Le Bon surprinde neplăcut, nu atât pentru că încalcă norme deontologice pe care unii le-ar putea privi ca ipocrite, cât pentru că denotă o subiectivitate excesivă, inacceptabilă într-o lucrare care încearcă să construiască o teorie credibilă. Deşi vrea să facă ştiinţă, Le Bon nu-şi lasă convingerile personale la uşă, lăsând să se înţeleagă, destul de evident, că are ceva împotriva mulţimilor. În aceste condiţii, în ce măsură să credem că teoria sa este rodul unor analize obiective şi nu o încercare de confirmare a prejudecăţilor sale?

Chiar şi aşa, dacă forma de expunere a ideilor ar fi fost clar depăşită de calitatea argumentelor, acest neajuns i-ar fi fost, mai mult ca sigur, iertat. Din păcate, Psihologia mulţimilor dezamăgeşte atât prin formă cât şi prin conţinut.  De la un autor care are pretenţia că a descoperit „legi” ale psihologiei mulţimilor, te-ai aştepta la explicaţii de primă clasă. Cu toate acestea, Le Bon mai mult descrie decât explică şi, în ambele cazuri, este vag, imprecis şi contradictoriu.  De exemplu, Le Bon are grijă să sublinieze de nenumărate ori că mulţimile uniformizează indiferent de „calitatea” indivizilor. Nu contează dacă eşti savant, ignorant, artist, zidar sau orice altceva. Mulţimea te subjugă în aceeaşi măsură. Cu toate acestea, în altă parte, Le Bon admite că există personalităţi puternice, care nu cad pradă influenţei depersonalizante a mulţimii, dar că acestea sunt prea puţine pentru a conta. În sfârşit, într-o notă de subsol, autorul relatează un eveniment la care a fost martor şi în care un individ cu sânge rece a manipulat inteligent o mulţime însetată de sânge cald, reuşind astfel să salveze viaţa unui nevinovat. Pe scurt, Le Bon afirmă că mulţimile ne uniformizează pe toţi, după care spune că sunt unii care scapă acestei influenţe dar oricum nu contează, pentru ca apoi să dea un exemplu în care o astfel de persoană contează enorm.

Din păcate, astfel de informaţii contradictorii nu sunt integrate într-o explicaţie unitară, care să ne spună ce fel de influenţe au mulţimile asupra a ce fel de oameni şi în ce fel contexte. De fapt, afirmaţiile categorice sunt atât de frecvente în Psihologia mulţimilor încât ne fac să credem ori că autorul acesteia era alergic la nuanţe, ori că vroia să impresioneze cititorul cu orice preţ.

Şirul criticilor la adresa lucrării lui Le Bon ar putea continua mult şi bine (e.g., n-am amintit afirmaţiile sale cele mai contestate, datorită cărora a fost etichetat ca reacţionar şi rasist), însă nu vreau să insist prea mult asupra unor lipsuri mult prea evidente. În contextul de faţă mă interesează mai puţin „nisipul” şi mai mult „aurul”: dacă suntem dispuşi să cernem cu atenţie vom găsi că Psihologia mulţimilor are suficiente merite, mai ales dacă luăm în calcul că a fost scrisă la sfârşitul secolului XIX, când prea puţini se încumetaseră să exploreze psihologia grupurilor umane.  Care ar fi aceste merite?

Un astfel de merit ar putea fi găsit chiar într-una din cele mai atacate idei ale lui Le Bon: că mulţimile au un suflet propriu. Luată în sensul tare al cuvântului, afirmaţia ar fi considerată absurdă de orice psiholog care se respectă. Totuşi, dacă ţinem cont că Le Bon se referă, de fapt, la o stare temporară, care apare în condiţii excepţionale şi care constă într-o anumită autonomie a comportamentului de grup în raport cu psihologia individuală, atunci poziţia sa ar putea fi apropiată de unul dintre cele mai noi curente ale psihologiei contemporane: abordarea sistemelor dinamice. Promotorii acesteia consideră că nu este potrivit să studiem comportamentele umane ca şi cum ar depinde doar de ceea ce se întâmplă în creierul nostru.  Dimpotrivă, când doi sau mai mulţi oameni interacţionează între ei, este mai corect să considerăm că aceştia se vor afla sub influenţa unei sinergii funcţionale dinamice, comportamentele fiindu-le determinate de un set extins de constrângeri, între care cele ţinând de psihologia individuală ocupă doar o parte (Schmidt et al., 1990).

Mai departe, Le Bon face o distincţie clară între psihologia individuală care este raţională şi psihologia mulţimii care este iraţională. În primul caz procesele psihologice sunt complexe şi logice, pe când în al doilea procesele sunt asociative. O astfel de distincţie este esenţială şi în psihologia contemporană, abordarea sistemelor duale susţinând că oamenii dispun de două sisteme fundamentale de procesare a informaţiei: unul pe bază de reguli şi altul pe bază de asociaţii. Totuşi, spre deosebire de modelele duale, Le Bon face eroarea de a postula necesitatea intervenţiei unui proces excepţional, hipnotic, pentru ca oamenii să treacă de la sistemul raţional la cel asociativ. Din această cauză, el are o părere prea  bună despre indivizi şi prea proastă despre mulţimi. Relevantă rămâne însă observaţia că, un  individ ca membru al unei mulţimi poate gândi, simţi şi acţiona atât de diferit faţă acelaşi individ luat izolat, încât avem impresia că ar fi altcineva.  Această idee o vom regăsi ulterior atât în psihanaliză cât şi în teoria identităţii sociale.

În fine, în Psihologia mulţimilor putem identifica şi idei cărora psihologia contemporană nu le acordă încă suficientă atenţie, cum ar fi  rolul pe care sentimentul puterii îl joacă în psihologia de grup. Totuşi, în timp ce pentru Le Bon puterea descătuşează instinctele, iar sugestibilitatea este cea care conduce la acţiune, recent s-a demonstrat că tocmai puterea este cea care reduce distanţa dintre gând şi faptă (Galinsky et al., 2003). Aceste abordări contemporane nu au fost inspirate de lucrarea lui Le Bon, dar similitudinile merită menţionate, mai ales dacă ţinem cont de distanţa temporală care le separă.

 

Sigmund Freud: reînvierea hoardei primitive

 

Părintele psihanalizei considera că Le Bon a oferit o descriere „strălucită” a psihologiei mulţimilor, fiind de acord cu acesta că oamenii incluşi într-o masă suferă o modificare psihologică profundă, în sensul amplificării extreme a afectivităţii şi a regresiei intelectuale. Totuşi, cum Sigmund Freud nu era genul care să aplaude şi apoi să meargă acasă, nu s-a putut abţine să nu aducă o serie de corecţii şi completări majore teoriei francezului.

Unde Le Bon vorbea despre însuşirile noi generate de o mulţime sau despre eliberarea inconştientului colectiv, Freud a considerat că e mai potrivit să vorbim doar despre eliberarea forţelor inconştiente refulate ale individului. Unde Le Bon afirma că sugestibilitatea are ca efect contagiunea, Freud a pledat pentru separarea contagiunii de sugestibilitate, considerând că prima se referă la influenţele reciproce exercitate de membrii mulţimilor, pe când sugestibilitatea se referă la influenţele venite de la conducători. Unde Le Bon spunea că oamenii dintr-o mulţime sunt nişte hipnotizaţi, Freud a criticat lipsa informaţiilor despre hipnotizator, considerând că descrierea pe care Le Bon o face conducătorilor este sub nivelul celei pe care o face maselor. În fine, unde Le Bon era mut ca o lebădă, Freud a problematizat şi explicat.

Iar Le Bon a păstrat tăcerea asupra unei întrebări esenţiale: ce îi leagă împreună pe oamenii care formează o mulţime? Pentru a răspunde la această întrebare, Freud credea că este important să interpretăm efectul mulţimilor asupra psihologiei individuale în termenii unei privări de libertate a individului. Însă cine îl deposedează pe individ de libertatea sa? Dacă ar fi să ne luăm după Le Bon, care era convins că mulţimile au o putere formidabilă, acţionând brutal asupra psihologiei individuale, răspunsul pare mai mult decât evident. Însă Freud a oferit o soluţie diametral opusă: individului nu îi este furată individualitatea ci renunţă singur la ea pentru a fi în armonie cu ceilalţi membri ai mulţimii sau, în cuvintele sale, „de dragul lor”.  Aflaţi în mijlocul unei mulţimi, oamenii renunţă la libertatea lor din iubire. Liantul psihologic al mulţimilor ar fi deci libido-ul, adică „energia…acelor instincte cu care avem de-a face în toate manifestările ce pot fi rezumate în cuvântul iubire” (Freud, 2000, p. 64).

Acest lucru ar fi cel mai vizibil în cadrul a două mulţimi artificiale: armata şi biserica. Cele două au în comun iluzia existenţei unui conducător care îi iubeşte la fel pe toţi membrii grupului. Individul unui astfel de grup este ataşat libidinal atât de conducător cât şi de ceilalţi membri ai grupului, primul tip de ataşament contând în mai mare măsură decât cel din urmă. Când legăturile libidinale se destramă, se destramă şi grupul. De exemplu, în cazul armatei, acest fenomen face ca individul să se simtă izolat şi singur în faţa pericolului, motiv pentru care îl va supraaprecia iar rezultatul final va fi panica, adică o teamă disproporţionat de mare în raport cu sursa ei[3].

Ce înţelegea însă Freud prin legături libidinale? Departe de a concepe acest termen în sens larg, Freud a făcut distincţie între mai multe tipuri de legături afective. Astfel, identificarea reprezintă forma originară a ataşamentului afectiv, când alegem ca model o altă persoană şi ne modificăm propriul Eu după Eul model. Iubirea este o legătură afectivă de durată la care trecem de la dorinţa sexuală pură pe baza „certitudinii că trebuinţa abia satisfăcută nu va întârzia să reapară”. Obiectul iubirii este idealizat, întrucât o parte din libidoul narcisic este transferat asupra sa şi, în consecinţă, tratăm acest obiect la fel cum tratăm propriul eu. „Obiectul absoarbe Eul” spune Freud. În anumite cazuri obiectul ia locul Idealului Eului, care încetează să-şi mai exercite funcţiile critice obişnuite. Hipnoza este asemănătoare iubirii. Hipnotizatorul ia locul Idealului Eului, întrucât cel hipnotizat „manifestă supunere, lipsă de atitudine critică şi acelaşi abandon pe care-l întâlnim la îndrăgostit faţă de persoana iubită…” (Freud, 2000, p. 80). Totuşi, spre deosebire de iubire, unde satisfacţia sexuală funcţionează în regim de stand-by, în cazul hipnozei ea este complet exclusă.

Dintre cele trei forme de legături libidinale, hipnoza ne dă cea mai bună idee despre ce se întâmplă într-o mulţime, întrucât „nu este un obiect de comparaţie potrivit pentru formaţiunea de masă, ci mai curând este identică cu aceasta” (p. 81), motiv pentru care Freud mai numeşte hipnoza şi „o formaţiune de masă în doi”. Cât despre mulţime, aceasta reprezintă „un număr de indivizi la care Idealul Eului a fost înlocuit prin acelaşi obiect, ceea ce a avut drept consecinţă identificarea Eurilor lor.” (p. 82). Aici suntem puşi în faţa unui aparent paradox întrucât, deşi definiţia de mai sus vorbeşte despre orientarea libidoului spre alţii, în mod obişnuit psihanaliza freudiană priveşte individul ca pe un narcisist prea puţin tolerant cu cei care diferă de el: „în sentimentele făţişe de antipatie şi de repulsie faţă de străinii cu care venim în contact putem vedea expresia unui egoism, a unui narcisism care caută să se afirme cu orice preţ şi care se comportă ca şi cum cea mai mică deviere de la propriile trăsături individuale implică critica acestor trăsături, cerinţa de a le modifica şi transforma (p. 72)[4]. Cum explicăm atunci transformarea acestui individ care se iubeşte numai pe sine în individul ca parte a mulţimii, care îi iubeşte doar pe alţii?

O posibilă explicaţie ar fi să credem că există un instinct social care ne apropie de ceilalţi. Trotter, care este citat de Freud, credea în existenţa unui instinct gregar primar şi considera că teama pe care copilul o resimte când este lăsat singur reprezintă manifestarea acestui instinct. Psihanalistul a respins însă o astfel de poziţie, considerând că instinctul gregar se formează pe parcursul dezvoltării individului prin transformarea unui sentiment negativ într-unul pozitiv. Frica de care vorbea Trotter reprezintă, după Freud, manifestarea unei dorinţe neîmplinite al cărei obiect este mama, „dorinţă cu care copilul neştiind ce să facă o transformă în teamă” (p. 84). „Instinctul social” al copilului ar proveni din invidia acestuia faţă de fratele mai mic, care primeşte din partea părinţilor atenţia pe care ar dori-o exclusiv pentru el însuşi. Deoarece această invidie nu poate persista datorită unor serii de constrângeri din partea familiei şi a situaţiei în sine, copilul transformă invidia în identificare cu fratele mai mic. Astfel, „…în confreria copiilor se formează un sentiment de masă sau de comunitate care cunoaşte o dezvoltare pe mai departe în timpul şcolii. Prima cerinţă care rezultă în urma constituirii acestei reacţii este revendicarea dreptăţii, a unui tratament egal pentru toţi” (p. 84).

Însă o astfel de explicaţie este insuficientă, întrucât vizează doar legăturile pe orizontală, între membrii unei mulţimi. După Freud, mult mai importante sunt legăturile pe verticală, între mulţimi şi liderii lor. Pentru a explica aceste legături, şi nu numai, Freud a mers cu speculaţiile mult mai departe, şi la propriu şi la figurat, trecând de la ontogeneză la filogeneză, dar şi de la riscant la de-a dreptul contestabil.

Preluând de la Charles Darwin ipoteza că forma originară a societăţii umane a fost o hoardă dominată de un mascul puternic, Freud s-a declarat convins că: „destinele acestei hoarde au lăsat în istoria ereditară a omului urme ce nu pot fi şterse…” (p. 86). Ceea ce înţelegea Freud prin destinele hoardei merită citat pe larg, întrucât reprezintă partea cea mai importantă dar şi cea mai criticată a teoriei sale: „tatăl primitiv îi împiedica pe fiii săi să-şi satisfacă tendinţele sexuale directe, impunându-le abstinenţa; în felul acesta, între ei şi tatăl lor, precum şi între fraţi, s-au constituit legături afective care au putut apărea tocmai datorită devierii tendinţelor de la scopul lor sexual; altfel spus, tatăl hoardei i-a introdus cu forţa pe cei pe care îi domina în psihologia de masă. Gelozia sexuală şi intoleranţa tatălui au devenit factorii care în ultimă instanţă au determinat apariţia psihologiei de masă[5]”. Mai departe, „…ceea ce este neliniştitor şi coercitiv într-o formaţiune de masă, manifestat în fenomenele de sugestie ce îi sunt caracteristice, poate fi explicat pe bună dreptate prin înrudirea formaţiunii respective cu hoarda primitivă. Conducătorul mulţimii mai păstrează încă ceva din tatăl primitiv, mulţimea vrea încă să fie dominată de o forţă nelimitată…Tatăl primitiv este idealul mulţimii, care domină Eul în locul Idealului Eului”. (pp. 87-90). Această explicaţie îi permite să afirme că mulţimea reprezintă un reziduu direct al filogenezei libidoului uman, „o reînviere a hoardei primitive”. Doar Freud era convins că nimic din viaţa psihică nu se pierde ci se păstrează într-o formă sau alta, iar în anumite circumstanţe favorabile poate să reapară la suprafaţă (Freud, 1991, p. 295).

Din acest punct de vedere violenţa mulţimilor pare a fi explicată de violenţa liderilor săi. Le Bon vorbea despre sugestii fără a spune precis de unde vin acestea. Freud ne spune clar că este vorba despre lideri, care iau locul instanţei critice a personalităţii membrilor mulţimii, determinându-le acestora acţiunile. Totuşi, atitudinile mulţimilor faţă de conducătorii lor sunt ambivalente, liderii fiind, în acelaşi timp, admiraţi şi invidiaţi, temuţi şi urâţi. De unde şi posibilitatea ca violenţa să se manifeste printr-un alt mecanism: devreme ce mulţimea reprezintă o reinstanţiere a hoardei primitive, iar hoarda este marcată, la palierul inferior, de frustrarea pulsiunilor libidinale, atunci agresivitatea va putea reprezenta şi o consecinţă directă a acestei frustrări. Chiar dacă mulţimile sunt supuse liderilor lor, agresivitatea lor poate exploda în orice clipă spre ţinte facile sau chiar spre lideri. De observat că, spre deosebire de ipoteza frustrare-agresiune, pentru care frustrările sunt determinate de factori socio-economici, la Freud frustrările apar la orice grup uman care are un lider, întrucât liderul controlează bunurile şi resursele materiale sau simbolice pe care ar dori să le controleze şi ceilalţi membri ai grupului, frustrându-le acestora dorinţele. În consecinţă, formarea unui grup uman produce în mod obligatoriu şi agresivitate. Chiar dacă îl putem interpreta astfel pe Freud, trebuie spus că, în ultimele sale lucrări, acesta a renunţat la o astfel de explicaţie a agresivităţii, considerând că putem înţelege adecvat agresivitatea doar dacă o privim ca instinct, ca manifestare a principiului morţii.

 

Evaluare

 

Chiar dacă Freud este de acord cu Le Bon în multe privinţe, portretul individului ca membru al mulţimii este mai complex la părintele psihanalizei: nu mai avem de-a face cu o brută descreierată ci cu o personalitate structurată tripartit, ale cărei acţiuni pot avea un sens foarte clar în măsura în care Idealul Eului poate să fie reprezentat şi de sisteme de idei, nu numai de alte persoane. De fapt, putem spune că acest individ seamănă destul de mult cu individul descris de teoria auto-categorizării sociale, care se defineşte pe mai multe niveluri de categorizare socială şi ale cărui acţiuni sunt explicate de conţinuturile psihologice ale nivelului de categorizare care este cel mai proeminent la un moment dat.

De asemenea, la Freud liderii sunt mult mai vizibili iar relaţia dintre aceştia şi membrii obişnuiţii ai mulţimilor devine crucială pentru înţelegerea comportamentelor grupurilor umane. Iar pentru a explica aceste comportamente Freud foloseşte un arsenal psihanalitc impresionant cu care îşi croieşte drum atât spre începuturile dezvoltării individuale cât şi ale speciei umane pentru a scoate la lumină evenimente care, prin consecinţele lor, circumscriu esenţa psihologiei de grup.

Din păcate, Freud nu îşi expune întotdeauna ideile clar şi neechivoc. Adesea, el  avansează o idee, după care se răzgândeşte, susţinând că lucrurile stau altfel, fapt care conferă  lucrării sale aspectul unui caiet de notiţe în care o idee, odată scrisă, poate fi corectată a doua zi, când nu mai pare atât de bună. De exemplu, la un moment dat, Freud afirmă că psihologia mulţimilor reprezintă cea mai veche formă de psihologie umană. Câteva paragrafe mai încolo spune că nu e chiar aşa, întrucât tatăl primitiv era un narcisist căruia îi păsa prea puţin de ceilalţi, de unde rezultă că psihologia individuală este la fel de veche ca cea de grup. Mă rog, la fel face şi în alte lucrări. De exemplu, în Totem şi Tabu mai întâi afirmă că fiii frustraţi îl ucid şi apoi îl mănâncă pe tatăl lor, după care, în altă parte, spune că, poate, fiii doar şi-au imaginat acest lucru, n-au trecut neapărat la fapte. Un astfel de stil nu ajută deloc înţelegerii textului şi e greu să-i contrazici pe cei care l-au acuzat pe Freud de lipsă de seriozitate.

În ce priveşte calitatea intrinsecă a ipotezelor sale, acestea sunt de multe ori neconvingătoare şi nearticulate. Ce legătură există între psihologia mulţimilor aşa cum e descrisă pe baza invidiei iniţiale faţă de fraţi şi cea descrisă pe baza hoardei dominată de un mascul extrem de puternic? Cum a stabilit el că toţi copiii sunt geloşi faţă de fraţii lor mai mici? Cum remarca şi Adler, Freud nu a fost în familii de muncitorii cu turme de copii care se înghesuie în aceeaşi cameră, cărora nu le arde de complexe Oedip şi alte subtilităţi psihanalitice, construite pornind de la un model burghez de familie şi educaţie.

Iar descrierea „destinelor” hoardei primitive este chiar comică. De unde până unde stabilea masculul şef tot ce mişca în acea hoardă? În lumea animală, unde grupurile sunt dominate de un mascul puternic ce controlează toate femelele, există şi „şmecheri”, masculi care se împreunează cu femeile pe ascuns, în timp ce masculul dominant se bate cu alţi pretendenţi la titlu. Dacă tot sunt oamenii aşa de deştepţi, nu puteau fiii să-l trimită pe tată la plimbare, să alunge lupii, iar ei să se relaxeze acasă cu femeile[6]? Şi de ce ar exista relaţii de egalitate între fii şi nu ierarhii de putere, cum pare mult mai plauzibil să credem?

O altă problemă este că explicaţiile lui Freud se bazează exclusiv pe psihologia masculină. Dar masele includ şi femei, nu numai bărbaţi. Le aplicăm aceleaşi filtre explicative şi lor, fără nici o calificare?  La fel, conducătorul o fii important pentru masele artificiale pe care le analizează Freud, dar masele spontane descrise de Le Bon pot acţiona şi fără conducători sau cu mai mulţi conducători. Însă pe Freud nu-l preocupă absolut deloc astfel de cazuri, singurele mulţimi asupra cărora se opreşte fiind armata şi biserica, care par să se potrivească cel mai bine teoriei sale. Însă nici în această privinţă nu este credibil, întrucât ar fi fost mai potrivit ca, în loc de armată şi biserică – instituţii mari şi eterogene –, să vorbească despre anumite secte şi grupări militare cu grad ridicat de coeziune şi omogenitate, deşi nici chiar acolo nu poţi exclude rolul crucial al fricii de pedeapsă, al perceperii legitimităţii şi al altor factori psihologici care pot ruina o explicaţie în termeni libidinali.

Este dificil să scapi senzaţiei că Freud nu îşi pune întrebările ca un veritabil om de ştiinţă, care ar trebui să fie sceptic faţă de tot, toţi şi toate, ci pare că încearcă să-şi aplice principiile psihanalitice peste tot, indiferent de cât de plauzibil sună interpretările sale. La urma urmelor, Freud însuşi s-a declarat în primul rând conchistador, nu om de ştiinţă, recunoscând, implicit, că este dispus să comită abuzuri semnificative pentru a-şi atinge ţelul suprem: cucerirea unor teritorii

[1] Se ştie că dictatori ca Hitler şi Mussolini erau admiratori declaraţi ai operei lui Gustave Le Bon. Mă întreb care era părerea lor despre acest pasaj.

[2] Mi se pare de-a dreptul hilar că i se atribuie o astfel de influenţă lui Gustave Le Bon. Este extrem de dificil să-ţi imaginezi că, dacă nu ar fi citit Psihologia mulţimilor, Hitler şi Mussolini s-ar fi ocupat cu cultivarea panseluţelor sau ar fi militat pentru dezarmare şi pace mondială.

[3] Pentru Konrad Lorenz, lucrurile se petrec exact invers, panica determinând recăderea oamenilor la structura cetei anonime, adică cea mai primitivă formă filogenetică de socializare.

[4] Narcisismul i se pare atât de important lui Freud încât, în altă parte, ajunge să susţină că somnul există deoarece nu suportăm prea mult lumea obiectelor pe care naşterea ne forţează să o percepem şi, în consecinţă, ne întoarcem periodic la starea de „ narcisism suficient sie însuşi” care ne caracteriza înainte de naştere.

[5] În Totem şi Tabu aflăm că soarta acestui tată tiranic a fost destul de crudă, fiii frustraţi ucigându-l şi devorându-l (pp. 319-322).

[6] Nu fac o glumă gratuită. Extrem de relevantă în acest sens este clasica teorie a creierului uman ca instrument social elaborată de Nicholas Humphrey, conform căreia selecţia intra-specifică a favorizat tocmai indivizii „şmecheri”, cu abilităţi sociale deosebite, capabili să-şi manipuleze semenii prin minciună, disimulare şi viclenie. Acest fapt ar explica aşa-numitul proces auto-catalitic, adică creşterea spectaculoasă a creierului omenesc într-un interval evolutiv scurt (Humphrey, 1976; vezi şi Alexander, 1990).

 

Disputele generate de rezultatele privind alegerile pentru funcția de primar de la Sectorul 1 București au condus, deja, la publicarea a cel puțin două articole foarte interesante, care folosesc analize statistice pentru a ajuta la elucidarea situației.  Ca să facem o foarte scurtă recapitulare, candidatul USB, doamna Clotilde Armand, a pierdut la mustața în fața contracandidatului PSD după ce, inițial, părea favorită la câștigarea funcției. Întrucât la 18 secții de votare Tudorache a câștigat suspect de multe voturi în comparație cu Armand, USB-ul a depus o întâmpinare prin care cerea renumărarea voturilor. Solicitarea a fost respinsă.

Este întemeiată această contestație sau nu? Atât Radu Craiu, pe Contributors, cât și Ștefan Vlaston, în Adevărul, consideră că analiza statistică poate aduce dovezi indiscutabile în favoarea contestației. Sunt perfect de acord cu opinia lor. Totuși, întrucât abordarea mea analitică diferă în câteva puncte esențiale de abordarea dânșilor, doresc să prezint propriile analize în completare la ceea ce s-a scris deja, pentru a contribui la o înțelegere cât mai adecvată a acestor rezultate. Pe scurt, voi arată că (1) relația dintre voturile nule și cele ale candidatului USB trebuie regândită, (2) există o relație negativă suspectă între voturile nule și voturile primite de Armand  care se manifestă inclusiv în secțiile necontestate și în cele în care Armand a câștigat, (3) chiar dacă e importantă, această relație nu e suficientă pentru a explica ce s-a întâmplat în cele 18 secții problematice, unde lucrurile se prezintă mult mai urât decât lasă să se vadă datele publicate până acum.

I. Ambele analize menționate anterior susțin că există (a) o corelație pozitivă semnificativă între numărul de voturi nule înregistrate pe secție și numărul de voturi obținut de Tudorache și (b) o corelație asemănătoare lipsește în cazul doamnei Armand. Ambii autori consideră că e anormal să constatăm o corelație pozitivă între voturile nule și voturile obținute de un candidat. Dimpotrivă, consider că, în multe situații, ar fi perfect normal ca la nivel de secții de votare să existe o corelație pozitivă între voturile de obținute de un candidat și voturile nule, deoarece secțiile de votare diferă ca număr de votanți și cu cât este mai ridicat numărul de votanți de la o secție cu atât va fi mai mare numărul voturilor obținute de un candidat dar și numărul voturilor nule (presupunând că nu existe diferențe importante ale proporției voturilor nule în funcție de secția de votare). Pentru exemplificare am creat tabelul de mai jos:

Voturi exprimate/secție Voturi nule Voturi candidat A Voturi candidat B
100 10 45 30
200 20 90 60
300 30 135 90
400 40 180 120
500 50 225 150
600 60 270 180

 

Tabelul include date fictive privind șase secții de votare ce diferă în privința numărul de voturi exprimate. Presupunem că procentajul voturilor nule este similar de la o secție la alta, având valoarea de 10%. Candidatul A obține 50% din voturile valide exprimate în fiecare secție iar candidatul B 33,33%. Se observă ușor existența unei corelații pozitive între voturile obținute de ambii candidați și voturile nule: cu cât un candidat are mai multe voturi într-o secție cu atât mai ridicat e și numărul voturilor nule.  Bineînțeles, aceste date sunt ultra-simplificate și idealizate, de dragul exemplificării.  Însă o corelație semnificativă între numărul de votanți înscriși la o secție de votare și numărul de voturi nule se observă și pe datele obținute le secțiile de votare din Sectorul 1, după cum se poate observa în figura de mai jos:

figure1

Aceste analize sugerează că relația observată între voturile nule și voturile lui Tudorache nu este deloc problematică. Dimpotrivă, ceea ce e îngrijorător este faptul că nu găsim o relație asemănătoare și la Armand!

II. Acum e momentul să introduc a doua observație importantă: câtă vreme voturile nule și ale candidaților variază în funcție de numărul votanților din secții înseamnă că analizele anterioare, care s-au folosit de variabile brute, trebuie ajustate.

O metodă ar fi să calculăm corelații parțiale, care înlătură efectul unor terțe variabile. De pildă, dacă facem niște corelații simple între voturile nule și voturile candidaților, valorile obținute sunt de 0,611 (p<.001) pentru  Tudorache și 0,023 (p=ns) pentru Armand. Asta știam deja. În schimb, dacă calculăm o corelație parțială, în care eliminăm efectul numărului total de voturi exprimate la secții, atunci valorile se schimbă radical:   0,483 (p<.001) pentru Tudorache, dar -0,592 (p<.001) pentru Armand. O alternativă mai simplă este ca în locul numărului total de voturi nule și voturi obținute de candidați pe secții să calculăm procentaje raportate la numărul voturilor exprimate pe secții.  Dacă creăm aceste variabile noi, obținem, din nou, o corelație pozitivă între procentul voturilor nule și procentul lui Tudorache 0,533 (p<.001) și una negativă pentru Armand -0,542 (p<.001).

Ca să fie mai clar despre ce vorbesc, mai jos am refăcut scatter-plotul doamnei Armand, care nu indica nicio o relație semnificativă în analizele anterioare, dar am marcat punctele prin dihotomizarea voturilor exprimate la secțiile de votare (i.e., roșu – secții cu puține voturi exprimate vs albastru – secții cu multe voturi exprimate).

figure2

 

Se poate observa că, dacă luăm în calcul voturile exprimate, norul inițial de date ascundea o relație negativă semnificativă. Bineînțeles, prin dihotomizare se pierd multe informații comparative cu alte metode, dar acest grafic are doar un rol exemplificativ.

Pe scurt, această metodă de analiză indică nu numai absența unei corelații pozitive la doamna Armand dar identifică prezența unei puternice corelații negative. De unde provine și ce efecte are această corelație negativă, care ridică mari semne de întrebare?

III. Să joace un rol crucial cele 18 secții de votare incriminate de USB in contestația lor? Pentru a încerca un răspuns la această întrebare, am modificat și extins modelul lui Radu Craiu prin efectuarea unei analize de regresie în care am introdus ca variabile prezise procentajele obținute de Tudorache, respectiv Armand, iar ca predictori (1) procentul voturilor nule, (2) secțiile problemă (cele 18 secții reclamate de USB la BEC vs restul secțiilor de votare), (3) interacțiunea dintre secțiile problemă și procentul voturilor anulate și (4) prezența la vot.  Primele opțiuni sunt clare, ultimele două trebuie explicate.

Prezența la vot a fost introdusă în ecuație deoarece a fost asociată semnificativ atât cu procentajul voturilor nule (negativ) cât și cu voturile obținute de candidata USB (pozitiv). Deci, este necesar să verificăm dacă nu cumva voturile nule sunt invers corelate cu cele pentru Armand deoarece aceste voturi sunt mai probabile în secțiile cu prezență scăzută la vot, adică tocmai în acele secții în care Armand obține mai puține voturi.  Corelațiile respective se pot vedea în cele două figuri de mai jos.

 

Pe de altă parte, interacțiunea dintre tipul secțiilor și voturile nule a fost introdusă deoarece în acest fel putem verifica dacă relația dintre voturile nule și voturile primite de Armand diferă semnificativ în funcție de caracterul problematic sau non-problematic al secțiile de votare. Cu alte cuvinte, adăugarea acestei interacțiuni ne permite să obținem mult mai multe informații decât în cazul unei simple analize.

Rezultatele analizelor de regresie sunt prezentate în tabele de mai jos (primul pentru Tudorache, al doilea pentru Armand):

 Variabila prezisa:

 

voturi Tudorache

 

 

Predictori:

Coeficienti nestandardizati Coef.standardizati Valoare t Semnificatie
B Eroare standard Beta
Constanta 25.669 4.150   6.185 .000
Voturi nule 2.067 .398 .408 5.199 .000
Sectie de votare -1.503 4.962 -.070 -.303 .762
Interactiune nul-sectie 1.332 .996 .323 1.338 .183
Prezenta la vot -.069 .092 -.052 -.750 .454

 

 Variabila prezisa:

 

voturi Armand

 

 

Predictori:

Coeficienti nestandardizati Coef.standardizati Valoare t Semnificatie
B Eroare standard Beta
Constanta 30.315 4.465   6.790 .000
Voturi nule -2.138 .428 -.376 -4.999 .000
Sectie de votare .777 5.339 .032 .145 .885
Interactiune nul-sectie -1.614 1.071 -.348 -1.507 .134
Prezenta la vot .185 .099 .124 1.871 .063

 

Ce ne spun aceste rezultate? În primul rând, trebuie observat că relația negativă dintre voturile nule și Armand rămâne în picioare chiar și când controlăm ecuația pentru mai multe variabile. Chiar și în secțiile necontestate (notate cu 0 în analiză) candidatul USB primește cu atât mai puține voturi cu cât sunt mai multe voturi anulate (în paranteză fie spus, relația negativă dintre voturile nule și voturile pentru Armand este negativă și semnificativă chiar și dacă analizăm exclusiv secțiile în care Armand a câștigat)! Lucrurile diferă destul de mult în secțiile contestate.  În acest caz, coeficientul nestandardizat este aproape dublu ca mărime (-2.138-1,614=-3,752) față de cel din secțiile necontestate (-2.138).  Chiar dacă aceste valori sunt ridicate interacțiunea nu este semnificativă deoarece vorbim despre un număr mic de cazuri analizate.

Efectele constatate ne spun că diferența dintre secții nu ține de natura relației, în ambele cazuri aceasta fiind negativă. Dimpotrivă, diferența este dată de faptul că în secțiile problematice relația este mai puternică, creșterea procentului voturilor nule fiind asociată unei scăderi evident mai pronunțate a voturilor pentru Armand decât în cazul celorlalte secții. Pentru a înțelege lucrurile mai ușor am elaborat și figura de mai jos, care exprimă relația dintre voturile USB și voturile nule în funcție de natura secțiilor:

figure5.png

În cazul lui Tudorache lucrurile se prezintă exact invers:

figure6.png

 

Dacă luăm în calcul cele două tendințe opuse, rezultă că, în virtutea unui efect cumulativ, trebuie să ne așteptăm la diferențe foarte mari între voturile primite de cei doi candidați în secțiile contestate.  Într-adevăr, diferențele existente sunt foarte mari: dacă în secțiile necontestate Tudorache primește în medie cu 2,24 voturi mai mult decât Armand, în secțiile reclamate de USB diferența în favoarea lui Tudorache crește la o medie de 72,2 voturi!

Orice om cu scaun la cap pus în fața unor asemenea cifre nu poate să le privească decât cu suspiciune.  Totuși, trebuie să dăm dovadă de spirit critic și să ne întrebăm dacă nu cumva aceste diferențe n-ar putea constitui rodul unui joc al întâmplării? Cu alte cuvinte, nu este cumva posibil ca, luând la întâmplare oricare 18 secții din totalul de 163, să obținem diferențe asemănătoare? Pentru a răspunde la această întrebare am scris un cod pentru o simulare care a extras 5000 de eșantioane aleatorii a câte 18 secții fiecare și am calculat, pentru fiecare în parte, diferența dintre avantajul mediu al lui Tudorache în eșantionul aleatoriu de 18 secții și avantajul mediu al lui Tudorache in restul secțiilor de votare. Mărimea și frecvența acestor diferențe este prezentată în histograma de mai jos:

figure7

După cum prezice teorema limitei centrale, distribuția aproximează una de tip normal. Este important de reținut că valoarea minimă a diferenței obținută în cadrul simulării a fost de –51.50 iar valoarea maximă de 58.80. Cu alte cuvinte, în niciunul dintre cele 5000 de eșantioane ale simulării diferența nu s-a ridicat la nivelul diferenței constatate în realitate, de aproape 70 voturi!

 Pentru a înțelege și mai bine cât de stranii sunt diferențele constatate în cazul secțiilor problematice să completăm cifrele simulării cu altele, reale, dar la fel de grăitoare. În secțiile necontestate de USB, candidații Tudorache și Armand au obținut împreună un total de 40.030 de voturi valide, din care Tudorache s-a ales cu un avantaj net de 326 de voturi față de Armand. Pe de altă parte, în cele 18 secții reclamate, cei doi candidați au obținut împreună doar 4694 de voturi, dar Tudorache s-a ales, de data aceasta, cu un avantaj incredibil de 1390 de voturi!

Mergând mai departe cu analizele, trebuie observat că diferența medie de voturi în favoarea lui Tudorache la cele 18 secții problematice este mult mai mare decât diferența medie a voturilor nule. După cum am mai spus, în primul caz vorbim despre 2,24 de voturi vs 72,2, pe când în cazul voturilor nule vorbim despre o medie de 17,08 voturi anulate în secțiile necontestate față de o medie de  22,78 de voturi anulate în secțiile contestate.

Ce implică această discrepanță evidentă? Un lucru esențial: chiar dacă am porni de la premisa că toate cele 410 voturi anulate la secțiile problematice sunt de la Armand și i le-am returna, Tudorache tot ar păstra un avantaj de 980 de voturi în aceste 18 secții, deci de trei ori mai mare decât în restul de 145 de secții! Din punctul meu de vedere această situație sugerează cât se poate de clar că, deși  voturile nule joacă un rol semnificativ, ele nu joacă rolul principal. Cred că aici avem de-a face cu efectele unor procese multiple nu al unuia singur. Ce fel de procese, pot doar să speculez. Pentru a construi și verifica scenarii plauzibile e nevoie de cineva care să cunoască  foarte bine atât situația electorală din Sectorul 1 cât și metodele incorecte folosite de actorii politici în timpul alegerilor.

Am citit cu maximă atenție răspunsul domnului profesor David. Din motive care îmi scapă, dânsul a ales să persevereze în eroare, conferind și mai multă greutate criticilor mele. Întrucât neadevărurile și deformările pe care le promovează sunt numeroase și importante, lămurirea lor necesită detalii care mă obligă să fie selectiv. Dată fiind greutatea lor în economia lucrării, în intervenția de față mă voi concentra exclusiv asupra problemelor metodologice. Pentru început voi lămuri statutul și miza reformelor metodologice din psihologia contemporană, după care voi demonstra consecințele nefaste ale confuziilor și deciziilor eronate pe care se întemeiază Psihologia poporului român.

 

  1. Despre statutul și miza reformelor metodologice

1.1. Care sunt standardele minimale ale APA? Domnul David neagă că folosirea intervalelor de încredere ar reprezintă un standard minimal în psihologia contemporană. Mă văd nevoit să-l contrazic, deoarece manualul APA e foarte clar în această privință: “The degree to which any journal emphasizes (or de-emphasizes) NHST is a decision of the individual editor. However, complete reporting of all tested hypotheses and estimates of appropriate effect sizes and confidence intervals are the minimum expectations for all APA journals” (APA Manual, pp. 33, s.n.).

1.2. Există reviste importante care implementează aceste standarde? Standardele cerute de APA au fost adoptate de unele dintre cele mai puternice reviste de psihologie. Astfel, reviste precum Psychological Science, Personality and Social Psychology Review, Personality and Social Psychology Bulletin, Emotion, Journal of Experimental Psychology: General cer autorilor să se conformeze acestor standarde. Domnul David susține că în ultimii cinci ani nimeni nu i-a cerut să ofere intervale de încredere. În realitate, domnul David a publicat, în calitate de co-autor, în prestigioasa Journal of Consulting and Clinical Psychology, adică tocmai în prima publicație APA care a impus folosirea intervalelor de încredere (Odgaard și Fowler, 2010). Bineînțeles, în acel articol David și colegii săi au oferit intervale de încredere. Deoarece au utilizat metoda modelării statistice, intervalul de încredere folosit a fost pentru RMSEA, un indice de potrivire (exact același interval de încredere l-am folosit și eu în studiile mele, despre care domnul David susține că nu oferă intervale de încredere).

1.3. Care este atitudinea experților față de revistele care întârzie implementarea reformelor metodologice? Deși au trecut mai mulți ani de la publicarea ediției a 6-a a manualului APA, există multe reviste de psihologie care încă nu au implementat cerințele sale. Specialiștii de renume deplâng întârzierea cu care mulți se raliază la aceste standarde sau la altele chiar și mai restrictive. Unele dintre cele mai critice voci le regăsim tocmai în onorabila revistă întemeiată de domnul David: “… psychotherapy literature often lags in adopting reforms such as recognition of risk of bias, reporting standards, and preregistration of trials…it is striking to see the extent to which the literature continues to depend on small, methodologically flawed RCTs [random controlled trials] conducted by investigators with strong allegiances to one of the treatments being evaluated…Many positive findings in psychotherapy research are created by spinning outcomes, involving confirmatory bias, flexible rules of design and recruitment, data analysis, selective outcome reporting and significance chasing …We need to continually expose journals’ failures to enforce accepted standards…” (Coyne & Kok, 2014, s.n.).

1.4. Care este miza din spatele acestor reforme metodologice? Răspunsul este foarte simplu: viitorul psihologiei ca știință. Din punct de vedere istoric, un rol fundamental în adoptarea noilor reforme l-au avut criticile continue și dure la adresa abordării semnificației statistice (NHST) venite din partea unora dintre cei mai renumiți specialiști. De pildă, Jacob Cohen, unul din greii secolului XX, deplângea faptul că „NHST nu numai că nu a contribuit la progresul psihologiei ca știință, dar chiar i-a pus piedici serioase” (Cohen, 1994, p. 997). Același psiholog a denunțat puterea statistică foarte scăzută a studiilor psihologice (Cohen, 1988) dar și evitarea folosirii de către psihologi a intervalelor de încredere pentru mărimea efectului pe motiv că acestea ar fi, cel mai adesea, „rușinos de mari” (Cohen, 1994, p. 1002).

Alți specialiști au acuzat faptul că interacțiunea dintre logica NHST și presiunea de a publica continuu în reviste cât mai prestigioase are drept efect pervers folosirea de către cercetători a numeroase practici dubioase (Kerr, 1998). Într-adevăr, psihologia a fost zguduită de mai multe scandaluri de fraudă, cel mai răsunător fiind al lui Stapel, celebrul psiholog olandez care a fabricat fără jenă datele a 53 de studii publicate în reviste dintre cele mai prestigioase, inclusiv Science. Faptul că cei mai mulți dintre acești autori au fost prinși doar datorită unor „turnători” i-a determinat pe Stroebe, Postmes și Spears (2012) să concluzioneze că credința în capacitatea științei de a se auto-corecta, prin peer-review sau replicare, este doar un mit.

Pe lângă scandalurile de fraudă, credibilitatea psihologiei a suferit și datorită crizei replicabilității. De pildă, un articol recent din Science a încercat să replice 100 de studii psihologice importante. Deși 97% din rezultatele inițiale fuseseră semnificative, doar 36% dintre replicări au avut rezultate semnificative. Mai mult, mărimea medie a efectului obținută de replicări a fost de două ori mai mică decât valorile inițiale (Open Science Collaboration, 2015).

În fine, anumite rezultate care frizează absurdul i-au determinat pe mulți experți să arate cu degetul, din nou, spre standardele metodologice prea relaxate. Cel mai celebru caz de acest gen este cel al lui Bem, care, într-un articol publicat de una dintre cele mai prestigioase reviste de psihologie, a susținut că a reușit să demonstreze experimental existența unor fenomene paranormale (mai exact, faptul că reacțiile noastre prezente sunt determinate retroactiv de fenomene viitoare). Editorii revistei au susținut că nu există nici un motiv pentru care un articol să fie judecat altfel din punct de vedere metodologic, doar pentru că abordează subiecte mai puțin populare. Asta nu a împiedicat însă o avalanșă de reacții care de care mai dure, mergând până la exprimarea unor îndoieli serioase cu privire la viitorul psihologiei  (LeBel și Peters, 2011). Foarte relevant e și articolul prin care Simmons, Nelson și Simonsohn (2011) au dovedit cât de ușor e să produci rezultate semnificative pentru ipoteze dintre cele mai absurde (e.g.,  au „demonstrat” că ascultarea unei melodii te întinerește, la propriu).

Problema e ca nu vorbim despre un singur articol. O serie de analize recente au arătat că, dintre articolele de psihologie publicate în Science sau Psychological Science și pentru care s-a putut calcula raportul dintre succesul pretins de autori (în termeni de rezultate semnificative) și rata succesului justificată de mărimea eșantionului și mărimea efectului, succesul raportat de autori s-a dovedit excesiv pentru cca. 80% dintre acestea (Francis, Tazman și Matthews, 2014; Francis, 2014). La fel, Fanelli (2010) a argumentat că devreme ce maturitatea unei discipline științifice variază direct proporțional cu severitatea normelor metodologice care constrâng activitatea cercetătorilor, ar trebui să varieze invers proporțional și cu rata rezultatelor pozitive raportate de aceștia. În acord cu această perspectivă, analiza mai multor mii de cercetări din diverse domenii a arătat că cele mai puține rezultate pozitive sunt raportate în științele spațiului și cele mai multe în psihologie și psihiatrie.

Pentru a rezuma: psihologia trece printr-o etapă de reforme metodologice foarte importante pentru viitorul său ca disciplină științifică iar acest reforme cer psihologilor să adere, printre altele, și la noi standarde de raportare a cercetărilor. E complet neproductiv și neinspirat să negi existența acestor reforme și sincer chiar nu înțeleg de ce domnul David a ales această variantă, pe care a mai corelat-o și cu un deloc onorabil argument ad hominem. Mă refer, de exemplu, la afirmația că nu aș înțelege sensul „profund” al metodologiei psihologice deoarece sunt absolvent de psihopedagogie. Pentru a da greutate acestui pseudo-argument, domnul David a șters însă complet cu buretele aspecte cheie ale experienței mele profesionale, cum ar fi calitatea de membru în consiliul editorial al unei reviste ISI respectabile, calitatea de reviewer ad-hoc pentru reviste de top din domeniu sau câștigarea unei foarte prestigioase și exclusiviste distincții internaționale pentru cercetările mele în domeniul psihologiei sociale. Se pare că pentru domnul David un curs de metodologie din anul I de facultate valorează mult mai mult decât recompensarea unor cercetări aprofundate în domeniul psihologiei sociale cu o distincție care se acordă anual la doar câțiva cercetători din toată lumea, majoritatea lucrând în universități de top și doar 6% în domeniul psihologiei.

  1. Consecințele nefaste ale încălcării unor principii metodologice elementare

Domnul David afirmă cu seninătate că intervalul de încredere este „superfluu cu privire la generalizarea la populație”, „că, atunci când compari două eșantioane (ex. cetățeni români-etnici români vs. cetățeni români etnici maghiari) nu este nevoie să ai eșantion reprezentativ pentru fiecare etnie pentru a formula concluzii valide cu referire la diferența dintre etnii”. În fine, domnul David reafirmă că strategia sa este „prea  conservatoare…deoarece dacă eșantionul etnicilor maghiari ar fi fost în jur de 60 de persoane (deci, doar cu aproximativ 10 persoane în plus!), atunci aveam, deja, puterea statistică pentru a identifica o mărime a efectului de minimum 0.35… Cine cunoaște însă logica puterii statistice și a relațiilor dintre mărimea efectului, mărimea eșantionului, pragul de semnificație și puterea statistică, înțelege de ce spun că am fost chiar prea conservator!”.

2.1. Ce înseamnă, de fapt, puterea statistică? Îmi pare rău că trebuie să o repet, dar domnul David perseverează într-o serie de confuzii grave, inclusiv la nivelul logicii paradigmei NHST, și nu pare să realizeze consecințele metodologice devastatoare ale acestora. Ceea ce domnul David numește putere statistică constituie, de fapt, mărimea minimă a diferenței observate pe eșantion pentru care testul ne spune că avem de-a face cu o diferență semnificativă din punct de vedere statistic. După cum arată orice manual introductiv, puterea statistică a unui test înseamnă altceva, și anume probabilitatea ca testul să respingă o ipoteză nulă falsă. Puterea statistică este determinată de pragul de semnificație, eșantion și mărimea efectului. Dar vorbim despre mărimea efectului la nivelul populației, nu de cea observată pe eșantion! Cei care au acces la tabelele de putere din celebra carte a lui Jacob Cohen vor observa că domnul David tratează ca putere statistică cifrele din coloana a doua în locul celor din coloanele 3-13 (Cohen, 1988).

Dacă vrem într-adevăr să vorbim despre puterea statistică a unui test de a detecta o mărime reală a efectului de 0,35 pe baza comparării mediilor a două grupuri de 50 de persoane, atunci trebuie să știm că aceasta este foarte redusă, de numai 40%. Cu alte cuvinte, din 100 de teste doar 40 vor respinge ipoteza nulă falsă. Deci, dacă există un efect real de 0,35 la nivelul populației, îl vom rata în 60% din cazuri! Dacă mărim eșantionul la 60 de subiecți pe grup, puterea statistică ar crește doar ușor, la 47%. Chiar și așa, situația de atât de proastă încât e aproape ca și cum ai da cu banul! De fapt, pentru a ajunge la o putere de 90% în identificarea unei mărimi a efectului de 0,35 (și deci la un nivel acceptabil al erorii de tip II) am avea nevoie de eșantion minim de 346 de subiecți (câte 173 în fiecare grup). Însă, după cum vom vedea mai încolo, un eșantion cu putere statistică mare nu este neapărat și unul precis.

Ca să mă exprim mai intuitiv voi apela la o analogie. Să ne imaginăm că eșantioanele sunt plase cu ajutorul cărora încercăm să „pescuim” efecte. Un eșantion mic ar fi echivalentul unei plase cu ochiuri rare, iar un eșantion mare echivalentul unei plase cu ochiuri dese. Un rezultat semnificativ din punct de vedere statistic este atunci când plasa nu va fi goală. Puterea statistică a unui test ar reprezenta proporția succeselor pe care le avem în încercările noastre de a pescui atunci când există pește în lac. O plasă cu ochiuri dese ne va permite o rată ridicată a succesului chiar și pentru pești de dimensiuni mai mici. În schimb, în aceeași situație, o plasă cu ochiuri largi ne va lăsă cel mai adesea cu mâna goala. Asta nu înseamnă că nu există pești în lac. Doar că ochiurile plasei sunt prea largi pentru ei.

Un alt aspect important este că mărimea efectului de 0,35 a fost aleasă relativ aleatoriu de domnul David. În mod normal ar fi trebuit să se gândească la mărimea probabilă a efectelor pe care le studiază, așa cum se prezintă ele în populație. Aici avea la dispoziție o serie de meta-analize, inclusiv o meta-analiză a meta-analizelor care a  integrat rezultatele a 25.000 de studii, cu date colectate de la peste 8.000.000 de persoane. Acest studiu a arătat că, în cazul diferențelor intergrupale – adică cele studiate de Psihologia poporului român – efectele obținute sunt cel mai adesea mici. Astfel, valoarea medie a d a fost în jur de 0,2 atât pentru diferențele rasiale (dintre afro- și anglo-americani), cât și pentru diferențele de gen sau diferențele urban-rural (Richard, Bond și Stokes-Zota, 2003).  Evident, asemenea efecte mici schimbă ecuația puterii statistice. În detectarea unui efect mic (d= 0,2), un eșantion de 50 de subiecți per grup oferă o putere statistică total neadecvată, de doar 17%, iar unul de 60 de subiecți per grup o putere de doar 19%. Pentru a asigura o putere de 90% în detectarea unui asemenea efect, e nevoie de un eșantion total de 1054 de subiecți (527 în fiecare grup), iar pentru a asigura aceeași putere pentru un efect și mai redus, de 0,1 avem nevoie de un total de 4206 subiecți (2103 în fiecare grup).

Având în vedere aceste cifre, sper să fie și mai clar de ce am criticat pretențiile PPR că ar oferi „cunoștințe validate științific în baza unor eșantioane reprezentative și/sau cu putere statistică suficientă”. Trebuie reamintit că între componentele cardinale ale profilului psihologic al românilor domnul David a inserat rezultate bazate pe comparații care au inclus chiar și eșantioane de 17 sau 37 de persoane. Dânsul susține cu fermitate că asta nu reprezintă o problemă. Fals! Când ai un grup de 953 de persoane și altul de 17 persoane atunci puterea statistică se calculează pornind de la o medie armonică. În exemplul de față, aceasta ne arată că trebuie să căutăm valorile de putere statistică corespunzând unui n=33. Ceea ce înseamnă că și pentru un efect real de 0,5 în aceste condiții am avea o putere statistică de doar 50%. Practic, eșantionul foarte redus compromite puterea comparației chiar și în condițiile în care celălalt eșantion e extraordinar de bun. Acest aspect poate fi înțeles și printr-o reducere la absurd: câtă credibilitate ați acorda unei comparații între înălțimea medie calculată pe unui eșantion de 100 de milioane de americani și cea calculată pe un eșantion de 4 români? Nu trebuie să fii expert în statistică pentru a realiza că ceva e putred într-o astfel de comparație. Într-adevăr, media armonică a acestor eșantioane ne direcționează spre n=8, adică spre puteri statistice extrem de scăzute chiar și pentru efecte puternice.

În plus, trebuie să subliniem că a fi conservator nu înseamnă să ignori efectele mici, mai ales dacă acestea sunt caracteristice pentru tema studiată, cum am văzut mai sus. Cel mai înțelept este să te asiguri că ai puterea statistică necesară pentru a le detecta, altfel te angajezi într-o aventură periculoasă. Pentru că dacă un efect e mic nu înseamnă obligatoriu că e și neimportant. Într-un articol clasic, Abelson (1985) a demonstrat cum efecte extrem de mici pot fi, de fapt, foarte importante atâta vreme cât se acumulează în timp. De exemplu, efectul fumării unui pachet de țigări poate fi neglijabil dar fumatul pe termen lung cauzează marea majoritatea a cancerelor pulmonare. La fel, o intervenție educațională inovatoare poate să nu prezinte rezultate spectaculoase pe termen scurt dar să cântărească foarte mult în condițiile în care este repetată ani în șir. Vezi de pildă estimările care se fac regulat pe baza testelor PISA și care demonstrează convingător câte miliarde de euro poate să piardă pe termen lung o țară care nu implementează reforme educaționale în aparență lipsite de spectaculozitate.

 

2.2. Care sunt efectele acestor confuzii metodologice și ale deciziei domnului David de a analiza doar acele rezultate care sunt semnificative și au o mărime observată a efectului mai mare de 0,35? Pentru a oferi un răspuns cât mai intuitiv acestei întrebări voi apela la metoda simulării statistice, care este foarte frecvent folosită în literatura de specialitate. Aceasta prezintă avantajul că poți crea populații artificiale cu distribuții clar determinate din care poți extrage ulterior un număr ridicat de eșantioane aleatorii și să observi mult mai ușor comportamentul testelor statistice care te interesează.

Într-o primă etapă, am generat trei tipuri de date: (a) populații între care există o diferență medie corespunzând unei mărimi a efectului mică spre medie, d=0,35, (b) populații între care există o diferență medie corespunzând unei mărimi a efectului mică, de d=0,2, (c) populații între a căror medii nu există nicio diferență. În fiecare caz, dimensiunea populațiilor a fost de 1.000.000 per grup iar distribuția variabilelor a fost normală. În fiecare caz, primul grup a avut o medie de 100 și o abatere standard de 15, iar în cazul celuilalt grup algoritmul a scăzut această medie, unde a fost cazul, astfel încât să obținem mărimea dorită a efectului.

În a doua etapă, algoritmul a extras un număr total de 38.000 de eșantioane aleatorii, câte 16.000 din fiecare din cele trei tipuri de populații și, în fiecare caz, câte 1000 pentru fiecare din cele 16 mărimi ale eșantioanelor (N1=N2=5,10,20,30, 40,50,60,70,80,90,100,150,200,250,300, respectiv 400). În ultima etapă, pe baza datelor din fiecare eșantion, au fost calculate mediile, abaterile standard, testul t, mărimea efectului observat și intervalul său de încredere. Rezultatele sunt redate în Figura 1 și Tabelul 1.

Figura 1 ne arată clar că, în cazul eșantioanelor mici, mărimea observată a efectului este foarte instabilă, fluctuând puternic în jurul valorii reale, din populație. De pildă, în cazul unei mărimi reale de 0,35, cele 1000 de comparații între eșantioane de câte 30 de subiecți au produs mărimi ale efectului care au oscilat între 1,07 și -0,73. Cu alte cuvinte, deși la nivelul populației diferența reală dintre mediile celor două grupuri a fost de aproximativ 5 puncte în favoarea primului grup, diferențele observate pe eșantioane au oscilat între 15,20 puncte în favoarea primului grup și 10,04 în favoarea celui de-al doilea grup. Ce să mai vorbim despre cele mai mici eșantioane ale simulării, unde am obținut mărimi ale efectului ce au oscilat între 4,95 și -1,85 (adică diferențe de până la șapte ori mai mari decât cele din populație)!

De observat însă că amplitudinea oscilațiilor  se reduce pe măsură ce crește mărimea eșantionului, ajungând să se stabilizeze după mărimi mai mari de 200 de subiecți per grup. Totuși, chiar și în cazul unui eșantion total de 800 de subiecți, mărimea observată a efectului oscilează între foarte mică și puțin peste medie! Deci, chiar și în condiții ideale, extrem de improbabile în realitate (e.g., eroare de măsurare nulă, probabilitatea egală a subiecților de a fi selectați în eșantion), rezultatele unui singur studiu efectuat pe un eșantion ceva mai răsărit pot oferi o imagine deformată a realității. Tocmai datorită unor astfel de fluctuații aleatorii este extrem de riscant să extragi concluzii puternice pe baza unor studii individuale care includ asemenea eșantioane.

 

grafice

Figura 1. Fluctuația mărimii observate a efectului (valori maxime și minime) în funcție de mărimea eșantionului și de mărimea reală a efectului la nivelul populației (a-mic spre mediu, b – mic, c – nul).

Devine la fel de clar de ce afirmația domnului David cum că intervalul de încredere este „superfluu cu privire la generalizarea la populație” reprezintă o nepermisă inversare a realității. Mărimea efectului observată pe un eșantion oarecare reprezintă un estimat care, în lipsa altor informații, nu ne spune nimic despre precizia sau acuratețea estimării. Tocmai deoarece probabilitatea ca un estimat punctual să fie egal cu mărimea efectului în populație este neglijabilă (de pildă, în cazul de față nici unul din cele 38.000 de studii virtuale nu a nimerit întocmai valoarea mărimii efectului în populație), pentru a cunoaște precizia acestui estimat trebuie să construim intervale de încredere în jurul său.

Aceste intervale de încredere includ informații atât despre estimatul punctual cât și despre eroarea sa standard, care este cu atât mai mare cu cât eșantionul este mai mic. Când am obținut o mărime a efectului de 0,52 într-un studiu care a inclus un total de 60 de subiecți și aceeași mărime a efectului pe un studiu care a inclus un total de 800 de subiecți, dacă ne centrăm exclusiv pe mărimea calculată lucrurile par înșelător de similare. De fapt, în primul caz intervalul de încredere al mărimii efectului variază între 0,01 și 1,04, pe când în al doilea caz intervalul variază între 0,38 și 0,66. Motivul pentru care primul interval este atât de larg este că la un număr atât de mic de subiecți eroarea standard a mărimii efectului este foarte ridicată. Ai un semnal slab și mult zgomot. Spre deosebire de estimatul punctual, intervalul de încredere ne avertizează, corect, că rezultatele obținute cu eșantioane atât de mici sunt foarte instabile. Instabilitate care se poate observa ușor în Figura 1. Cum spunea și reputatul metodolog Bruce Thomson: „Nu te îndrăgosti de estimatul tău punctual, cel puțin nu atunci când eroarea standard este ridicată” (Thomson, 2006, p. 205).

Pentru a înțelege cât de departe de realitate este domnul David când afirmă că strategia sa analitică este „prea conservatoare”, trebuie să ne uităm și la informațiile prezentate în  Tabelul 1. Coloanele dt ne arată mărimea medie a efectului observat când luăm în calcul toate cele 1000 de simulări per eșantion, pentru fiecare mărime reală a efectului în parte. Toate mediile au fost calculate ignorând direcția diferenței observate dintre medii. Se observă că eșantioanele foarte mici produc un bias evident, dar acesta se reduce treptat odată cu creșterea mărimii eșantioanelor, descreștere cu atât mai accelerată cu cât efectul real este mai mare. Deci, cu câteva mici excepții, dacă luăm în calcul toate observațiile, obținem o mărime a efectului apropiată de cea reală.

 

Tabelul 1. Rezultatele simulărilor statistice pentru cele trei mărimi ale efectului la nivelul populației: mărimea medie a efectului observat al tuturor simulărilor (dt); mărimea medie a efectului observat al simulărilor semnificative (ds); procentajul simulărilor semnificative (p<.05); procentajul simulărilor semnificative cu mărimea observată a efectului mai mare de .35 (ds>.35).

N   Dpop=0   Dpop=.20   Dpop=.35
dt ds p<.05 ds>.35 dt ds p<.05 ds>.35 dt ds p<.05 ds>.35
5 .55 1.89 4,8% 100% .57 1.98 4,6% 100% .63 1.89 7,2% 100%
10 .37 1.17 4,1% 100% .41 1.15 6,8% 100% .48 1.23 11,8% 100%
20 .25 .76 4,3% 100% .31 .80 8,7% 100% .40 .81 18,3% 100%
30 .21 .61 5,1% 100% .27 .64 13,9% 100% .37 .68 24,9% 100%
40 .18 .55 5,4% 100% .25 .56 13,9% 100% .37 .60 34,3% 100%
50 .16 .47 5,5% 100% .24 .50 17,1% 100% .38 .54 45,5% 100%
60 .14 .44 5,1% 100% .23 .47 20,7% 100% .35 .51 46,2% 100%
70 .13 .40 5,0% 80% .23 .44 22,9% 89.96% .35 .48 54,0% 93.33%
80 .13 .39 4,5% 53.33% .22 .41 25,2% 76.19% .35 .45 57,4% 84.67%
90 .12 .36 5,1% 49.02% .21 .39 27,0% 62.22% .34 .43 63,8% 74.76%
100 .11 .34 5,5% 25.45% .21 .37 29,4% 54.42% .35 .42 69,8% 72.64%
150 .09 .26 3,6% 2.78% .20 .31 38,5% 22.08% .35 .38 85,7% 59.28%
200 .08 .23 5,1% 0% .20 .28 52,7% 12.71% .35 .36 94,9% 51.63%
250 .07 .21 6,4% 0% .20 .26 61,7% 9.89% .35 .36 98,0% 52.04%
300 .07 .19 4,5% 0% .20 .24 68,1% 5.73% .35 .36 99,2% 54.03%
400 .06 .17 5,9% 0% .20 .22 82,6% 2.42% .35 .35 99,8% 52.00%

 

Această situație se schimbă dramatic dacă ne uităm la coloanele ds, care redau mărimea medie a efectului observat exclusiv în cazul diferențelor semnificative.  Aici constatăm că mărimea medie a efectului observat suferă de un bias inflaționist, oferindu-ne o imagine exagerată față de mărimea reală a efectului. De pildă, chiar dacă în simulările noastre mărimile reale ale efectelor au fost nule, mici sau mici spre medii, comparațiile semnificative între eșantioane de 50 de subiecți au oferit mărimi medii ale efectelor observate de aproximativ 0,50.

De ce se întâmplă acest lucru? Să revenim la analogia cu plasele de pescuit. Am văzut deja că, la fel cum o plasa cu ochiuri rare va avea o rată scăzută a succesului în capturarea unor pești mici și un eșantion redus va suferi de anemie statistică în capturarea unui efect modest. Însă – și acest aspect este crucial –, când vom prinde totuși pești mici, vom captura doar exemplarele cele mai mari, care se întâmplă să fie mai mari decât ochiurile plasei noastre. În consecință, ne vom forma o impresie deformată asupra dimensiunilor reale ale speciei respective. În cazul nostru, ochiurile plasei sunt constituite tocmai de acele valori pe care domnul David le confunda cu puterea statistică.

Ca și cum criteriul semnificației statistice nu ar deforma suficient de mult realitatea, domnul David introduce și criteriul mărimii minime a efectului observat, care duce la reținerea exclusivă a rezultatelor semnificative și cu o mărime observată a efectului de peste 0,35. În cazul eșantioanelor mici, având în vedere că diferența dintre medii trebuie să fie mare pentru a fi semnificativă, criteriul domnului David nu modifică biasul inflaționist, deoarece toate mărimile observate ale efectului sunt mai mari de 0,35 (vezi procentajele de 100% din coloanele ds>.35). În schimb, în cazul eșantioanelor mai mari consecințele sunt devastatoare. De ce? Deoarece aceste eșantioane oferă o putere statistică ridicată, fiind mai stabile și mai precise. Împotriva acestui atu considerabil, criteriul domnului David ne obligă să eliminăm o bună parte din rezultate, exacerbând efectul inflaționist. De pildă, în cazul unui efect real de 0,2, media mărimii efectelor observate în studiile semnificative cu eșantioane totale de 800 de subiecți este de 0,22, deci foarte apropiată de valoarea din populație. Motivul este dat de puterea statistică mai ridicată a acestor eșantioane (vezi coloana p<0,05, care redă totalul rezultatelor semnificative) care face ca cele mai multe observații să fie incluse în calculul acestei medii. Tocmai pentru că sunt mai bune în a estima mărimea reală a efectului aceste eșantioane au fluctuații mai puțin extreme. Ca urmare, doar 2,42% din rezultatele semnificative înregistrate în aceste cazuri au o valoare a efectului observat mai mare de 0,35. Ceea ce înseamnă, nici mai mult nici mai puțin, decât faptul că adoptarea criteriului domnului David va avea ca efect eliminarea a aproape 98% din rezultatele semnificative și păstrarea unei minorități extreme. Rezultatul inevitabil al acestei decizii iraționale? Dublarea mărimii observate a efectului! E ca și cum domnul David ar vrea să afle câștigurile medii ale celor care joacă la Loto eliminându-i pe cei care nu câștigă dar și pe cei care au câștigat la categoriile inferioare!

Bineînțeles, asta se întâmplă doar dacă analizăm un număr foarte ridicat de studii. Dacă avem mult mai puține la dispoziție, cum are și domnul David, atunci eroarea poate fi mult mai ridicată. De exemplu, dacă ne concentrăm doar pe primele 10 studii simulate pentru o mărime reală a efectului de 0,2 și având N1=N2=30, respectiv N1=N2=400, lucrurile se schimbă radical deoarece nici unul dintre studiile pe eșantioane mari ridicate nu observă mărimi ale efectului mai mari de 0,35 iar singurul studiu semnificativ condus pe un total de 60 de subiecți are o mărime observată a efectului de 0,87. Deci în acest caz criteriile domnului David ne îndepărtează de realitate și mai mult. Nu degeaba meta-analizele nu exclud studiile cu rezultate nesemnificative! Pentru că meta-analizele sunt interesate să determine cât mai precis mărimea efectului din populație, ele integrează atât rezultatele semnificative cât și cele nesemnificative și, mai mult, ponderează importanța fiecărui studiu în funcție de calitatea eșantionului, în sensul că studiile bazate pe eșantioane mici vor avea o pondere mai scăzută în calculul mărimii medii a efectului în comparație cu studiile bazate pe eșantioane mai mari. De exemplu, dacă am aborda în spirit meta-analitic cele 20 de studii incluse în analiza anterioară și am pondera efectele observate cu inversul varianței estimatelor punctuale, ponderea studiilor bazate pe eșantioane totale de 800 de subiecți are fi de peste 10 ori mai ridicată decât ponderea studiilor bazate pe un total de 60 de subiecți. Calculând raportul dintre suma efectelor ponderate și suma ponderilor vom obține o mărime medie a efectului de 0,19, care este semnificativă (testul Wald = 8,88) și are un interval de încredere de (0,15, 0,23). Aceste valori sunt cu mult mai apropiate de valoarea reală a efectului, de 0,2, decât valoarea de 0,87, pe care o obținem cu criteriile domnului David. Chiar și în condițiile în care am elimina toate studiile cu eșantioane totale de 800 de subiecți și am calcula efectul mediu exclusiv pe cele 10 studii cu eșantioane mici, tot am obține o mărime medie a efectului de 0,29 (testul Wald = 3,46), cu un interval de încredere de (0,12, 0,45).

Să nu uităm că aceste efecte au fost observate în condiții ideale. Cele mai multe eșantioane din cercetările reale nu sunt aleatorii iar eroarea de măsurare poate fi foarte mare. De pildă domnul David raportează unii indici de fidelitate chiar mai reduși de 0,60. Într-adevăr, când itemii sunt puțini e greu să obții indici de fidelitate foarte ridicați, dar asta nu te scapă de consecințele nefericite ale unei erori de măsurare ridicate. De pildă, în simulări fără eroare de măsurare studiile efectuate pe un eșantionat total de 300 de subiecți la o mărime reală a efectului de 0,35 au produs rezultate semnificative în 85,7% din cazuri. Aceasta reprezintă o putere statistică rezonabilă. Totuși, când am simulat o eroare de măsurare similară celei menționate mai sus, pentru aceleași eșantioane și aceeași mărime reală a efectului puterea statistică a scăzut dramatic, la 57,2%.

La fel, defectele de eșantionare au consecințe grave. Dacă eșantionezi după ureche, poți avea un eșantion uriaș și tot vei rata cu mult valorile reale din populație. Unul dintre cele mai bune exemple din istorie este oferit de un celebru sondaj din 1936, când alegerile prezidențiale americane se decideau între republicanul Alfred Landon și democratul Franklin D. Roosvelt. Una dintre cele mai puternice și respectate reviste ale vremii a comandat cel mai mare sondaj realizat vreodată, condus pe un eșantion cu o valoare neverosimilă, ce tindea spre două milioane și jumătate de alegători. Rezultatele acestui sondaj îl dădeau câștigător pe republican, cu 57%, în timp ce democratul era cotat la doar 43%. În realitate, a câștigat Roosvelt, cu 62%, în timp ce republicanul a obținut doar 38%. De unde această eroare uriașă la un eșantion care, la prima vedere, ar fi trebuit să fie extrem de precis? Răspunsul e foarte simplu: în loc să recurgă la o eșantionare probabilistică, respondenții au fost selectați pe baza unor criterii care au introdus defecte de eșantionare semnificative. De pildă, au fost selectate persoanele pe baza cărților de telefoane, deși pe vremea aceea numai cei cu un statut economic ridicat aveau telefoane, adică persoane a căror vot era mai probabil să meargă spre republican. E ca și cum în prezent ai construi un eșantion pornind de la listele cu persoanele care dețin cel mai nou si mai scump smartphone de pe piață și apoi să te miri că la vot iasă altceva. Sau, cum spuneam în intervenția anterioară, e ca și cum ai generaliza la nivelul întregii populații de elevi ai României rezultatele unui studiu modest, efectuat exclusiv pe elevi de la școli bune din București, în condițiile în care țara noastră are una dintre cele mai puternice discrepanțe urban-rural în privința performanțelor școlare. Faptul că domnul David apără cu fermitate asemenea opțiuni evident eronate eludează orice explicație rațională.

 

Bibliografie

 

[1] Odgaard, E. C., & Fowler, R. L. (2010). Confidence intervals for effect sizes: Compliance and clinical significance in the Journal of Consulting and Clinical Psychology. Journal of Consulting and Clinical Psychology, 78, 287–297.

[2] Coyne, J.K., & Kok, R.N. (2014). Salvaging psychotherapy research: A manifesto. Journal of Evidence-Based Psychotherapies, 14, 105-124.

[3] Cohen J. (1994). The earth is round (p < .05). American Psychologist 49, 997–1003.

[4] Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Erlbaum.

[5] Kerr, N.L. (1998). HARKing: Hypothesizing after the results are known. Personality and Social Psychology Review, 2, 196-217.

[6] Stroebe, W., Postmes, T. și Spears, R. (2012). Scientific Misconduct and the Myth of Self-Correction in Science, Perspectives on Psychological Science, 7, 670–688.

[7] Open Science Collaboration (2015). Estimating the reproducibility of psychological science, Science, 349, aac4716.

[8] LeBel, E. P., & Peters, K. R. (2011). Fearing the future of empirical psychology: Bem’s (2011) evidence of psi as a case study of deficiencies in modal research practice. Review of General Psychology, 15, 371–379.

[9] Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359–1366.

[10] Francis, G., Tanzman, J. și Matthews, W. J. (2014). Excess success for psychology articles in the journal Science. PloS ONE, 9, e114255.

[11] Francis, G. (2014). The frequency of excess success for articles in Psychological Science. Psychonomic Bulletin & Review, 21, 1180–1187.

[12] Fanelli, D. (2010b). ‘‘Positive’’ results increase down the hierarchy of the sciences. PLoS ONE, 5, e10068.

[13] Richard, F. D., Bond, C. F., Jr., & Stokes-Zoota, J. J. (2003). One hundred years of social psychology quantitatively described. Review of General Psychology, 7, 331–363.

[14] Abelson, R. P. (1985). A variance explanation paradox: When a little is a lot. Psychological Bulletin, 97, 128-132.

[15] Thompson, B. (2006). Foundations of Behavioral Statistics: An Insight-Based Approach. New York, NY: Guilford.