Moni henkilöstöalan ammattilainen on miettinyt, kuinka kannattavaa henkilöarviointi oikeastaan on. Eikö samaan lopputulokseen voisi päästä huolellisella haastattelulla? Tutkimukset osoittavat, että hyvin tehdyn henkilöarvioinnin hyöty on suurempi, vaikka haastattelu tehtäisiin mahdollisimman hyvin.
Henkilöarvioinnin ennustekykyä on tutkittu pitkään. Osa tutkimuksesta on tieteellistä, osa taas henkilöarviointiyritysten itsensä tekemää. Yhtenä esimerkkinä tällaisesta tutkimuksesta on Psycon Oy:n oma seurantatutkimus (Psycon Views 2/2008), jossa on tutkittu Psyconin henkilöarvioinnin ennustekykyä. Valitettavasti vastaavia tutkimuksia on olemassa erittäin vähän, joten suurin vastuu tällaisista selvityksistä on jäänyt akateemisille harteille.
Henkilöarviointiin keskittyneestä tieteellisestä tutkimuksesta saadut Vaikuttavuus – Miten henkilöarviointi eroaa strukturoidusta haastattelusta? tulokset ovat olleet hyvin vaihtelevia. Osa on osoittanut henkilöarvioinnille hyvin vahvaa ennustekykyä, osa taas on tuonut täsmälleen päinvastaisia tuloksia. Siksi viime vuosina on siirrytty meta-analyyseihin, joissa käsitellään tilastollisesti yhdessä usean erilaisen tutkimuksen tuloksia. Metaanalyyseissä otoskoko on usein niin suuri, että johtopäätöksiä voidaan pitää tilastollisesti hyvin luotettavina.
Eräs tunnetuimmista meta-analyyseistä on Schmidtin ja Hunterin vuonna 1998 julkaisema tutkimus (Schmidt & Hunter, 1998), jossa on tyypitelty erilaisia psykologisia testejä ja muita arviointimenetelmiä. Näistä jokaiselle on laskettu laajaan otokseen perustuva ennustekorrelaatio. Korrelaation tarkoitus on asettaa erilaiset arviointimenetelmät keskenään eräänlaiseen paremmuusjärjestykseen sen perusteella, kuinka hyvin ne ennustavat työssä menestymistä.
Psykologisten testien ennustearvo
Schmidtin ja Hunterin taulukossa korkeimmalle ennustearvoltaan nousevat yleisälykkyystestit, simulaatiot sekä strukturoidut haastattelut1. Näiden jokaisen ennustekorrelaatio on enemmän kuin 0.5, mitä voidaan pitää jo erittäin hyvänä ennustekorrelaationa yksittäiselle menetelmälle. Heikoimpaan päähän, eli lähes kokonaan ilman ennustearvoa, jäävät koulutuksen kesto vuosissa, grafologia ja yleiset kiinnostuksen kohteet.
Henkilöarvioinnin ennustekyky Yhdysvalloissa jää jonkin verran parhaimpien menetelmien jälkeen. Tässä vaiheessa tietysti henkilöarviointikäytäntöjä tunteva lukija voi ihmetellä, kuinka tämä on mahdollista. Useimmissa henkilöarvioinneissahan käytetään nimenomaan yleisälykkyystestejä, simulaatioita sekä strukturoitua haastattelua. Kuinka näiden yhdistelmä – yhdessä konsultin lausunnon kanssa – voisi ennustaa työmenestymistä heikommin kuin samat testit yksittäin?
Yksi syy löytyy suomalaisen ja yhdysvaltalaisen henkilöarviointikulttuurin eroista. Suomen hyvässä henkilöarviointikäytännössä on totuttu siihen, että arviointiin käytetään aina useita menetelmiä ja arvioijat ovat koulutettuja käyttäytymistieteiden ammattilaisia. Yhdysvalloissa näin ei välttämättä ole.
Toinen – ehkä vielä merkittävämpi syy – on henkilöarviointiin liittyvä alkukarsinta. Tällaista selitystä ovat käyttäneet Hermelin, Lievens ja Robertson (2007). Kun arvioinnin hinta nousee, valitaan sinne tulijat entistä tiukemmalla esikarsinnalla. Ja koska tiukka esikarsinta vähentää heikkoja hakijoita, eivät nämä koskaan pääse henkilöarviointiin saakka. Tämä karsinta puolestaan aiheuttaa laskun ennustekorrelaatioon. Tilastotieteilijät tuntevat ilmiön nimellä range restriction.
Ensimmäisessä, esimerkiksi haastattelun avulla tehtävässä karsinnassa, ovat heikoimmat hakijat vielä mukana. Tämä aiheuttaa suuren vaihtelun haastateltavien välille ja kasvattaa haastattelun ennustekorrelaatiota verrattuna myöhemmin seuraavaan henkilöarviointiin. Tämä ei kuitenkaan tarkoita sitä, että haastattelu olisi (vertailukelpoisella tavalla) henkilöarviointia vahvempi menetelmä työmenestymisen ennustamiseen.
Sama pätee tietysti mihin tahansa yksittäiseen menetelmään, kuten yleisälykkyystestiin, jolla alkukarsinta tehdään. Se menetelmä, jolle altistuu suurin määrä heikoimpia hakijoita, saa aina suuremman teknisen ennustearvon kuin valmiiksi karsittuun hakijajoukkoon sovellettava menetelmä. Jos yleisälykkyystestiä käytetään samassa vaiheessa kuin henkilöarviointia, sen ennustekyky putoaa käytännössä nollaan (Hermelin, Lievens ja Robertson, 2007).
Tilastolliset korjauskeinot
Jos henkilöarviointitutkimuksen tulokset haluttaisiin vertailukelpoisiksi ÄÖ-tutkimuksen kanssa, tulisi kaikki henkilöarviointiin pääsevät valita kolikkoa heittämällä.
Tämän jälkeen rekrytoitavat tulisi niin ikään valita kolikkoa heittämällä, jotta heikosti henkilöarvioinnissa menestyneetkin saataisiin mukaan tutkimukseen. Käytännössä tämä on tietysti mahdotonta.
Alkukarsinnan tuottamaan hajonnan vähenemiseen on olemassa erilaisia tilastollisia korjauskertoimia, joilla tavoitellaan niin sanottua tosikorrelaatiota. Näitä kertoimia Schmidt ja Hunterkin mainitsevat alaviitteessä käyttävänsä. Näissä on kuitenkin se ongelma, että ne tuottavat sellaista tietoa, jota alkuperäisessä aineistossa ei ole saatavilla. Vertailukelpoisuuden säilyttämiseksi niitä on kuitenkin pakko käyttää.
Paras tapa tieteellisissä seurantatuloksissa olisikin aina ilmoittaa 1) sekä korjaamaton että korjattu ennustekorrelaatio, 2) kaavat, joita korrelaation korjauksessa on käytetty sekä 3) kertoa vielä se vaihe, jossa karsintaa on tehty. Ehkä käytäntö ei ole yleistynyt, koska korjauksen käyttäminen ei ole aina kovin yksinkertainen prosessi. Eikä ensimmäisen karsintakierroksen jälkeen poispudonneista hakijoista enää saada seurantatietoja.
Psyconin oma seurantatutkimus
Teoria ei kuitenkaan kerro kuin epäsuorasti, minkälainen ero haastattelun ja henkilöarvioinnin ennustearvossa on. Luotettavammin asiaa voi tutkia systemaattisella seurannalla, jossa tutkitaan henkilöarvioinnin osuvuus käytännössä. Psyconin omassa seurantatutkimuksessa 124 arvioinnissa käyneestä ja rekrytoidusta kerättiin seurantatiedot. Tästä tutkimuksesta on kerrottu aikaisemmin (Psycon Views 2/2008), joten sen sisältöön ei tässä mennä syvällisemmin.
Tilastollisella tasolla tulos oli rohkaiseva, sillä ennustekorrelaatio, joka on korjattu vertailukelpoiseksi tieteellisten tutkimusten kanssa, oli 0,64. Tämä nostaa Psyconin henkilöarvioinnin ennustearvon selvästi yli kansainvälisten tutkimusten tuottamien lukujen. Lisäksi arvo on parempi kuin parhaimpina pidettyjen yksittäisten arviointimenetelmien.
Käytännössä parempi ennustetarkkuus merkitsee suuria säästöjä rekrytointikuluissa, sillä virhearvioiden määrät pienenevät. Lopputuloksena osaajat rekrytoidaan entistä tehokkaammin ja vaihtuvuudesta aiheutuvat kustannukset minimoidaan. Siksi henkilöarvioinnin hinta on selvästi saavutettuja säästöjä pienempi.
Toisin sanoen, todistetusti tarkka henkilöarviointi maksaa itsensä takaisin. Keskinkertaisen arvioinnin osuvuus ei puolestaan ole strukturoitua haastattelua parempi.

Mikael Nederström
tutkija, henkilöstökonsultti
1 Strukturoitu haastattelu tarkoittaa valmiiseen kysymysrunkoon perustuvaa haastattelua, jossa kaikilta arvioitavilta kysytään samat kysymykset, joiden vastaukset pisteytetään tai asetetaan muuten paremmuusjärjestykseen.
Lähteet:
Hermelin E., Lievens F. & Robertson I.T. (2007). The Validity of Assessment Centers for the Prediction of Supervisory Performance Ratings: A Meta-Analysis. International Journal of Selection and Assessment, 15, 405-411.
Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124, 262-274.