首頁 > 新聞 > 運營 > 可用性測試的權(quán)衡之道

可用性測試的權(quán)衡之道

對于可用性測試，業(yè)內(nèi)人士存在一些普遍認(rèn)可的原則。它們神圣地如同自然科學(xué)里的理論，似乎我們只能對其言聽計從、俯首稱臣才能踐行出“好的可用性測試”。其實，即便是科學(xué)，它的一個特征也是“可證偽性”——理論的正確性總是存在前提條件的。真理再向前一步就成為謬誤！
可用性測試中的原則同樣如此，需要根據(jù)目的、資源、環(huán)境的不同，靈活把握、權(quán)衡取舍，而非一味恪守某一個或某幾個原則，也許這才是可用性從業(yè)人員經(jīng)驗重要性的體現(xiàn)。

一．任務(wù)設(shè)置：精細(xì) VS 寬泛

制定的任務(wù)過于精細(xì)，一般原則上是反對的。理由很清楚，如果你的任務(wù)精細(xì)到一步一步“引導(dǎo)”用戶進(jìn)行操作，那太不符合用戶現(xiàn)實中的使用情境，平時沒有人在旁邊“引導(dǎo)”用戶的每一步操作；而且過于控制用戶的操作步驟，用戶缺乏真實使用時的靈活性。

是不是我們設(shè)置的任務(wù)只能是寬泛的，不能細(xì)化呢？這就必須根據(jù)研究的目的來做抉擇。如果產(chǎn)品處在設(shè)計的初期，我們需要關(guān)注一些宏大的問題（如：網(wǎng)站的整體架構(gòu)、導(dǎo)航和分類的合理性、頁面的邏輯關(guān)系），此時就需要通過寬泛而有彈性的任務(wù)，來查找宏觀層面的問題。如果產(chǎn)品的設(shè)計已經(jīng)非常完善，開始進(jìn)行細(xì)節(jié)的修改迭代，此時就需要通過設(shè)置相對具體的任務(wù)來查找特定的細(xì)節(jié)問題（如：對某個命名的理解、按鈕的使用、鏈接的點擊、表單的填寫）。按照《Don’t make me think》一書的觀點：一般用戶使用互聯(lián)網(wǎng)產(chǎn)品時滿足于能用就行，不會尋求最好的使用方法；只掃描網(wǎng)頁，不會仔細(xì)閱讀。所以，如果完全寬泛有彈性地設(shè)置任務(wù)，雖然更吻合實際使用情況，但是很可能用戶直接跳過你想考察的細(xì)節(jié)。

實際工作中，由于時間和資源的限制，無法做到每個產(chǎn)品從設(shè)計初期到上線前后進(jìn)行多次可用性測試�？赡茉谝淮蔚目捎眯詼y試中即需要同時關(guān)注宏觀方面和細(xì)節(jié)上的問題。此時，還是需要和產(chǎn)品經(jīng)理、交互設(shè)計師反復(fù)溝通，確認(rèn)測試的主要目的，同時通過對任務(wù)設(shè)置精細(xì)程度的權(quán)衡把握，使次要目的也盡量得以滿足。

不過，即便是想考察細(xì)節(jié)的任務(wù)，也要盡量避免“直接指導(dǎo)操作”式的語言描述方式，這樣能讓任務(wù)與真實使用情境不會相距太遠(yuǎn)。例如：想考察豆瓣讀書頁面【想要】按鈕是否能被看到、是否具備可點擊感。下面列出兩種表述方式，以作對比：

A.請找到您喜歡的那本書，并在該頁面點擊【想要】。（×）

B.請找到您喜歡的那本書，并在該頁面對其作個標(biāo)記。（√）

二．任務(wù)數(shù)量：多VS少

任務(wù)數(shù)量的多少與可用性測試考察范圍有關(guān)，與任務(wù)的精細(xì)程度也有關(guān)。如果對網(wǎng)站全站進(jìn)行考察和只對其中某個頁面、某個操作流程進(jìn)行考察，所需的任務(wù)數(shù)量自然不一樣。在同樣的考察范圍下，如果任務(wù)設(shè)置得越精細(xì)，所需任務(wù)數(shù)量也就越多。

Lindgaard和Chattratichart（2007）的研究發(fā)現(xiàn)任務(wù)數(shù)量與發(fā)現(xiàn)可用性問題比例存在顯著的相關(guān)關(guān)系（r=0.82，p<0.01）。為了盡可能多地發(fā)現(xiàn)可用性問題，我們就盡量多地設(shè)置任務(wù)給用戶嗎？

此時要考慮任務(wù)數(shù)量過多可能帶來的弊端：學(xué)習(xí)效應(yīng)和疲勞效應(yīng)，尤其是靠后的任務(wù)更可能會受影響。心理學(xué)實驗中處理此問題的方法是順序平衡，抵消影響。但是可用性測試中設(shè)置的場景和任務(wù)存在特定的先后次序，不適合采用順序平衡的方法。基于我們的經(jīng)驗，還是通過對測試的任務(wù)數(shù)量進(jìn)行控制，確保正式測試環(huán)節(jié)最多不超過1小時，加上前后的歡迎語、訪談、問答等，整個過程不超過1.5小時。

此外，任務(wù)數(shù)量的多少還會間接影響到測試所需參與者數(shù)量的多少。

三．用戶人數(shù)：5個足夠VS 5個不夠

Nielsen的研究發(fā)現(xiàn)，5個用戶可以發(fā)現(xiàn)80%以上的可用性問題。這個結(jié)論得到許多人的推崇，因此稱之為“魔法數(shù)字5”。這個結(jié)論的來源依據(jù)是每個用戶平均可以發(fā)現(xiàn)30%的可用性問題，且假設(shè)所有問題都有同等被發(fā)現(xiàn)的概率。不過，當(dāng)設(shè)置的任務(wù)數(shù)量過多，且任務(wù)的精細(xì)程度和難度多種多樣時，這個前提有可能不成立。

Lindgaard和Chattratichart（2007）的研究發(fā)現(xiàn)測試用戶數(shù)量與發(fā)現(xiàn)的可用性問題比例并不存在顯著的相關(guān)關(guān)系。這個結(jié)論似乎又支持我們選擇少量用戶進(jìn)行測試即可。

其實，在用戶招募階段，比用戶數(shù)量更需要重視是用戶的代表性的問題。能否招募到有代表性的用戶將直接影響可用性測試的成敗。如測試一個醫(yī)療軟件產(chǎn)品，招募到醫(yī)護(hù)人員和患者作為測試用戶，那5個用戶可能就足夠了；但如果只招募到醫(yī)學(xué)實習(xí)生來測試，就必須超過5個以上的用戶（即便這樣，也未必能推論到整個產(chǎn)品的用戶群）。

由此看來，招募用戶的人數(shù)和任務(wù)的數(shù)量、精細(xì)程度、用戶的代表性也是息息相關(guān)的。參考Tom Tullis（2009）和本人經(jīng)驗：當(dāng)可用性測試范圍限定在一定的范圍（20個任務(wù)內(nèi)、或30個網(wǎng)頁之內(nèi)），且招募到很強代表性的用戶，那么5個足夠了。如果存在著差別較大的亞群體，爭取做到每個亞群組有5個左右的代表性的用戶（當(dāng)然，目標(biāo)用戶的特征及分類應(yīng)該是在可用性測試之前的用戶調(diào)研階段就解決的問題）；一次測試最多不會超過12個用戶。

四．用戶表現(xiàn)：行為VS言語

在可用性測試中強調(diào)對用戶操作行為的關(guān)注，是毋庸置疑的。因為：

1.用戶的行為指標(biāo)更明確、具體、客觀，易觀察和記錄。

2.如果完全把關(guān)注點放在用戶的操作行為上，那么就無需跟用戶進(jìn)行多余的（指導(dǎo)語之外的）語言交流。類似于心理學(xué)研究規(guī)范，對實驗或測試中的指導(dǎo)語進(jìn)行統(tǒng)一，對一切無關(guān)變量（包括主試的語言、體態(tài)表情）進(jìn)行控制，以減少對研究過程的干擾。

3.即便你直接詢問用戶某些問題，也極可能得到錯誤的答案。30年前Richard Nisbett和Timothy Wilson的實驗、2年前Peter Johansson在《science》的文章，都證實了某些情況下人們無法解釋清楚自己行為的真正原因。另外，用戶還可能揣摩主試的喜好，回答他們認(rèn)為主試期望的答案。

因此，有必要強調(diào)在可用性測試過程中關(guān)注的重點永遠(yuǎn)應(yīng)該是用戶的操作行為，而且盡量減少任何無關(guān)變量的干擾。但這個原則被有些人引申到極端，認(rèn)為只有觀察用戶的操作行為才有意義，其他信息都是無需關(guān)注的，甚至輕率地懷疑用戶的話都是不可信的。

可用性測試的主要目的雖然是發(fā)現(xiàn)問題，但也需要了解問題背后的原因，而僅僅依靠觀察用戶的操作行為是無法獲悉所有問題背后的原因的，此時，我們就希望用戶能采用“出聲思維法”，出聲思維就是集中于如何與產(chǎn)品進(jìn)行交互的意識流。如果測試中的氛圍比較平等、自然、融洽，用戶又特別愿意表達(dá)，那么用戶就會在進(jìn)行任務(wù)操作同時，表達(dá)他們想做什么、打算如何做、背后的原因是什么。此時，不僅是操作行為、用戶表達(dá)出來的想法和原因、以及語言中透露出的疑惑、失望、不滿、驚訝、猶豫等情緒同樣是需要我們加以關(guān)注的。但是，有些用戶比較內(nèi)向，不善于主動表達(dá)自己的想法，此時就需要主試跟他進(jìn)行簡單的交流，以引導(dǎo)用戶說出背后的原因（注：不是引導(dǎo)用戶說出你期望得到答案）。

所以，在實際的可用性測試，基本應(yīng)該以關(guān)注用戶的行為為主，少量、適時地進(jìn)行詢問交流也是需要的。但這個度如何把握呢？

1.當(dāng)用戶出現(xiàn)猶豫、驚訝、任務(wù)失敗（過程節(jié)點上出現(xiàn)自然而然地稍微中斷/暫停）的時候才進(jìn)行簡單的詢問。

2.詢問采用一般疑問句的句式，重復(fù)用戶剛才的行為表現(xiàn)（要具體客觀）：“你剛才沒有……，是嗎？”——雖然沒有直接問“為什么”，但暗示了希望聽到他進(jìn)一步的解釋。

3.如果用戶沒有自己主動說出原因，可以“順便”問一下“為什么？”或通過身體前傾、目光注視等非語言方式來暗示用戶你希望能聽到更多內(nèi)容。若用戶很快、堅定地說出原因，則該理由的可信度較高；如果用戶猶豫、或難以說出原因，就不要繼續(xù)追問。

除了上述的語言、情緒、行為都需要得到關(guān)注，還有一種特殊情況是需要聽懂用戶“沒有說的”語言。例如，我們預(yù)計網(wǎng)站的某二級導(dǎo)航標(biāo)簽和一級導(dǎo)航標(biāo)簽存在分類邏輯上的不合理；但用戶在測試中，導(dǎo)航相關(guān)的操作步驟進(jìn)行得很流暢，用戶也什么都沒說。這通常表明用戶認(rèn)為這些是理所當(dāng)然的、不影響操作的——此時你需要聽懂用戶“沒有說的”語言。如果你簡單粗暴地打斷用戶并詢問：“你覺得這兩個導(dǎo)航標(biāo)簽如何？”，則變成了一種誘導(dǎo)性地提問。

總結(jié)一下關(guān)于此部分內(nèi)容的實踐應(yīng)用：

1.用戶的操作行為永遠(yuǎn)是可用性測試的重點。

2.鼓勵用戶采用“出聲思維法”。

3.適時、少量地向用戶提問，禁止對同一個問題反復(fù)追問“為什么”。

4.采用真正地“傾聽”技術(shù)保持和用戶的交流狀態(tài)，而非通過過多的話語。

5.開放、不預(yù)設(shè)立場地觀察、傾聽用戶“沒有說的”語言。

基于用戶創(chuàng)新
界面設(shè)計日新月異，夢創(chuàng)義堅持基于用戶需求的界面創(chuàng)新設(shè)計……
服務(wù)設(shè)計思維
互聯(lián)網(wǎng)的格局發(fā)生的改變，在我們進(jìn)行設(shè)計服務(wù)時更是考慮不同用戶、不同……
洞察用戶心理
洞察用戶有意識和無意識的行為以及心理特征通過構(gòu)造一系列的服務(wù)來促進(jìn)……
查看更多 >>

可用性測試的權(quán)衡之道

最新新聞Latest News