在IMA雜志中,有篇文章論述的是關于數據偏見對多樣化與包容性的影響,觀后小躍君感觸很深,今天就和大家分享一下吧。

多樣化與包容性日益受到人們的關注,且已然成為社交媒體和新聞討論的焦點。在各類企業與組織收集、分析和運用數據驅動決策的同時,多樣化與包容性也是高管和董事會討論的中心議題。

然而在此過程中有一個后果經常被忽視,那就是可能會對多樣化與包容性產生負面影響的數據偏見。財會專業人士與所有行業的企業專業人士,都有責任確保以推動無偏見決策的方式來使用數據。

首先我們先來了解一下何為數據偏見,偏見的英文“bias”由法語biais衍生而來,本義是指一條斜線或者與水平線的偏離,常常用來形容對特定人群的系統性偏好。數據偏見是一種風險,即會影響一個人基于數據的決策,而這些數據更有利或更不利于某一特定人群。

那么,為什么會出現數據偏見呢?

數據偏見雖然有多種不同類型,但兩種*常見的類型是選擇偏見(selection bias)與預帶偏見的偏見(prejudicebias)。

當選擇的數據因缺乏必要的隨機性而不能公正地代表整體時,就出現了選擇偏見。預帶偏見的偏見因自動化偏見所致,依照M.L.Cummings的定義,自動化偏見是“依據計算機生成的、被認為是正確的解決方案,而忽視或不再搜尋矛盾信息的一種傾向”(bit.ly/37pjrfT)。

數據生命周期

偏見可能發生在數據生命周期的不同階段。例如,數據偏見可能會因設計師或開發者有意識或無意識的偏見而產生,也可能會因所使用的數據集本身存在偏見而導致。在另一些例子中,數據集并沒有明顯的偏見,但在其選擇或重點方面卻有失公允。

數據生命周期涉及以下幾個階段:

1.數據采集是企業運用數據的*步,即通過數據輸入或經由數據入口、連接設備或物聯網獲取數據。

2.數據維護是使用一組預定義的規則來轉換并運用數據,評估數據的質量及完整性。

3.數據合成通常稱為“分析建模”,通過運用邏輯或使用其他數據輸入來合成數據,創造更多價值。

4.數據運用是將轉換后的數據應用到內部管理報告中,幫助企業做出良好的商業決策。

5.數據發布是創建外部報告,并向企業外部發布信息。

6.數據歸檔將處于主動狀態的數據轉換為被動狀態,以便根據需要對其進行檢索和再利用。

7.數據清除是從企業中刪除數據(及其拷貝)。

這一數據生命周期可在產生偏向性結果之前指導專業人員識別并減少數據偏見。前文提到的亞馬遜公司案例發生在數據采集和數據維護階段,因為該數據采集了過去10年間投遞給該公司的大量簡歷,其中大多數來自于男性。而COMPAS則是在數據運用階段出現的偏見,開發該系統的Northpointe公司運用了一種由增加假負例(即被不公正地歸類為可能再次犯罪的人)來優化真正例(即*有可能再次犯罪的人)的邏輯。

盡可能減少數據偏見

要減少有偏見的結果以及更好地進行決策,擁有公正無偏見的數據是必要條件。所以,企業應當在數據生命周期的早期階段采集更具多樣化和包容性的數據集,并審查數據的質量。

那些希望減少使用帶偏見數據的企業應當:

1.擁有更多樣化的員工隊伍,使公司能夠預測、發現和審查不公平的偏見問題,更好地融入易受偏見影響的社區。

2.接收多樣化人群對結果的反饋,以便在采集到的數據中更好地發現那些未意識到的偏見。多樣化人群有助于減少數據生命周期中的偏見,從而*終減少帶偏見的結果

大數據在快速促進社會進步。然而,隨著科技的飛速發展,正確使用數據的責任也越來越大。

企業日益希望更多地使用大型數據集和自動化系統來改進工作流程,因此,審查數據采集方式并積*減少偏見也變得越來越重要。這首先需要在招聘中運用*實踐,以確保分派到項目的團隊盡可能具有多樣化和包容性,并得到了解數據偏見相關風險的管理層自上而下的支持。我們鼓勵采取綜合性的方法,就偏見的類型與減少偏見的*實踐進行定期交流與持續教育。

隨著社會在科技方面不斷進步,我們需要記住的是,技術無法基于有偏見的數據產出無偏見的結果,它理應用來減少而非增加人類的偏見。

免責聲明:本文來自IMA雜志,轉載目的重在分享,如有侵權請及時聯系刪除