開源對女性開放嗎?
已發表: 2022-03-11以下是在 Toptal 女性開發者獎學金推出之前發布的。 為了支持獎學金申請者,Toptal 還發布了一份指南,以幫助您做出第一個開源貢獻。
女性在科技領域的代表性不足。 這種認識並不是什麼新鮮事。 看看 Facebook、谷歌、英特爾、Slack 等許多公司發布的數據。 但這些數字可能比這些報告所暗示的還要糟糕。
在最近的一次科技活動中,我無意中聽到了關於科技領域缺乏性別多樣性的旁白。 這個小組討論了這樣一個事實,即儘管女性佔科技勞動力的 30% 左右,但更高級別的工程團隊很少有超過幾個女性。
該對話的一位參與者評論說,這是因為男性開發人員通常比女性開發人員更有才華。 群裡沒有人反對。
唔…
從 Toptal 的個人經歷和我在普林斯頓大學的工程經驗來看,男性和女性的比例接近 50/50,我知道這是錯誤的。 我曾與許多令人難以置信的、非常聰明的女性工程師一起工作,擔任各種角色。 然而,這些數字似乎與我自己的經驗並不相符,尤其是當您開始尋找更高級的工程職位時。
解決這種差異很重要。 這不僅僅是為了多樣性而多樣性。 如果男人和女人的智商一樣,從統計學上講,那麼世界上最聰明的十個人中,應該有五個是男性,五個應該是女性。 因此,如果您的團隊的男女比例不均衡,那麼您的團隊可能不是最好的。
在一個完美的系統中,多樣性是一個概率結果。 但這些不是我們看到的結果。
在無意中聽到這段對話後,我想看看數字,以更好地了解軟件團隊建設趨勢是否/在哪裡出錯。 我在 Google 上搜索了軟件工程技能水平的性別細分趨勢,但找不到太多,所以我決定查看 GitHub 上的公開數據。 我抓取了 5,000 個個人資料以獲取姓名、關注者數量、貢獻數量和存儲庫數量。 然後我使用開源包genderize.io 來確定每個配置文件的性別。
第一批中的女性太少了,我不得不添加更多數據以使即使是簡單的圖表也很重要,所以我又刮了 15,000 個。
這是我發現的:
開源由男性主導
甚至在進行任何進一步分析之前,很明顯女性的比例極低。 在 20,000 個個人資料中,genderize.io 能夠自信地確定 15,374 人的性別。 其中,只有 6.0% (926) 是女性。 一旦您開始查看用戶活動,這種差異就會變得更加嚴重。
讓我們以 10 個貢獻作為分界線,以區分剛剛創建個人資料並可能進行了一些實驗的用戶與至少深入研究過開源項目或開始自己的開源項目的用戶之間的差異。 結果:5.4% 的女性。
事實上,如果我們按照貢獻的數量將用戶分成不同的桶(每個桶至少有 1000 名用戶),女性用戶的比例會隨著貢獻的增加而減少。
不僅 GitHub 上的女性人數遠少於科技行業的性別多樣性數字所暗示的,而且隨著用戶活動的增加,女性的比例似乎也在下降。
我不斷挖掘,查看關注者數量和存儲庫數量的性別,並觀察到相同的趨勢。 在查看存儲庫的數量時,這一點尤其明顯:
我們再次看到,隨著我們移至擁有更多存儲庫的存儲桶,女性的百分比會降低。
那麼這裡發生了什麼? GitHub 活動首先是編程專業知識的合理指標嗎? (我認為是。)有才華的女性工程師比男性工程師更不可能積極地為開源做出貢獻嗎? 當涉及到女性工程師時,這些結果是否是科技行業進入/保留問題的另一個指標?
為什麼開源社區的人數這麼少?
科技行業的女性人數已經相當慘淡,但在開源項目中她們的情況更糟。
以前的許多研究都集中在女性不願意從事與 STEM 相關的學科和職業的原因上。 一些人總結出對 STEM 科目普遍缺乏興趣。 其他人認為,女性在受到家庭和老師的刻板印像後決定不從事 STEM 職業。 還有一些人指出缺乏榜樣或多種原因的結合。
根據 StackOverflow 上的一項關於性別的研究,“性別和 STEM 相關學科的問題已經研究了好幾年,主要是從‘為什麼’女性不從事科學研究或職業的角度來看。 迄今為止,人們對量化在線社區中女性(作為技術“用戶”)的現象和代表性、她們的參與程度以及是否可以在性別層面上發現差異的關注較少。 僅收集到關於特定社區如何積極阻止女性參與的軼事證據。”
但是,當我們花這麼多時間關注為什麼攻讀 STEM 相關學科的女性較少時,我們卻忽略了另一個重要的差異:如果 28% 的 CS 碩士學位授予女性,為什麼開源社區中的數字如此之多降低?
在考慮這個問題的答案時,有幾種可能性需要考慮:
1. 編程天賦和 GitHub 活躍度之間可能沒有很強的相關性。
在科技行業,許多開發人員在他們職業生涯的早期就去 GitHub,因為這是認真對待的先決條件。 然而,似乎越來越少有抱負的女性開發人員以這種方式看待開源。 這些數據是否可能純屬巧合,與科技行業才華橫溢的女性軟件工程師的數量相比並沒有多大意義?
我與 Toptal 的兩位工程師 Anna-Chiara Bellini 和 Bozhidar Batsov 討論了這個問題。 Anna-Chiara 在各種學術和商業環境中擁有超過 20 年的軟件工程經驗,Bozhidar 在全球最活躍的 GitHub 貢獻者名單中排名第 98。
兩人都同意,雖然活躍在 GitHub 上通常是工程專業知識的良好指標,但反之則不然,並提到他們認識很多完全不參與開源的偉大工程師。 科技行業也同意這一點,許多公司在招聘過程中評估 GitHub 個人資料(儘管這種做法似乎相當有偏見,鑑於我的研究結果,這並不令人意外)。
Bozhidar 建議,開源貢獻者通常更有可能是推動公司環境進行重大內部變革的人。 Anna-Chiara 評論說,為開源做出貢獻需要極大的信心,鑑於科技行業在歡迎女性方面的糟糕歷史,她認為女性開發人員可能更難以克服這一點。
當然,這些 GitHub 數據可能存在一些偏見(包括幾乎 25% 的名字無法自信地歸類為男性/女性的事實)。
然而,Bozhidar、Anna-Chiara 和我同意 GitHub 活動水平通常是編程專業知識的一個很好的指標。 然而,這些數據表明有才華的女性程序員選擇停止(或從未開始)他們的開源追求以支持其他選擇的趨勢。
2. 科技公司報告中引用的數字包括非科技職位。
科技行業的許多公司都表示,他們僱傭了 25% 到 30% 的女性。 然而,這個數字可能會產生誤導。 大多數這些較大的數字 - 是的,它們是較大的 - 包括技術和非技術角色。

當您開始檢查擔任技術職務的女性員工的百分比時,數字會下降得更低。
在 Facebook,32% 的員工是女性,但只有 16% 的技術職位屬於女性。 在谷歌,整個公司的女性員工也有類似的下降 30% 到 18% 的技術職位。 Slack 在工程職位中從 39% 的女性整體下降到 18%。 在我研究過的公司中,英特爾的增幅最小,從總體上的 24.1% 的女性到技術職位的 19.4%。
因此,儘管許多公司吹噓女性員工的比例約為公司的四分之一甚至三分之一,但擔任技術職務的女性人數實際上要低得多。 似乎 15% 到 20% 的聲明會更準確。
但這仍然導致在科技公司擔任技術或工程職位的女性比例與在 GitHub 上為開源項目做出貢獻的女性比例之間存在巨大差異。
3. 女程序員正在離開科技行業。
如果 GitHub 上的活動與資歷和專業知識相關,那麼活躍女性貢獻者的數量極少(甚至與整體女性貢獻者相比也很少)可以用科技行業的女性工程師驚人的高離職率來解釋。
如果科技行業不能留住盡可能多的超過職業生涯中期的女性,那麼她們很可能也不會為許多開源項目做出貢獻。
但是這種推理方式也引出了一個問題:資歷和貢獻之間的相關性真的是真的嗎? 許多頻繁的 OSS 貢獻者都是相對較新的程序員,他們正試圖為自己樹立名聲——那麼該群體的女性在哪裡?
4. GitHub 對女性程序員來說可能是一個不受歡迎的社區。
一位女性開發人員在評論一篇關於科技女性的文章時說:“關於開源項目——我最近一直在考慮這個問題。 我實際上沒有承諾任何事情,這肯定會影響我的職業生涯……我覺得這是一個我無法進入的圈子。 但主要是我擔心作為公開項目的唯一女性程序員會受到過度關注。 鑑於女性在互聯網上受到的待遇,這種恐懼似乎並非沒有道理。”
Anna-Chiara 認為這種憂慮是女性工程師的共同主題,尤其是在涉及 OSS 時。 當我問她是否認為女性不太可能為開源項目做出貢獻時,她毫不猶豫地回答,是的。
Anna-Chiara 還提出了女性 GitHub 用戶可能會嘗試採用中性或男性名稱以確保她們受到重視(請記住,genderize.io 無法自信地確定大約四分之一的用戶的性別)配置文件刮)。
然而,這並不意味著女性貢獻者不存在。 Bozidhar 提出了 Exercism.io,這是一個由 Katrina Owen 發起的受歡迎的項目,有幾位女性貢獻者。 他還提到了 Bodil Stokke,一位來自挪威的女性開發人員,她在流行的開源貢獻方面有著極其豐富的歷史。
Anna-Chiara 還建議,如果一個項目的主要貢獻者或領導者中有女性,那麼女性開發人員可能更有可能為它做出貢獻。 不幸的是,與男性主導的項目數量相比,女性主導的 OSS 項目很難找到。
但問題不僅僅是 OSS。 “如果我想想我認識的從事開發的女性,這與你在這些大公司聽到的 20% 相去甚遠。 我認為它甚至不會接近 10%,”Anna-Chiara 告訴我。 “對 GitHub 的分析結果並不讓我感到驚訝。”
5. 塑造科技行業的隱性偏見可能會滲入 GitHub。
Eric Ries 指出了科技行業內隱偏見的問題。 即使系統中的個人沒有偏見,這些系統仍然很容易變得有偏見。 人們也有無意識的偏見,這使問題更加複雜。
在他的文章中,埃里克使用了管弦樂隊的例子,直到 1970 年代,這些管弦樂隊主要都是男性。 人們認為男性表演者的音樂天賦比女性表演者高。 然而,一旦管弦樂隊開始在試鏡期間通過物理屏幕將音樂家與評委分開,數字就發生了顯著變化,人們開始接受男性和女性的平均演奏水平相同。
如果類似的偏見在科技行業的招聘系統中發揮作用,這可能有助於解釋我之前討論過的女性軟件工程師比例較小的原因。 如果僱用的女性軟件工程師減少,這些影響可能會滲透到 GitHub 等開源社區。 如果有人被拒絕擔任全職編程角色,他們可能會認為自己沒有那麼有才華,因此不太可能有信心為開源項目做出貢獻。
這給我們留下了怎樣的印象?
以下是我想到的一些後續問題(還有更多):
1. 這些數字如何隨時間變化?
讓更多女性參與科技行業目前是一個備受關注的話題,需要貢獻的編碼訓練營的興起應該會產生積極的影響,包括在開源方面。 這些討論和各種新舉措的效果如何? 這些數字在 3 年前會是什麼樣子? 5年前? 一年後會怎樣?
2. 我們還能如何分析 GitHub 數據?
Anna-Chiara 建議根據用戶必須分叉的數量來檢查用戶的性別細分,以了解女性 GitHub 用戶以某種方式試驗項目的頻率。 此外,還有其他因素在起作用,例如年齡組,可能會影響我們的研究結果。 長期以來,開源一直是科技行業的主要內容,但 GitHub 成立於 2008 年。
3. 有什麼方法可以查看哪些 GitHub 用戶使用了假名?
如果使用假名的女性比例遠高於 GitHub 上女性的整體比例,那麼這將非常強烈地表明 GitHub(以及在一定程度上總體上的技術)作為一個社區是多麼受歡迎。
4. 當您開始查看位置時,這些數字如何變化?
這是不完美的,因為 GitHub 上的交互在理論上與位置無關。 但是,我們能從女性 GitHub 用戶比例高於平均水平的國家的科技社區中學到什麼嗎?
這裡有一些改進這些數字的想法(同樣,當然還有更多):
1. GitHub熱門倉庫的頁面可以改進嗎?
當我與 Bozhidar 討論這個話題時,他提到 GitHub 上的大多數項目/社區都有非常耐心、熱情和樂於指導新的開源貢獻者度過項目早期階段的領導者。 這似乎根本不是常識(請記住上述一位女性開發人員的評論,她認為開源社區是“一個 [她無法] 進入的圈子”)。
新的 GitHub 用戶是否知道存在這種類型的指導和支持(假設它像他所說的那樣普遍),新用戶是否知道如何輕鬆找到此類指導? 是否可以對流行的 GitHub 存儲庫的界面進行改進以使其更加明顯並使其更受歡迎? 例如,如果流行的存儲庫頁麵包含諸如官方“存儲庫導師”角色之類的東西,那麼一個熱情、有經驗的用戶可以回答任何問題可能會更清楚。
2. 發布更好(更流行)的“GitHub 入門”指南。
有很多帖子通過拉/推、提交、分支等方式教你如何使用 GitHub,但我幾乎沒有發現關於在 GitHub 社區內進行交互的指南(如果你知道任何,請在評論中發布相關鏈接)。
根據您的技能水平瀏覽 GitHub 社區禮儀和最佳實踐的操作指南可能有助於打破對開源貢獻的恐嚇和關注元素。 這絕對可以鼓勵更多有抱負的新開發人員參與其中。 請繼續關注 Toptal 提供的此類指南。
3. 更多的指導可以產生巨大的影響。
Bozhidar 評論了參與該項目的開發人員的重要性,他們願意幫助新手開始完成基本任務,而 Anna-Chiara 則討論了跳入一個項目並讓您的工作受到批評是多麼令人生畏。 似乎可以做很多事情來讓開源社區更加歡迎所有人,包括女性。 請繼續關注 Toptal 的倡議!
你對 GitHub 的結果感到驚訝嗎? 你認為他們是什麼意思?