开源对女性开放吗?
已发表: 2022-03-11以下是在 Toptal 女性开发者奖学金推出之前发布的。 为了支持奖学金申请者,Toptal 还发布了一份指南,以帮助您做出第一个开源贡献。
女性在科技领域的代表性不足。 这种认识并不是什么新鲜事。 看看 Facebook、谷歌、英特尔、Slack 等许多公司发布的数据。 但这些数字可能比这些报告所暗示的还要糟糕。
在最近的一次科技活动中,我无意中听到了关于科技领域缺乏性别多样性的旁白。 这个小组讨论了这样一个事实,即尽管女性占科技劳动力的 30% 左右,但更高级别的工程团队很少有超过几个女性。
该对话的一位参与者评论说,这是因为男性开发人员通常比女性开发人员更有才华。 群里没有人反对。
唔…
从 Toptal 的个人经历和我在普林斯顿大学的工程经验来看,男性和女性的比例接近 50/50,我知道这是错误的。 我曾与许多令人难以置信的、非常聪明的女性工程师一起工作,担任各种角色。 然而,这些数字似乎与我自己的经验并不相符,尤其是当您开始寻找更高级的工程职位时。
解决这种差异很重要。 这不仅仅是为了多样性而多样性。 如果男人和女人的智商一样,从统计学上讲,那么世界上最聪明的十个人中,应该有五个是男性,五个应该是女性。 因此,如果您的团队的男女比例不均衡,那么您的团队可能不是最好的。
在一个完美的系统中,多样性是一个概率结果。 但这些不是我们看到的结果。
在无意中听到这段对话后,我想看看数字,以更好地了解软件团队建设趋势是否/在哪里出错。 我在 Google 上搜索了软件工程技能水平的性别细分趋势,但找不到太多,所以我决定查看 GitHub 上的公开数据。 我抓取了 5,000 个个人资料以获取姓名、关注者数量、贡献数量和存储库数量。 然后我使用开源包genderize.io 来确定每个配置文件的性别。
第一批中的女性太少了,我不得不添加更多数据以使即使是简单的图表也很重要,所以我又刮了 15,000 个。
这是我发现的:
开源由男性主导
甚至在进行任何进一步分析之前,很明显女性的比例极低。 在 20,000 个个人资料中,genderize.io 能够自信地确定 15,374 人的性别。 其中,只有 6.0% (926) 是女性。 一旦您开始查看用户活动,这种差异就会变得更加严重。
让我们以 10 个贡献作为分界线,以区分刚刚创建个人资料并可能进行了一些实验的用户与至少深入研究过开源项目或开始自己的开源项目的用户之间的差异。 结果:5.4% 的女性。
事实上,如果我们按照贡献的数量将用户分成不同的桶(每个桶至少有 1000 名用户),女性用户的比例会随着贡献的增加而减少。
不仅 GitHub 上的女性人数远少于科技行业的性别多样性数字所暗示的,而且随着用户活动的增加,女性的比例似乎也在下降。
我不断挖掘,查看关注者数量和存储库数量的性别,并观察到相同的趋势。 在查看存储库的数量时,这一点尤其明显:
我们再次看到,随着我们移至拥有更多存储库的存储桶,女性的百分比会降低。
那么这里发生了什么? GitHub 活动首先是编程专业知识的合理指标吗? (我认为是。)有才华的女性工程师比男性工程师更不可能积极地为开源做出贡献吗? 当涉及到女性工程师时,这些结果是否是科技行业进入/保留问题的另一个指标?
为什么开源社区的人数这么少?
科技行业的女性人数已经相当惨淡,但在开源项目中她们的情况更糟。
以前的许多研究都集中在女性不愿意从事与 STEM 相关的学科和职业的原因上。 一些人总结出对 STEM 科目普遍缺乏兴趣。 其他人认为,女性在受到家庭和老师的刻板印象后决定不从事 STEM 职业。 还有一些人指出缺乏榜样或多种原因的结合。
根据 StackOverflow 上的一项关于性别的研究,“性别和 STEM 相关学科的问题已经研究了好几年,主要是从‘为什么’女性不从事科学研究或职业的角度来看。 迄今为止,人们对量化在线社区中女性(作为技术“用户”)的现象和代表性、她们的参与程度以及是否可以在性别层面上发现差异的关注较少。 仅收集到关于特定社区如何积极阻止女性参与的轶事证据。”
但是,当我们花这么多时间关注为什么攻读 STEM 相关学科的女性较少时,我们却忽略了另一个重要的差异:如果 28% 的 CS 硕士学位授予女性,为什么开源社区中的数字如此之多降低?
在考虑这个问题的答案时,有几种可能性需要考虑:
1. 编程天赋和 GitHub 活跃度之间可能没有很强的相关性。
在科技行业,许多开发人员在他们职业生涯的早期就去 GitHub,因为这是认真对待的先决条件。 然而,似乎越来越少有抱负的女性开发人员以这种方式看待开源。 这些数据是否可能纯属巧合,与科技行业才华横溢的女性软件工程师的数量相比并没有多大意义?
我与 Toptal 的两位工程师 Anna-Chiara Bellini 和 Bozhidar Batsov 讨论了这个问题。 Anna-Chiara 在各种学术和商业环境中拥有超过 20 年的软件工程经验,Bozhidar 在全球最活跃的 GitHub 贡献者名单中排名第 98。
两人都同意,虽然活跃在 GitHub 上通常是工程专业知识的良好指标,但反之则不然,并提到他们认识很多完全不参与开源的伟大工程师。 科技行业也同意这一点,许多公司在招聘过程中评估 GitHub 个人资料(尽管这种做法似乎相当有偏见,鉴于我的研究结果,这并不令人意外)。
Bozhidar 建议,开源贡献者通常更有可能是推动公司环境进行重大内部变革的人。 Anna-Chiara 评论说,为开源做出贡献需要极大的信心,鉴于科技行业在欢迎女性方面的糟糕历史,她认为女性开发人员可能更难以克服这一点。
当然,这些 GitHub 数据可能存在一些偏见(包括几乎 25% 的名字无法自信地归类为男性/女性的事实)。
然而,Bozhidar、Anna-Chiara 和我同意 GitHub 活动水平通常是编程专业知识的一个很好的指标。 然而,这些数据表明有才华的女性程序员选择停止(或从未开始)他们的开源追求以支持其他选择的趋势。
2. 科技公司报告中引用的数字包括非科技职位。
科技行业的许多公司都表示,他们雇佣了 25% 到 30% 的女性。 然而,这个数字可能会产生误导。 大多数这些较大的数字 - 是的,它们是较大的 - 包括技术和非技术角色。

当您开始检查担任技术职务的女性员工的百分比时,数字会下降得更低。
在 Facebook,32% 的员工是女性,但只有 16% 的技术职位属于女性。 在谷歌,整个公司的女性员工也有类似的下降 30% 到 18% 的技术职位。 Slack 在工程职位中从 39% 的女性整体下降到 18%。 在我研究过的公司中,英特尔的增幅最小,从总体上的 24.1% 的女性到技术职位的 19.4%。
因此,尽管许多公司吹嘘女性员工的比例约为公司的四分之一甚至三分之一,但担任技术职务的女性人数实际上要低得多。 似乎 15% 到 20% 的声明会更准确。
但这仍然导致在科技公司担任技术或工程职位的女性比例与在 GitHub 上为开源项目做出贡献的女性比例之间存在巨大差异。
3. 女程序员正在离开科技行业。
如果 GitHub 上的活动与资历和专业知识相关,那么活跃女性贡献者的数量极少(甚至与整体女性贡献者相比也很少)可以用科技行业的女性工程师惊人的高离职率来解释。
如果科技行业不能留住尽可能多的超过职业生涯中期的女性,那么她们很可能也不会为许多开源项目做出贡献。
但是这种推理方式也引出了一个问题:资历和贡献之间的相关性真的是真的吗? 许多频繁的 OSS 贡献者都是相对较新的程序员,他们正试图为自己树立名声——那么该群体的女性在哪里?
4. GitHub 对女性程序员来说可能是一个不受欢迎的社区。
一位女性开发人员在评论一篇关于科技女性的文章时说:“关于开源项目——我最近一直在考虑这个问题。 我实际上没有承诺任何事情,这肯定会影响我的职业生涯……我觉得这是一个我无法进入的圈子。 但主要是我担心作为公开项目的唯一女性程序员会受到过度关注。 鉴于女性在互联网上受到的待遇,这种恐惧似乎并非没有道理。”
Anna-Chiara 认为这种忧虑是女性工程师的共同主题,尤其是在涉及 OSS 时。 当我问她是否认为女性不太可能为开源项目做出贡献时,她毫不犹豫地回答,是的。
Anna-Chiara 还提出了女性 GitHub 用户可能会尝试采用中性或男性名称以确保他们受到重视的可能性(请记住,genderize.io 无法自信地确定大约四分之一的用户的性别。配置文件刮)。
然而,这并不意味着女性贡献者不存在。 Bozidhar 提出了 Exercism.io,这是一个由 Katrina Owen 发起的受欢迎的项目,有几位女性贡献者。 他还提到了 Bodil Stokke,一位来自挪威的女性开发人员,她在流行的开源贡献方面有着极其丰富的历史。
Anna-Chiara 还建议,如果一个项目的主要贡献者或领导者中有女性,那么女性开发人员可能更有可能为它做出贡献。 不幸的是,与男性主导的项目数量相比,女性主导的 OSS 项目很难找到。
但问题不仅仅是 OSS。 “如果我想想我认识的从事开发的女性,这与你在这些大公司听到的 20% 相去甚远。 我认为它甚至不会接近 10%,”Anna-Chiara 告诉我。 “对 GitHub 的分析结果并不让我感到惊讶。”
5. 塑造科技行业的隐性偏见可能会渗入 GitHub。
Eric Ries 指出了科技行业内隐偏见的问题。 即使系统中的个人没有偏见,这些系统仍然很容易变得有偏见。 人们也有无意识的偏见,这使问题更加复杂。
在他的文章中,埃里克使用了管弦乐队的例子,直到 1970 年代,这些管弦乐队主要都是男性。 人们认为男性表演者的音乐天赋比女性表演者高。 然而,一旦管弦乐队开始在试镜期间通过物理屏幕将音乐家与评委分开,数字就发生了显着变化,人们开始接受男性和女性的平均演奏水平相同。
如果类似的偏见在科技行业的招聘系统中发挥作用,这可能有助于解释我之前讨论过的女性软件工程师比例较小的原因。 如果雇用的女性软件工程师减少,这些影响可能会渗透到 GitHub 等开源社区。 如果有人被拒绝担任全职编程角色,他们可能会认为自己没有那么有才华,因此不太可能有信心为开源项目做出贡献。
这给我们留下了怎样的印象?
以下是我想到的一些后续问题(还有更多):
1. 这些数字如何随时间变化?
让更多女性参与科技行业目前是一个备受关注的话题,需要贡献的编码训练营的兴起应该会产生积极的影响,包括在开源方面。 这些讨论和各种新举措的效果如何? 这些数字在 3 年前会是什么样子? 5年前? 一年后会怎样?
2. 我们还能如何分析 GitHub 数据?
Anna-Chiara 建议根据用户必须分叉的数量来检查用户的性别细分,以了解女性 GitHub 用户以某种方式试验项目的频率。 此外,还有其他因素在起作用,例如年龄组,可能会影响我们的研究结果。 长期以来,开源一直是科技行业的主要内容,但 GitHub 成立于 2008 年。
3. 有什么方法可以查看哪些 GitHub 用户使用了假名?
如果使用假名的女性比例远高于 GitHub 上女性的整体比例,那么这将非常强烈地表明 GitHub(以及在一定程度上总体上的技术)作为一个社区是多么受欢迎。
4. 当您开始查看位置时,这些数字如何变化?
这是不完美的,因为 GitHub 上的交互在理论上与位置无关。 但是,我们能从女性 GitHub 用户比例高于平均水平的国家的科技社区中学到什么吗?
这里有一些改进这些数字的想法(同样,当然还有更多):
1. GitHub热门仓库的页面可以改进吗?
当我与 Bozhidar 讨论这个话题时,他提到 GitHub 上的大多数项目/社区都有非常耐心、热情和乐于指导新的开源贡献者度过项目早期阶段的领导者。 这似乎根本不是常识(请记住上述一位女性开发人员的评论,她认为开源社区是“一个 [她无法] 进入的圈子”)。
新的 GitHub 用户是否知道存在这种类型的指导和支持(假设它像他所说的那样普遍),新用户是否知道如何轻松找到此类指导? 是否可以对流行的 GitHub 存储库的界面进行改进以使其更加明显并使其更受欢迎? 例如,如果流行的存储库页面包含诸如官方“存储库导师”角色之类的东西,那么一个热情、有经验的用户可以回答任何问题可能会更清楚。
2. 发布更好(更流行)的“GitHub 入门”指南。
有很多帖子通过拉/推、提交、分支等方式教你如何使用 GitHub,但我几乎没有发现关于在 GitHub 社区内进行交互的指南(如果你知道任何,请在评论中发布相关链接)。
根据您的技能水平浏览 GitHub 社区礼仪和最佳实践的操作指南可能有助于打破对开源贡献的恐吓和关注元素。 这绝对可以鼓励更多有抱负的新开发人员参与其中。 请继续关注 Toptal 提供的此类指南。
3. 更多的指导可以产生巨大的影响。
Bozhidar 评论了参与该项目的开发人员的重要性,他们愿意帮助新手开始完成基本任务,而 Anna-Chiara 则讨论了跳入一个项目并让您的工作受到批评是多么令人生畏。 似乎可以做很多事情来让开源社区更加欢迎所有人,包括女性。 请继续关注 Toptal 的倡议!
你对 GitHub 的结果感到惊讶吗? 你认为他们是什么意思?