Common Voice
Mozilla的語音資料集
Common Voice是由Mozilla基金会所发起的群众参与专案,旨在为语音辨识软体建立自由资料库。这项专案受到志工们的协助,以麦克风来进行录音及分类他人所录制的声音。收集的句子及语音都将收录至以CC0授权释出至公有领域的资料库当中。这项授权许可让程式设计师们能不受限制或成本地将资料库使用于语音辨识的应用程式当中。
开发者 | Mozilla基金会 |
---|---|
首次发布 | 2017年6月19日 |
源代码库 | https://github.com/mozilla/voice-web |
语言 | 多语言(语言列表) |
许可协议 | CC0 |
网站 | commonvoice.mozilla.org |
宗旨
Common Voice旨在提供多样化的语音样本。根据Mozilla的首席创新官Katharina Borchert所说,当今有许多类似的专案都是从公众媒体来取得资料集,但这些收录内容以训练有素的专业人士或是男性居多,并无法完全代表女性,或是说话带有明显口音的人。[1]
语音资料库
第一个公开的资料集于2017年11月发布。全球共超过2万名用户录制了500个小时的英文句子。 [2]
2019年2月,第一批语言对外公开发布。包括了18种语言:英语、法语、德语和普通话,但也包括不太流行的语言,如威尔斯语和卡拜尔语。整体包括了4.2万多名贡献者近1400小时的录音资料。 [3]
截至2020年7月,该资料库已经收集了54种语言共7226小时的录音,其中5591小时已经经过志工们的验证[4]。其中英文、德文、法文、义大利文和西班牙文,就有超过5000位的语音贡献者。[5]
2021年5月,在完成新增卢安达语的工作后,获得了比尔及梅琳达·盖兹基金会、德国国际合作机构及英国外交、国协及发展事务部针对史瓦希利语语音收集的捐助,并希望以此能够带动更多东非语系的加入。 [6]
参见
- Forvo - 线上的语音资源录制及供给网站
- Lingua Libre - 法国维基媒体协会开发的线上工具
- Crowdsource - Google开发的应用程式
参考
- ^ Why do we gender AI? Voice tech firms move to be more inclusive. The Guardian. 11 January 2020 [19 April 2020]. (原始内容存档于2022-12-19).
- ^ Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset. blog mozilla.org. November 29, 2017 [2022-12-19]. (原始内容存档于2017-11-29).
- ^ Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages. VentureBeat. February 28, 2019 [2022-12-19]. (原始内容存档于2019-03-04).
- ^ Mozilla Common Voice updates will help train the ‘Hey Firefox’ wakeword for voice-based web browsing. VentureBeat. 1 July 2020 [1 April 2021]. (原始内容存档于March 10, 2021).
- ^ Mozilla釋出最新長達7,226個小時的Common Voice語音資料集. iThome. July 6, 2020 [2022-12-19]. (原始内容存档于December 3, 2022).
- ^ Mozilla Common Voice Receives $3.4 Million Investment to Democratize and Diversify Voice Tech in East Africa. Mozilla Foundation. 2021-05-25 [2021-06-03]. (原始内容存档于2022-12-19) (英语).
- ^ Onukwue, Alexander. Ghana’s most popular language is now on Mozilla Common Voice. Quartz. 23 September 2022 [3 October 2022]. (原始内容存档于2022-12-02) (美国英语).
- ^ Languages. commonvoice.mozilla.org. [4 October 2022]. (原始内容存档于2022-12-24) (英语).