BigScience 大規模開放科學與多語言開放存取模型BLOOM[1][2] 是一個基於Transformer模型的自回歸大型語言模型(LLM),具有1760億個參數。該模型與其程式碼基礎,以及訓練所用的數據,均以自由許可證形式發布。[3] BLOOM於2022年3月至7月間,使用約3660億(1.6TB)個語料進行訓練。[4][5]

BLOOM是BigScience合作計畫的主要成果,[6]該計畫是一個為期一年的研究工作坊,自2021年5月開始,至2022年5月結束。BigScience由HuggingFace領導,並涉及來自法國及其他國家數百名代表學術界和私營部門的研究人員與工程師。BigScience得到了法國公眾超級計算機Jean Zay的大規模公眾計算資源的支持,該計算機由GENCI法國國家科學研究中心(IDRIS)管理,並在其上進行訓練。

BLOOM的訓練語料庫名為ROOTS,它結合了來自當時最新版本網絡基礎OSCAR語料庫的數據(佔ROOTS的38%),以及從人工挑選和記錄的語言數據來源清單中收集的新數據。該語料庫涵蓋了46種自然語言(語料佔比從英語的30%到Chi Tumbuka語的0.00002%不等)以及13種程式語言。[7]

参考资料

  1. ^ BigScience Large Open-science Open-access Multilingual Language Model. [2022-10-01]. 
  2. ^ Le Scao T, Fan A, Akiki C, Pavlick E, Ilić S, Hesslow D, Castagné R, Luccioni A, Yvon F, Gallé M, Tow J, Rush AM, Biderman S, Webson A, Sasanka Ammanamanchi P, Wang T, Sagot B, Muennighoff N, Villanova del Moral A, Ruwase O, Bawden R, Bekman S, McMillan-Major A, Beltagy I, Nguyen H, Saulnier L, Tan S, Ortiz Suarez P, Sanh V, Laurençon H, Jernite Y, Launay J, Mitchell M, Raffel C, et al. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. 2022. arXiv:2211.05100  [cs.CL]. 
  3. ^ The BigScience RAIL license. [2024-01-10]. 
  4. ^ Heikkilä, Melissa. BLOOM: Inside the radical new project to democratize AI. MIT Technology Review. 2022-07-12 [2023-12-26]. 
  5. ^ Release of largest trained open-science multilingual language model ever. French National Centre for Scientific Research. 2022-07-12 [2023-12-26]. 
  6. ^ BigScience. [2024-01-10]. 
  7. ^ Laurençon H, Saulnier L, Wang T, Akiki C, Villanova del Moral A, Le Scao T, Von Werra L, Mou C, González Ponferrada C, Nguyen H, Frohberg J, Šaško M, Lhoest Q, McMillan-Major A, Dupont G, Biderman S, Rogers A, Ben allal L, De Toni F, Pistilli G, Nguyen O, Nikpoor S, Masoud M, Colombo P, de la Rosa J, Villegas P, Thrush T, Longpre S, Nagel S, Weber L, Muñoz M, Zhu J, Van Strien D, Alyafeai Z, Almubarak K, Vu MC, Gonzalez-Dios I, Soroa A, Lo K, Dey M, Ortiz Suarez P, Gokaslan A, Bose S, Adelani D, Phan L, Tran H, Yu I, Pai S, Chim J, Lepercq V, Ilic S, Mitchell M, Luccioni S, Jernite Y. The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset. 2022. arXiv:2303.03915  [cs.CL].