品牌 资讯 搭配 材料 时尚 热点 行业 首饰 玉石 行情

真·从零复刻ChatGPT!斯坦福等开启「红睡衣」计划,先开源1.2万亿token训练集 全球速看料

2023-04-23 11:41:52 来源:商业新知网

Meta AI开源的大羊驼LLaMA模型彻底点燃了开源社区的热情,并在此基础上相继开发出了各种类ChatGPT的羊驼Alpaca, Vicuna等。

但Meta只是开源了LLaMA的权重,训练用到的数据集并没有开源出来,对于那些想从头开始训练LLaMA的从业者来说,目前还没有开源方案。

最近,由Ontocord.AI,苏黎世联邦理工学院DS3Lab,斯坦福CRFM,斯坦福Hazy Research 和蒙特利尔学习算法研究所的宣布开启 「红睡衣」(RedPajama)计划 ,旨在生成 可复现、完全开放、最先进的语言模型 ,即从零一直开源到ChatGPT!


【资料图】

下载地址:

https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

预处理仓库: https://github.com/togethercomputer/RedPajama-Data

「红睡衣」开源计划总共包括三部分:

1. 高质量、大规模、高覆盖度的预训练数据集;

2. 在预训练数据集上训练出的基础模型;

3. 指令调优数据集和模型,比基本模型更安全、可靠。

目前红睡衣计划中的第一部分,即预训练数据集RedPajama-Data-1T已开源,包括七个子集,经过预处理后得到的token数量大致可以匹配Meta在原始LLaMA论文中报告的数量,并且数据预处理相关脚本也已开源。

完整的RedPajama-Data-1T数据集需要的存储容量为压缩后3TB,解压后5TB,有条件、有网速的小伙伴可以开始搞起来了!

目前开发团队正在橡树岭领导计算设施(OLCF)的支持下开始训练模型,预计几周后即可开源。

通过OpenChatKit,研究人员已经收到了数十万条高质量的自然用户指令,将用于发布 RedPajama 模型的指令优化版本。

复刻LLaMA

2023年2月27日,Meta推出LLaMa并发布了相关论文。

论文链接: https://arxiv.org/pdf/2302.13971.pdf

LLaMa实际上是一组基础语言模型的统称,其参数范围从70亿到650亿不等,其中 LLaMA-13B(130亿参数)版本甚至在大多数基准测试中都优于1750亿参数的GPT-3 ;最大的LLaMA-65B和Chinchilla-70B和PaLM-540B相比也不落下风。

和之前的大模型不同的是,LLaMa 完全使用「公开数据集」 就达到了SOTA,并不存在其他模型中「不可告人」的秘密,无需使用专用或只存在于虚空中的数据集。

具体使用的数据集和预处理操作如下。

English CommonCrawl-占比67%

使用CCNet pipeline对五个CommonCrawl dumps(2017-2020年)进行预处理,删除重复的行,并用fastText线性分类器进行语言分类,去除非英语页面,并用ngram语言模型过滤低质量内容。

还训练了一个线性模型来对维基百科中用作参考文献的页面与随机采样的页面进行分类,并去除未被分类为参考文献的页面。

C4-占比15%

在探索实验中,研究人员观察到使用多样化的预处理CommonCrawl数据集可以提高性能,所以将公开的C4数据集纳入我们的数据。

C4的预处理也包含重复数据删除和语言识别步骤:与CCNet的主要区别是质量过滤,主要依靠启发式方法,如是否存在标点符号,以及网页中的单词和句子数量。

Github-占比4.5%

使用谷歌BigQuery上的GitHub公共数据集,只保留在Apache、BSD和MIT许可下发布的项目。

然后用基于行长或字母数字字符比例的启发式方法过滤了低质量的文件,并用正则表达式删除了HTML boilerplate(如

等)。

最后在文件层面上对所生成的数据集进行重复计算,并进行精确匹配。

维基百科-占比4.5%

数据集中添加了2022年6月至8月期间的维基百科dumps,涵盖20种语言,包括使用拉丁字母或西里尔字母的语言,具体为bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk;然后对数据进行预处理,以去除超链接、评论和其他格式化的html模板。

Gutenberg and Books3-占比4.5%

训练数据集中包括两个书籍相关的语料库,Gutenberg Project为公共领域的书籍;ThePile中Books3部分是一个用于训练大型语言模型的公开数据集。

预处理操作主要是删除重复内容超过90%的书籍。

ArXiv-占比2.5%

通过处理arXiv的Latex文件将科学数据添加到训练数据集中,删除了第一节之前的所有内容,以及书目;还删除了.tex文件中的注释,以及用户写的内联扩展的定义和宏,以提高不同论文的一致性。

Stack Exchange-占比2%

Stack Exchange是一个高质量问题和答案的网站,涵盖了从计算机科学到化学等不同领域。保留了28个最大网站的数据,删除了文本中的HTML标签,并按分数(从高到低)对答案进行了排序。

分词器(Tokenizer)

根据SentencePiece的实现使用字节对编码(byte-pair-encoding,BPE)算法对数据进行分词,其中连续的数字被分割成单个数字。

最终整个训练数据集在分词后获得了大约1.4T的tokens,除了维基百科和图书数据外,其他的数据在训练期间只使用一次,总共进行了约两个epochs

标签:

(责任编辑:)

相关文章

真·从零复刻ChatGPT!斯坦福等开启「红睡衣」计划,先开源1.2万亿token训练集 全球速看料

​StackExchange是一个高质量问题和答案的网站,涵盖了从计算机科学到化学等不同领域。

2023-04-23 11:41:52

每日资讯:全球央行大举购金,释放什么信号?

​近年来,各国中央银行开启“买买买”模式,增加黄金储备。“全球央行2022年购金量达1136吨,创历史新高,且2023年该趋势仍在延续。”世界黄...

2023-04-23 11:14:23

岑巩县政务服务中心:多举措推进精神文明创建工作_速看料

​为持续提升政务服务能力水平,岑巩县政务服务中心以创建全省精神文明县为契机,积极创新工作方式,切实促进精神文明创建工作和政

2023-04-23 10:43:10

音乐节、魔术秀、麦田艺术 五一陕西这些景区多重活动来了|全球消息

​音乐节、魔术秀、麦田艺术五一陕西这些景区多重活动来了

2023-04-23 10:54:26

焦点要闻:辗转12年 《亲爱的》原型最后一位寻子父亲调查新线索

​《亲爱的》原型最后一位寻子父亲调查新线索辗转各地寻找儿子12年“隔空”庆祝孩子18岁生日电影《亲爱的》原型之一杜小华在社

2023-04-23 09:56:54

灰熊对阵湖人G3赛前快报,詹戴大概率出战,莫兰特仍出战成疑

​灰熊整体而言因阵容完整性对阵湖人是有极大的不利因素在内的,所以比赛对灰熊而言容错率更低,而要求更高,这支球队需要全体球员至少有5个人发

2023-04-23 09:59:07

全国火车线路图查询系统(全国火车线路图) 微头条

​1、南昌直接有车到广州。2、十个多小时:车次类型始发站出发站开车时间目的站到达时间用时里程终点站硬座软座硬卧中软卧下T159 T16

2023-04-23 09:32:36

余干县气象台发布雷电黄色预警信号【III级/较重】

​余干县气象台发布雷电黄色预警信号【III级 较重】

2023-04-23 08:50:24

设计绝了!联想Yoga AIO 9i高端一体机即将推出:32英寸4K屏,i9+RTX 4050

​联想在今年的CES上发布了新款YogaAIO9i一体机,该产品采用了32英寸大屏幕,搭载13代酷睿处理器和RTX4050显卡。现在,联想海外官网已经公布了这

2023-04-23 08:38:41

【天天速看料】孔雀羽穿珠彩绣云龙吉服袍

​1、此袍为清代铺翠绣吉服袍仅存的珍品。2、其铺翠工艺史所罕见。3、是研究清代织绣工艺的重要实物史料。文章到此就分享结

2023-04-23 08:00:45

dnf红眼用什么徽章_dnf徽章怎么用

​1、徽章是直接戴不了的,只有镶嵌在装备上才可以戴,2、而镶嵌徽章是在天空那边的达芙妮,40万开2个孔,3、不一样颜色的

2023-04-23 07:50:33

花生豆浆的营养价值有哪些_花生豆浆的营养价值

​1、豆浆中含有大豆皂甙、异黄酮、大豆低聚糖等具有显著保健功能的特殊保健因子。2、2 豆浆含有丰富的植物蛋白,磷脂,维生

2023-04-23 06:49:37

大公无私反义词是什么_大公无私反义词

​一、题文写词语的反义词:生气勃勃()情深意切()大公无私()二、解答答:反义词:生气勃勃——奄奄一息情深意切——薄情寡意

2023-04-23 06:38:20

2020长安悦翔上市时间 2020悦翔最新消息 每日简讯

​悦翔是长安汽车旗下的一款小型车。目前(2020年1月18日)2018款和2019款在售。官方指导价4 99~6 79

2023-04-23 06:10:27

宝马翻车,宾利也出乱子,女销售“穿短裙”下蹲走光,疑没穿内裤

​宝马翻车,宾利也出乱子,女销售“穿短裙”下蹲走光,疑没穿内裤,宾利,翻车,车展,女销售,BMW,电动车,宝马汽车

2023-04-23 05:36:41

青蛙的生长过程图片 卡通_青蛙的生长过程

​1、在青蛙繁殖季节,雌蛙将卵产在水中,雄蛙随即排出精液。2、精、卵在体外完成受精过程。3、受精卵在膜内进行细胞分裂,发育成胚胎。4、胚胎

2023-04-23 05:05:55

全球热推荐:静享户外惬意空间,当贝D5X Pro露营模式让生活更惬意

​马上就要到五一假期了,现在人们都在流行出去露营,在草地里支起一顶帐篷,晚上的时候与浪漫的星空对对话,拥抱着大自然的美妙。如今越来越多

2023-04-23 04:28:48

深圳原创儿童电影《萤火虫的天空》4月22日试映

​4月22日,院线电影《萤火虫的天空》在深圳市罗湖金光华南国影城举办了观影活动。这是继深圳大力发展影视文化以来的又一部本土影视作品,该片拟

2023-04-23 04:11:47

耳朵冻了发热发痒用什么药_耳朵冻了痒发热怎么办

​1、如果耳朵因感冒发烧而发痒,考虑耳朵冻伤。2、这种情况下可以做以下处理:1。3、全身治疗:在临床医生的指导下,可采用口

2023-04-23 02:34:06

视频|飘色巡游盛况 再现广州番禺沙湾古镇|每日头条

​(更多新闻资讯,请关注羊城派pai ycwb com)来源|羊城晚报·羊城派视频拍摄|羊城晚报全媒体记者邓勃曾育文视频剪辑|羊城晚报全媒体记者

2023-04-23 02:19:23

血豆腐怎么打开销路_xdf怎么打开_最新消息

​1、1)移动磁盘软件在Win98的系统下无法正常使用,请用户在Win2000系统以上PC中使用;(2)使用移动磁盘下

2023-04-23 01:20:16

重生年代文孤女有空间笔趣阁_重生年代孤女有空间 天天播资讯

​1、随身空间之重生过去来种田简介:身患绝症的孤儿,重生回到轰轰烈烈的年代,重温家庭温暖。2、享受浓浓亲情,感受时代变迁,

2023-04-23 00:54:32

南京消防辟谣:秦淮区来凤小区发生大爆炸系谣言|天天最新

​南京网络辟谣|温馨提示小编提醒广大网民朋友,擅自编造、传播不实言论,会严重扰乱社会安定

2023-04-23 00:10:40

短桥楼|当前看点

​1、桥楼是指船长中部的上层建筑,可提供居住空间,保护中部舱室免受波浪侵袭。2、顶层设有驾驶室,作为指挥、操纵船舶航行

2023-04-22 23:42:52

每日视点!不解风情意思_关于不解风情的意思

​欢迎观看本篇文章,小柴来为大家解答以上问题。不解风情意思,关于不解风情的意思很多人还不知道,现在让我们一起来看看吧!1、

2023-04-22 22:46:11

西媒:拒绝沙特2年5000万欧税后薪水报价 莫德里奇盼与皇马续约

​不是所有的超级球星都爱钱,有的球员还是将荣誉视为第一位,37岁的莫德里奇就是其中之一。来自西班牙媒体《阿斯报》的最新报道,来自沙特的俱

2023-04-22 22:26:22

【当前独家】长期喝燕麦会减肥吗 长期喝燕麦对减肥有用吗

​1、天天吃燕麦不一定能减肥。2、肥胖是摄入量超出消耗量,是遗传因素、环境因素、内分泌调节异常、肠道菌群等综合作用的结果;肥胖的治疗总原

2023-04-22 21:49:09

对标中国?美国开始了……

​据美国《华尔街日报》、“今日俄罗斯”(RT)网站等媒体21日报道,美国已开始规划6G无线通讯战略,白宫当天与美企业、政府

2023-04-22 21:32:25

戚夫人怎么死的_被汉高祖刘邦的皇后吕雉折磨死的|今头条

​欢迎观看本篇文章,小柴来为大家解答以上问题。戚夫人怎么死的,被汉高祖刘邦的皇后吕雉折磨死的很多人还不知道,现在让我们一起

2023-04-22 20:53:01

泽连斯基签署命令决定制裁40名个人和382名法人-天天报道

​当地时间4月22日,乌克兰总统泽连斯基签署命令,发布国家安全与国防委员会对40名个人和382名法人的制裁决定。(总台记者

2023-04-22 20:21:35