创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
四色播播 “弱智贴吧”的数据,果然是最强中语语料库 - 抖阴视频

AV色情

你的位置:抖阴视频 > AV色情 >

四色播播 “弱智贴吧”的数据,果然是最强中语语料库

发布日期:2024-10-12 09:37    点击次数:185

中国科学院、北大、中国科技大学、滑铁卢大学、01.ai等10家机构合资推出了四色播播,专用于中语的高质地指示调优数据集——COIG-CQIA。

在大模子鸿沟英语一直是西宾数据最蹙迫的言语,但由于中英文的结构和文化各异,径直将英文数据集翻译成中语并不睬念念。是以,为了填补高质地中语数据集的空缺,商议东谈主员拓荒出了COIG-CQIA数据集。

COIG-CQIA险些握取了中语互联网的论坛、网站、百度贴吧、问答社区等高质地数据集。用COIG-CQIA对Yi-6B、Yi-34B进行指示调优,再用GPT4在BELLE-EVAL上评估在各样数据集上西宾的大模子性能。

意旨的一幕出现了,“弱智贴吧”的数据质地,果然大幅度进步知乎、豆瓣、是否等着名学问社区,还简直大巧若拙啊~

数据集地址:https://huggingface.co/datasets/m-a-p/COIG-CQIA

论文地址:https://arxiv.org/abs/2403.18058

“弱智贴吧”的数据,果然是最强中语语料库

为了考证“弱智贴吧”的数据质地,「AIGC洞开社区」成心去实地覆按了一下,果然名不虚传有快要300万的“病友”,找几个典型问答给人人欣赏一下。

“弱智贴吧”的数据,果然是最强中语语料库

变形金刚买保障,是买车险如故东谈主险? 雷公电母放的是,直流电如故相易电? 秃子的东谈主洗头,用洗头膏如故洗面奶? 要是猪肾虚,那它的腰子还补吗? 吃麻醉剂去打架,算开挂吗? 鞋子买好了,怎么智力在雪柜里滑冰?

用这么的数据去微调中语大模子,那还不得稳超GPT-4坐窝醒悟成为“病友”啊~

COIG-CQIA数据集先容

商议东谈主员从中语互联网用心挑选了涵盖通识百科、STEM、东谈主文鸿沟的22个高质地数据源,包括问答社区、百科网站、本色创作平台、熏陶题库等种类。

酬酢媒体、论坛数据方面,商议东谈主员从知乎、小红书、豆瓣、是否等热点中语社区用心甄选了高质地问答和长文本本色。

针对不同社区的特质,永诀取舍了筛选高赞恢复、评分过滤、东谈主工审核等形状,确保所保留的数据贴合信得过场景。

通识百科方面,从百科、维基解答等着名中语百科网站收罗了庸俗的主意评释和引导性著作,本色波及当然科学、东谈主文社科等多个鸿沟。再通过理解HTML并策画多种请示模板,将原始数据得以鼎新为高质地的指示-输出对。

“弱智贴吧”的数据,果然是最强中语语料库

专科学问部分则从金融、电子、医学、农业等专科垂直网站蚁集了结构化数据,然后按照东谈主工策画的请示模板构造出专科性指示-输出对。

此外,国内中学生、商议生的积年入学熏陶真题也被COIG-CQIA纳入在数据辘集,可权贵栽种模子的逻辑推理和学问详细智商。

在完成数据收罗和分类整理后,商议东谈主员对每一类数据进行深度清洗、重构和东谈主工审查,以确保数据质地、各样性和对信得过东谈主机交互的贴合度。

包括体式轨范、谜底审查、无关本色删除等。最终,用心构建了一个包含48,375条指示-输出对的高质地中语指示微调数据集。

“弱智贴吧”的数据,果然是最强中语语料库

为了测试数据集性能,用COIG-CQIA对Yi系列、Qwen-72B等国内着名模子进行了微调,后果认识,COIG-CQIA比现存开源中语数据集对大模子的匡助更好。

什么是指示微调

指示微调是一种在大模子上进行微调的法子,通过提供指示和输出来引导模子更准确地完成本色输出。

指示微调通过构建专科的指示体式的实例,频繁包含任务形色、输入和输出等,然后以有监督的形状对大型言语模子进行风雅化微调。

擦玻璃 裸舞

“弱智贴吧”的数据,果然是最强中语语料库

浅显来说,指示微调像是一种“姆妈教孩子”的法子,按照特定体式匡助大模子更好地学习、输出拟东谈主化本色。

需要留神的是,指示微并吞数据预西宾是两回事。预西宾是大模子在大鸿沟无监督数据上进行的基础数据西宾,其主义仅仅让大模子学习通用学问,不会针对任何特定鸿沟进行数据微调。

是以,高质地的指示微调数据集关于大模子的拟东谈主化输出、本色的精确性相当蹙迫。

 四色播播



创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False