0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

RISC-V 跑大模型(三):LLaMA中文扩展

澎峰科技PerfXLab ? 来源:澎峰科技PerfXLab ? 作者:澎峰科技PerfXLab ? 2023-07-17 17:15 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

这是RISC-V跑大模型系列的第三篇文章,前面我们为大家介绍了如何在RISC-V下运行LLaMA,本篇我们将会介绍如何为LLaMA提供中文支持。

1.模型扩充

以下步骤在X86下进行:

1.1准备工作

安装最新版本的python和以下依赖库。

pip install protobuf==3.20.0 结构化数据存储格式
pip install transformers 把原版模型转换为HF格式
pip install sentencepiece 无监督的文本标记器和去标记器
pip install peft 使用LoRA的工具

1.2模型下载

下载LLaMA原版模型和中文扩充

LLaMA原版模型:

https://ipfs.io/ipfs/Qmb9y5GCkTG7ZzbBWMu2BXwMkzyCKcUjtEKPpgdZ7GEFKm/

中文扩充:

https://huggingface.co/ziqingyang/chinese-alpaca-lora-7b

下载后的目录如下:

wKgaomS1AoiAbJSYAACUfmvct_s083.pngwKgZomS1Ao6ACv0GAABF7DbXaIQ678.png

1.3合并模型

(1) 将LLaMA原版模型转换为Huggingface格式。这一步需要借助transformers提供的脚本convert_llama_weights_to_hf.py。

下载链接:https://github.com/huggingface/transformers/blob/main/src/transformers/models/llama/convert_llama_weights_to_hf.py

请执行以下命令:

python convert_llama_weights_to_hf.py --input_dir path_to_original_llama_root_dir --model_size 7B --output_dir path_to_original_llama_hf_dir

命令解释:将原版LLaMA的tokenizer.model放在--input_dir指定的目录,其余文件放在${input_dir}/${model_size}下。执行以下命令后,--output_dir中将存放转换好的Huggingface版权重。

(2) 合并LoRA权重,生成Huggingface全量模型,这一步需要借助:merge_llama_with_chinese_lora.py。

下载链接:

https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/scripts/merge_llama_with_chinese_lora.py

执行命令:

python merge_llama_with_chinese_lora.py --base_model path_to_original_llama_hf_dir --lora_model chinese-alpaca-lora-7b --output_dir path_to_output_dir

命令解释:这一步的参数可以参照上一步。

2.移植模型

在完成前面的步骤后会得到一个path_to_output_dir的目录,目录内容如下:

wKgZomS1BGiAcPf6AAC6mGVvrpk862.png

将目录下的consolidate.00.path和params.json上传到RISC-V中的llama.cpp/models目录下,这一步可以借助scp来实现:scp “源文件路径” 账户@地址:目的路径。之后的步骤可以参考本系列的第二篇文章。链接如下:RISC-V 跑大模型(二):LLaMA零基础移植教程

最后的运行效果:

wKgZomS1BNiAJHVQAAIxHb8elDk082.png

3.结语

我们也为大家准备好已经扩展了中文的LLaMA供大家使用,只要扫描下面的二维码,进群即可获得下载地址。之后我们还会对LLaMA进行优化加速,敬请期待。

另外,RISC -V跑大模型系列文章计划分为四期:

1.RISC -V跑大模型(一)

2.RISC-V 跑大模型(二):LLaMA零基础移植教程

3.RISC-V跑大模型(三):LLaMA中文扩充(本篇)

4.更多性能优化策略。(计划)

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19935

    浏览量

    236319
  • RISC-V
    +关注

    关注

    46

    文章

    2608

    浏览量

    49043
  • 大模型
    +关注

    关注

    2

    文章

    3191

    浏览量

    4147
  • LLM
    LLM
    +关注

    关注

    1

    文章

    328

    浏览量

    890
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    关于RISC-V芯片的应用学习总结

    的核心优势在于其开源性、模块化、低功耗、高性能以及可扩展性。这些特性使得RISC-V芯片在物联网(IoT)、嵌入式系统、边缘计算以及高性能计算等领域具有独特竞争力。 在物联网领域,RISC-V芯片的低功耗
    发表于 01-29 08:38

    新的一年 RISC-V前景如何呢?

    1 月 7 日消息,RISC-V 领军企业 SiFive 成立中国分公司,中文名称定为“芯伍科技”。 1 月 14 日消息,专注传统与 AI 业务,Imagination 放弃 RISC-V CPU 开发。 新的一年,
    发表于 01-24 16:19

    RISC-V指令集概述

    RISC-V就是RISC的第五代指令集架构。而RISC-V目标就是“成为一种完全开放的指令集架构,可被任何学术机构或商业组织自由使用”。 RISC-V指令集由“基本指令集 +
    发表于 11-30 23:30

    关于RISC-V学习路线图推荐

    )、密码指令集(C)等。 RISC-V架构特性 : 掌握RISC-V的精简、模块化、可扩展性和可裁剪性等特性。 RISC-V开发工具与环
    发表于 11-30 15:21

    什么是RISC-V?以及RISC-V和ARM、X86的区别

    是开放的,任何人都可以使用它来开发处理器芯片和其他硬件,而无需支付任何许可或使用费用。RISC-V的设计简单,易于扩展和自定义,可以在各种应用场景和市场中使用。 什么是指令集架构? 指令集架构
    发表于 11-16 16:14

    RISC-V笔记——基础

    1.前言RISC-V旨在支持广泛的定制和专业化。RISC-V的ISA是由一个基本整型ISA和其它对基本ISA的可选扩展组成。每个整型ISA可以使用一个或多个可选的ISA扩展进行
    的头像 发表于 11-12 01:08 ?1562次阅读
    <b class='flag-5'>RISC-V</b>笔记——基础

    RISC-V,即将进入应用的爆发期

    计算机由控制整体的CPU(中央处理器)和加速器两部分构成。在AI计算中,功耗和效率是两个关键因素。RISC-V架构通过其简洁的设计和定制化的扩展,可以实现高效的能量使用。该架构能够通过小型且高效的处理单元
    发表于 10-31 16:06

    RISC-V近期市场情况调研

    RISC-V芯片的发展情况 全球趋势 :RISC-V架构因其开源、免费、模块化和可扩展的特点,获得了业界的广泛支持。包括苹果、Intel、高通等国际巨头都在积极布局RISC-V生态
    的头像 发表于 10-23 15:10 ?1769次阅读

    ISA ARM 对比 RISC-V

    扩展方式以及目标应用场景等方面有显著差异。 要深入对比ARM和RISC-V的指令集,需要从指令集架构(ISA)的设计原则、扩展模块、指令的复杂性、特性以及它们的实际性能表现来进行讨论。RIS
    的头像 发表于 09-10 09:26 ?1695次阅读

    加入全球 RISC-V Advocate 行列,共筑 RISC-V 的未来 !

    加入RISC-VAdvocate行列!我们正在寻找来自世界各地的RISC-V爱好者,通过全球推广和参与,成为支持RISC-V进步的关键参与者。作为一名RISC-VAdvocate,您将
    的头像 发表于 09-10 08:08 ?943次阅读
    加入全球 <b class='flag-5'>RISC-V</b> Advocate 行列,共筑 <b class='flag-5'>RISC-V</b> 的未来 !

    RISC-V指令集的特点总结

    实现的复杂性,提高处理器的执行效率和易于优化。 模块化 定义:RISC-V 指令集支持模块化扩展,允许开发者根据具体应用需求添加或定制特定的指令模块。 优势:模块化设计使得 RISC-V 可以灵活适应
    发表于 08-30 22:05

    RISC-V Summit China 2024 青稞RISC-V+接口PHY,赋能RISC-V高效落地

    第二届RISC-V中国峰会的南京会场;青稞RISC-V的单双线调试技术,在第届峰会上入选RISC-V新技术与新成果。
    的头像 发表于 08-30 18:18 ?2445次阅读
    <b class='flag-5'>RISC-V</b> Summit China 2024  青稞<b class='flag-5'>RISC-V</b>+接口PHY,赋能<b class='flag-5'>RISC-V</b>高效落地

    RISC-V Summit China 2024 | 青稞RISC-V+接口PHY,赋能RISC-V高效落地

    量产芯片的关键技术;公司筹备了第二届RISC-V中国峰会的南京会场;青稞RISC-V的单双线调试技术,在第届峰会上入选RISC-V新技术与新成果。 02 连接联网连世界 有核有根有
    发表于 08-30 17:37

    2024 RISC-V 中国峰会:abg欧博电子助力RISC-V生态!

    第四届RISC-V中国峰会(RISC-V Summit China 2024)于8月21日至23日在杭州盛大召开,成为RISC-V领域的一次重要盛会
    的头像 发表于 08-26 18:33 ?1679次阅读
    2024 <b class='flag-5'>RISC-V</b> 中国峰会:abg欧博电子助力<b class='flag-5'>RISC-V</b>生态!

    2024 RISC-V 中国峰会:abg欧博电子助力RISC-V生态!

    160+,生态技术文章8000+,策划了70多场RISC-V系列公开课,号召更多合作伙伴一起加入,参与RISC-V开发者生态共建。 不仅如此,电子发烧友联合RISC-V生态平台伙伴发起2024第
    发表于 08-26 16:46