参赛产品构想和讨论 - Bili-Sakura/AIGC-COMPETITION_VIVO GitHub Wiki

参赛产品构想和讨论

该竞赛面向全国高校在校学生，以vivo自研通用大模型矩阵为技术底座，助力AIGC应用创新和内容创作，携手青年开发者共同推动大模型前沿技术快速发展，实现AI普惠。初赛必须提交：作品策划文档，提交格式PPT或doc 初赛选择提交：作品宣传海报、demo效果、部分源代码等

BlueLM 是由 vivo AI 全球研究院自主研发的大规模预训练语言模型，本次发布包含 7B 基础 (base) 模型和 7B 对话 (chat) 模型，同时我们开源了支持 32K 的长文本基础 (base) 模型和对话 (chat) 模型。

更大量的优质数据：高质量语料库进行训练，规模达到了 2.6 万亿 的 token 数，该语料库包含中文、英文以及少量日韩数据；
更优的效果：其中 BlueLM-7B-Chat 在 C-Eval 和 CMMLU 上均取得领先结果，对比同尺寸开源模型中具有较强的竞争力；
长文本支持：BlueLM-7B-Base-32K 和 BlueLM-7B-Chat-32K 均支持 32K 长文本，在保持基础能力相当情况下，能够支持更长上下文理解；
协议说明：BlueLM 系列欢迎开发者进行学术研究和商业应用；

本次发布基座模型下载链接见：

	基座模型	对齐模型	量化模型
7B-2K	🤗 BlueLM-7B-Base	🤗 BlueLM-7B-Chat	🤗 BlueLM-7B-Chat-4bits
7B-32K	🤗 BlueLM-7B-Base-32K	🤗 BlueLM-7B-Chat-32K	🤗 BlueLM-7B-Chat-32K-AWQ / BlueLM-7B-Chat-32K-GPTQ

我们后续将开源 13B 模型和支持多模态的 7B-vl 模型，还请期待！

vivo AI原子能力矩阵，提供ASR、TTS、视觉技术、自然语言处理、LBS等能力，供参赛者自由组合，创新应用场景

分析BlueLM的训练语料，让产品和BlueLM的主要能力对齐，
在其基础上发展并深度融合vivo AI原子能力

BlueLM-7B/32B 模型能力无法支持Agent的Planning能力

不符合竞赛主办方初衷

选择的场景必须有现成的Benchmark用作模型能力测试，自建Benchmark不现实

基于网络爬虫技术以wiki为数据源的全领域对话机器人搭建工作流 关键词：网络爬虫，Wikipedia，Wiki Fandom，RAG，网页端，通用工作流

基于大语言模型的医学产品 关键词：生物医学图像处理，LLM