Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

OpenLeaderboard:毕枫林(黄温瑞、王婕、朱志伟、李鸿斌、洪贝贝、王瑞彬) #127

Open
will-ww opened this issue Oct 8, 2024 · 15 comments

Comments

@will-ww
Copy link
Contributor

will-ww commented Oct 8, 2024

No description provided.

@will-ww will-ww transferred this issue from X-lab2017/open-wonderland Oct 8, 2024
@bifenglin
Copy link
Contributor

毕枫林 邀请您参加腾讯会议
会议主题:OpenLeaderBoard启动会议
会议时间:2024/10/08 16:30-17:00 (GMT+08:00) 中国标准时间 - 北京

点击链接入会,或添加至会议列表:
https://meeting.tencent.com/dm/zwfnzqubuZ2m

#腾讯会议:967-122-380

会议事项:

  1. 确认大家时间和能力.
  2. open leader board 第一块大屏需求.
    3.前后端人员确认.截止日期时间确认.

@bifenglin
Copy link
Contributor

第一次会议记录:

  1. 大致介绍了项目基本情况和相关资源,可以参照语雀文档:https://xlab2017.yuque.com/me1x4f/pskm3z/esoqlmnkwe3r3t9z
  2. 确定项目新版方针,从用户角度对产品进行设计
  3. 确定三个主要任务:
    • 总需求:确定OpenLeader产品内容
    • 项目类型细分: 设定一个标签体系,针对标签体系对Github的实体进行标签工作
    • 不同类型的看板:从不同视角设定看板
  4. 讨论第一个MileStone:
    • 项目类型的细分
      - 项目语言
      - 地区
    • 不同类型的看板
      - 项目
      - 社区
      - 开发者
  5. 后续工作:10.15号确认人员名单,将分为项目类型的细分不同类型的看板两个组,相关人员请在Issue中回复自己感兴趣的内容。

@wj23027
Copy link
Contributor

wj23027 commented Oct 15, 2024

我认领开发者看板的部分~

@Zzzzzhuzhiwei
Copy link

我认领项目类型分类的部分~

@l1tok
Copy link
Contributor

l1tok commented Oct 15, 2024

我认领项目类型细分的部分~

@Kaleido66
Copy link
Contributor

我认领开发者看板的部分~

@handingna
Copy link

我认领项目类型细分的部分~

@bifenglin
Copy link
Contributor

第二次会议记录

会议内容

  1. 完成了人员划分,详细如下:
  • 开发者看板任务:wj、wrb、
  • 项目类型分类任务:zzw、lhb、hbb
  1. 确定初步阶段需求
    项目类型分类需求
  2. 样本选择:metrics Top XXXX
  3. 数据处理脚本如何实现
  4. 对应的云资源需求
    看板需求
  5. DataEase部署 - PoloarDB
  6. 指标看板初步设计 - 仿照之前(3个)
    a. 组织级别
    b. 项目级别
    c. 开发者级别

本周任务

Opendigger、OpenLeaderBoard基础开发培训 - wj、zzw、lhb
大屏DATAEASE培训资料 - bfl
部署流程 - bfl

@bifenglin
Copy link
Contributor

大屏DataEase培训资料:https://xlab2017.yuque.com/me1x4f/pskm3z/nfxe1i7utwrg8dg2

@bifenglin
Copy link
Contributor

第三次会议内容

会议内容

看板需求人员安排

  • 组织级别: hwr
  • 项目级别: wrb
  • 开发者级别: wj

时间规划

  • 第一周: 样式设计
  • 第二周: 看板设计
  • 第三周: OpenLeaderBoard联调任务

类型分类需求人员安排

人员安排:zzw、lhb、hbb
时间规划

  1. 第一周: 找到类别 - 项目样本选择
  2. 第二周: 自己类别进行标签
  3. 第三周: 互换进行标签
  4. 第四周: OpenLeaderBoard

需求

  • 标签数量级: 100-1000
  • 项目样本: 自己确认

本周任务

  • 类型分类需求:找到类别 - 项目样本选择
  • 看板需求:样式设计

@andyhuang18
Copy link
Collaborator

andyhuang18 commented Oct 29, 2024

组织级别的大屏样式设计,借鉴了木兰社区的大屏。

image

@bifenglin
Copy link
Contributor

第四次会议内容

会议内容

看板需求人员安排
组织级别: hwr
项目级别: wrb
开发者级别: wj

第一周-样式设计:对各个看板进行汇报

类型分类需求人员安排
人员安排:zzw、lhb、hbb
时间规划

第一周- 项目样本选择、项目类别

相关内容于本周五进行文档记录汇总:
https://xlab2017.yuque.com/me1x4f/pskm3z/ezgpd9lm5rkyg3sn

本周任务:
看板需求

  • 第二周: 看板数据收集上传,与大屏项目联动

类型分类

  • 第二周: 自己类别进行标签

@Zzzzzhuzhiwei
Copy link

根据昨天的会议内容,对大模型领域下的仓库涉及到的不同功能、优化方法、应用场景和支持工具进行分类,以便更清晰地展示每个仓库的特点。

大模型下的仓库细分

1. 基座模型

大语言模型

GPT 系列: 用于通用自然语言处理的基础模型
GPT-Neo: EleutherAI 开源的 GPT-3 类模型
LLaMA: Meta 的 LLaMA 基座模型
T5: Google 的 T5 模型

多模态模型

CLIP: OpenAI 的图文多模态模型
BLIP: Salesforce 的图像文本对齐模型
DALL-E: OpenAI 的文本生成图像模型

2. 微调与任务导向

指令微调与人类反馈优化

Alpaca: 基于 LLaMA 的指令微调模型
Dolly: Databricks 的指令微调模型
LoRA: 轻量级自适应微调方法
trlX: 通过人类反馈的强化学习 (RLHF) 框架
Prompt Tuning: 小样本数据下的微调方案

对话式模型

OpenChatKit: 开源的对话工具包
ChatGLM: 中文对话模型 ChatGLM 系列
Vicuna: 基于 LLaMA 微调的对话模型

3. 模型优化与压缩

模型量化与高效推理

AutoGPTQ: 通用的量化方案
QLoRA: 结合量化的轻量级优化方案

剪枝

SparseGPT: 稀疏化技术 SparseGPT

分布式训练与高效框架

DeepSpeed: Microsoft 的高效分布式训练框架
Fairscale: 提供分布式训练和优化
Parallelformers: 大模型的推理加速框架

4. 应用开发框架

应用构建和工作流

LangChain: 用于大模型应用开发的框架
LlamaIndex (原 GPT Index): 构建知识库和信息检索系统的工具

向量数据库和检索系统

FAISS: 向量检索库
Weaviate: 开源向量数据库系统
Milvus: 向量数据库与检索系统

模型评估与监控

Weights & Biases: 模型监控和评估工具
OpenAI Evals: 大模型的评估框架

@andyhuang18
Copy link
Collaborator

andyhuang18 commented Nov 7, 2024

我发起了一个新的 PR ,目的是使得对于所有的目标选项:企业、项目、开发者,都有对应的洞察大屏入口。数据匹配方面,我负责的企业部分已经完成了标题对应项目总数star总数fork总数mergedPR总数issue总数贡献者总数的数据拉取、预处理、上传对应clickhouse容器。在测试部分,点击对应的企业栏目下的大屏可以看到对应的数据。为了容灾考虑,我会将已有的数据集备份至 语雀 中。

@bifenglin
Copy link
Contributor

第五次会议内容

会议内容

看板需求

组织级别: hwr
项目级别: wrb
开发者级别: wj

整体完成了设计,并且已经进行了一半指标数据制作绑定流程

类型分类需求人员

大模型应用:zzw
语言分类:lhb
项目目的分类:hbb

都已经完成了初步的标签工作

下周安排

看板需求完成指标制作绑定流程
zzw和hbb标签工作互相抽样验证。lhb设计open digger的各个标签部署到open leaderboard技术方案

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

8 participants