Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[WeeklyReports] 2024.04.06~2024.04.19 周报汇总 #223

Closed
30 tasks done
AndSonder opened this issue Apr 17, 2024 · 29 comments
Closed
30 tasks done

[WeeklyReports] 2024.04.06~2024.04.19 周报汇总 #223

AndSonder opened this issue Apr 17, 2024 · 29 comments

Comments

@AndSonder
Copy link
Collaborator

AndSonder commented Apr 17, 2024

姓名

xxx

本周工作

  1. xxx
  2. xxx

下周工作

  1. xxx
  2. xxx

详细周报链接:

项目一:PIR 算子补全与兼容机制建设

项目二:PIR 控制流专项

项目三:PIR Python API 升级及机制建设

项目四:动转静 SOT 模块 Python 3.12 支持

项目五:算子支持复数计算专项

项目六:模型迁移工具建设

项目七:框架 API 易用性提升

项目八:组合机制算子专项和机制建设

项目九:高阶微分的性能分析和优化

项目十:静态图半自动并行训练性能优化

项目十一:全自动并行架构升级

项目十二:科学计算领域拓展专项(DeePMD-kit、光学案例)

项目十三:科学计算领域拓展专项(超分重构方向)

项目十四:科学计算领域拓展专项(领域流体方向)

项目十五:科学计算领域拓展专项(领域气象方向)

项目十六:CINN 支持动态 Shape 专项(前端方向)

项目十八:CINN 静态 shape 下鲁棒性和性能优化

项目十九:CINN 支持动态 Shape 专项(后端规则升级)

项目二十:CINN 支持动态 Shape 专项 (后端模型扩量)

项目二十一:Paddle CMake 治理和编译优化

项目二十二:PaddleMIX 套件能力建设(文图方向)

项目二十三:PaddleMIX 套件能力建设(图文方向)

项目二十四:大模型训练稳定性和高效低价小模型快速收敛

项目二十六:推理 Pass & 融合算子优化

  • @yinfan98 (@yuanlehome)

项目二十七:PaddleSpeech 套件能力建设

  • @kk-2000 (@zxcdlucy)
  • @mattheliu (@zxcdlucy)
@AndSonder AndSonder changed the title [WeeklyReports] 2024.04.06~2024.04.19 周报汇总 [WeeklyReports] 2024.04.06~2024.04.17 周报汇总 Apr 17, 2024
@AndSonder AndSonder changed the title [WeeklyReports] 2024.04.06~2024.04.17 周报汇总 [WeeklyReports] 2024.04.06~2024.04.19 周报汇总 Apr 17, 2024
@unseenme
Copy link
Contributor

姓名

Github ID: unseenme

本周工作

  1. 离线测试流程代码开发与测试

下周工作

  1. 开发新的生成器。

  2. 继续离线测试。

详细周报链接:

@DUCH714
Copy link
Contributor

DUCH714 commented Apr 18, 2024

姓名

Github ID: DUCH714

本周工作

汽车风阻预测项目

阅读 DrivAerNet

阅读 Transolver

探索讨论将DrivAerNet和Transolver应用到GINO上的可能性

下周工作

汽车风阻预测项目

尝试GINO降维以及提高GINO精度

详细周报链接:

@lshpku
Copy link
Contributor

lshpku commented Apr 19, 2024

姓名

梁书豪

本周工作

  1. 修复CINN前端在reduce的axis为None时的错误 PR:[CINN] Removed 0d-to-1d pass PaddlePaddle/Paddle#62612
  2. 研究CINN后端TileFirstGeneralTactic在处理reduce算子时访存不连续的问题

下周工作

  1. TileFirstGeneralTactic中实现global memory coalescing策略

详细周报链接:

@NKNaN
Copy link
Contributor

NKNaN commented Apr 19, 2024

姓名

Github ID: NKNaN

本周工作

  1. 针对 paddle.argsort 和 paddle.sort 的功能增强
  2. 分析修改 kaiming initializers 后,所有仓库存量代码中的可能出现的不兼容问题

下周工作

  1. 验证 paddle.distribution.Categorical 中 sample、entropy、log_prob 的底层计算逻辑是否和 PyTorch 一致
  2. 计划修改 paddle.nn.initializer.TruncatedNormal:增加参数 a, b
  3. 计划修改 paddle.nn.Layer 中的 named_sublayers:增加参数 memo

详细周报链接:

@zhaojiameng
Copy link
Contributor

姓名

赵加孟

本周工作

  1. paddlescience代码转换
  2. 前向精度对齐

下周工作

  1. 后向精度对齐
  2. 训练代码debug

详细周报链接:

@gouzil
Copy link
Contributor

gouzil commented Apr 19, 2024

姓名

田川

本周工作

  1. PIR 动转静理想态单测推全验证任务(二期)
  2. PIR 0 维单测适配结项

下周工作

  1. PIR 动转静理想态单测推全验证任务(二期)

详细周报链接:

@zeroRains
Copy link
Contributor

姓名

卢林军

本周工作

  1. 新增reduce_as op并修复其BUG
  1. 解决test_sub_graph_78中,开启with_prim=True会导致单测报错的BUG
  1. 补充组合机制开发文档中的动态图支持部分

下周工作

  1. 尝试对reduce_as完成complex64/128int8的支持
  2. 补充reduce_as的中文文档
  3. 完善之前尚未merge的PR

详细周报链接:

@AndSonder
Copy link
Collaborator Author

姓名

卢畅

实习项目

静态图半自动并行训练性能优化

本周工作

本周工作主要是编写 ZBV 编排所需要用到的显存估计功能

1. 显存估计工具编写

在 Llama2 模型上与实际跑模型时候的显存进行对比,目前发现和实际显存还有一定的差距,需要进一步定位问题。

相关 PR:

2. 定位 Forward 阶段显存逐步增加的原因

3. 排查 Backward 阶段的显存增长问题

4. 排查 Backward 阶段峰值显存估计差距的原因

目前 1F1B 场景下显存估计和实际显存基本一致,但是 Backward 阶段的峰值显存估计和实际峰值显存还是有一定的差距。这个问题还在排查中。估计 backward program 的峰值显存与实际运行时候的峰值显存差了 10% 左右。

下周工作

进一步排查 Backward 阶段峰值显存估计差距的原因,尽快解决这个问题。在显存估计功能完成后,开始着手编写 ZBV 的编排功能。

详细周报链接:

@ZelinMa557
Copy link
Contributor

姓名

马欣楷

本周工作

  1. 修复paddle.mean接口cinn编译失败的部分case
  2. 进行paddle.mean cinn性能测试,发现性能问题和一些bug

下周工作

  1. 分析和解决paddle.mean接口的各种问题

详细周报链接:

@huangjiyi
Copy link
Contributor

姓名

黄济懿

本周工作

本周请假

下周工作

待安排

@silverling
Copy link
Contributor

姓名

凌少鹏

本周工作

下周工作

  • 完善模块抽离工作

详细周报链接:

@yulangz
Copy link
Contributor

yulangz commented Apr 19, 2024

姓名

Github ID: yulangz

实习项目

CINN子图鲁棒性和性能优化

本周工作

  1. CINN 故障修复

    1. 添加 ExpandAsOpInferSymbolicShape,同时修复遇到的 add_broadcast_to_elementwise_pass 中的问题,PR:support ExpandAsOpInferSymbolicShape PaddlePaddle/Paddle#63576
    2. 添加 Clip、CrossEntropyWithSoftmax InferSymbolicShape,修复遇到的 reduce op 问题,修复遇到的 dynamic fusion 问题,PR:[PIR+CINN]Support some OpInferSymbolicShape PaddlePaddle/Paddle#63713

下周工作

  1. 继续依据子图 CE,修复 CINN 的实现。

详细周报链接:

#236

@Yang-Changhui
Copy link
Contributor

姓名

杨昌辉

本周工作

  1. 基本完成对earthfromer的复现工作
  2. 复现了neuraloperator中的tfno和uno网络

下周工作

  1. 完善earthformer的技术文档
  2. 对sfno网络进行训练,以及精度对齐

PR:

详细周报链接:

@xingmingyyj
Copy link
Contributor

姓名

xingmingyyj

实习项目

PIR 算子补全与兼容机制建设

本周工作

  1. 分析mean API动转静执行的问题
  2. 分析fake_quantize_range_abs_max执行时OutScale的holder_为null问题
  3. review分布式算子注册issue相关PR

下周工作

  1. 推进分布式算子注册issue的合入,完成该issue中的内容
  2. review算子单测任务相关PR

详细周报链接

@Tsaiyue
Copy link
Contributor

Tsaiyue commented Apr 20, 2024

姓名

蔡越

本周工作

  1. 优化AnimateAnyone训练权重保存逻辑以及混合精度控制机制;

  2. 同步更新AI studio项目,并解决paddle升级带来的算子行为改变问题

下周工作

  1. 推进AnimateAnyone训练支持相关PR合入;
  2. 调研结合transformer和diffusion model的视频生成相关开源模型;

详细周报链接

@xusuyong
Copy link
Contributor

姓名

徐苏勇

本周工作

  1. 使用katex写公式,在本地渲染自测
  2. 补充导出推理代码和文档内的执行脚本和结果展示
  3. plot提取变成一个函数,给train、evaluate、inference使用

下周工作

  1. 实验casual loss

详细周报链接:

@YibinLiu666
Copy link
Contributor

姓名

YibinLiu666

实习项目

高阶微分的性能分析和优化

本周工作

  1. 分析现有科学计算中性能相比 pytorch 较差的三个模型,发现瓶颈在于矩阵乘法的二阶微分组合实现,但是由于没有发现额外的计算,暂时没有做相关的优化
  2. 实现sigmoid的二阶微分组合算子 add sigmoid_double_grad composite func PaddlePaddle/Paddle#63669
  3. 鉴于prod_grad在输入有0的时候梯度会出现nan的情况,参考TensorFlow的实现,评估prod_grad组合实现使用双向cumprod实现的可行性,目前的结论是可行性不高。

下周工作

  1. 参考torch的prod_grad组合实现,解决prod_grad在输入有0的时候梯度会出现nan的情况。

详细周报链接

#241

@lishuai-97
Copy link
Contributor

姓名

李帅

Github ID: lishuai-97

本周工作

  1. Megatron-LLaMA训练框架的DP、MP、PP以及Distributed Optimizer相关代码的学习;
  2. 基于Megatron-LLaMA、Open-CLIP框架的各种竞品策略及其优化器的复现以及相关数据集的支持;
  3. 完成了XXX梯度裁剪算法在开源模型上的部分实验;
  4. 梯度/更新裁剪相关文献的阅读学习。

下周工作

  1. 继续完善并补全开源模型实验,对比不同任务效果;
  2. 继续阅读梯度/更新裁剪、大模型稳定性训练相关论文;
  3. 构建论文框架,撰写论文。

详细周报链接:

(上次周报跟这次周报在同一个PR)

@zbt78
Copy link
Contributor

zbt78 commented Apr 21, 2024

姓名

周波涛

实习项目

算子支持复数计算专项

本周工作

  1. 继续完善pow算子,在本地把factor设置为Scalar没啥问题,在跑ci时出现很多问题,实现上在ci上还有一些问题
  2. 提交PR:add complex support for rsqrt
    【complex op No.8】add complex support for Rsqrt PaddlePaddle/Paddle#63720
  3. 提交PR:add complex support for tanhshrink
    【complex op No.13】add complex support for tanhshrink PaddlePaddle/Paddle#63722

下周工作

  1. 继续修改pow实现上的问题
  2. 开展新的算子

详细周报链接:

@WintersMontagne10335
Copy link
Contributor

WintersMontagne10335 commented Apr 21, 2024

姓名

马贺达

本周工作

  1. 收尾 pd_op.nonzero
    (相关PR:Add InferSymbolicShape for pd_op.nonzero PaddlePaddle/Paddle#62987
  2. 补全 pd_op.bce_loss, pd_op.sigmoid_cross_entropy_with_logits 的 check 和单测
    (相关PR:Symbolic shape inference support for pd_op.bce_loss, pd_op.sigmoid_cross_entropy_with_logits PaddlePaddle/Paddle#63277
  3. 阅读 HorizontalLoopFusion 的静态实现,并撰写阅读笔记
    (相关链接:https://github.com/WintersMontagne10335/Paddle-Code-Camp/blob/master/code%20reading/HorizontalLoopFusion.md)

下周工作

  1. 收尾 pd_op.bce_loss, pd_op.sigmoid_cross_entropy_with_logits, pd_op.distribute_fpn_proposals
  2. 修复计算结果错误相关的 bug

详细周报链接:

@cocoshe
Copy link
Contributor

cocoshe commented Apr 21, 2024

姓名

叶柯

实习项目

PaddleMIX 套件能力建设(图文方向)

本周工作

本周主要工作如下:

将 internlm-xcomposer2 集成到 PaddleMIX 中,解耦原组网中的 tokenize 部分和 embed 部分,将 tokenize 部分封装成 collator 和 processor,支持 auto 导入。

上报一个Paddle的Dataloader相关的BUG(待确认)

下周工作

  1. 推进完成的几个PR合入
  2. 进行其他任务

详细周报链接:

@Corle-hyz
Copy link
Contributor

姓名

何咏哲

本周工作

  1. 了解Recompute,阅读论文,学习Paddle的Recompute实现

下周工作

  1. 在现有的同构的全自动并行方案的基础上,通过自定义一些经验规则、借助显存公式进行负载均衡、动态调整与策略剪枝,构建一个异构体系下的全自动并行方案。

详细周报链接:

@kk-2000
Copy link
Contributor

kk-2000 commented Apr 23, 2024

姓名

张千芊

本周工作

  1. 整理PaddleSpeech近一年issue
  2. 安装PaddleSpeech测试环境

下周工作

  1. 继续完成PaddleSpeech测试,对demos中的推理任务和examples中的训练任务进行测试

详细周报链接:

@CJ77Qi
Copy link
Contributor

CJ77Qi commented Apr 25, 2024

姓名

陈景琦

本周工作

  1. 安装和配置Paddle CINN的开发环境,build代码

  2. 熟悉Paddle CINN部分的codebase,了解CINN整个项目结构和各部分代码

  3. 跑test_cinn_reduce_symbolic_demo单测,熟悉后续开发流程

下周工作

  1. 初步实现reduce维度是动态shape的后续开发任务
  2. 根据需求动态调整,进一步优化性能

详细周报链接:

#224

@yinfan98
Copy link
Collaborator

姓名

尹帆

本周工作

  1. weight only int4 quant kernel
  2. weight only int4 重排 kernel

下周工作

  1. kernel精度对齐

详细周报链接:

@mattheliu
Copy link
Contributor

mattheliu commented Apr 28, 2024

姓名

刘卓鑫

实习项目

PaddleSpeech 套件能力建设

本周工作

  1. 配置PaddlePaddle和PaddleSpeech开发环境
  • 编译运行PaddlePaddle Develop和PaddleSpeech Develop开发环境

下周工作

  1. 跑PaddleSpeech/Demos

详细周报指南

@Eddie-Wang1120
Copy link
Contributor

姓名

王晋恒

本周工作

  1. 配置Paddle/CINN开发环境
  2. 熟悉Paddle Prim Pir代码结构以及运行流程
  3. 进行算子拆解工作

下周工作

  1. 继续进行算子拆解工作
  2. 学习动态shape相关知识

详细周报链接:

@zyt1024
Copy link
Contributor

zyt1024 commented Apr 28, 2024

姓名

张玉涛

实习项目

算子支持复数计算专项

本周工作

  1. 继续完善fill_constant_op算子,当支持Scalar后,跑CI时会出现较多问题,且涉及面较广,已按照分类整理好了问题。【Complex op】add complex support for fill_constant PaddlePaddle/Paddle#59920
  2. 提交PR:【complex op】add complex support for channel_shuffle and shuffle_batch PaddlePaddle/Paddle#61261

下周工作

  1. 继续修复fill_constant_op实现上的问题
  2. 尝试fill_any_like算子

详细周报链接:

@zrr1999
Copy link
Contributor

zrr1999 commented Apr 30, 2024

姓名

詹荣瑞

实习项目

PIR Python API 升级及机制建设

本周工作

  1. 推进 PIR Python API适配升级(第三期)

    相关 PR:

    相关 ISSUE:

下周工作

  1. 继续推进 PIR test_errors 相关单测适配和 PIR Python API适配升级(第三期)。

    相关 PR:

  2. 完成 PaddleSOT 的动态 shape 支持

    相关 PR:

详细周报链接

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests