请输入图片URL地址:


王孝诚

Python / 数据挖掘 / 推荐算法

基本信息


  • 本科
  • 上海交通大学
  • 2021

联系方式


  • gakkijam@gmail.com
  • currybur.github.io
  • github.com/currybur

技能点


请输入图片URL地址:


教育经历


  • 上海交通大学 - 计算机科学与技术(本科)2017 - 2021

  • 上海交通大学 - 信息与通信工程(硕士)2021 -

项目经历


  • 基于大数据的智慧医疗

    ODX或者说21基因检测是一种通过分析相关基因来评估患者乳腺癌复发风险的方法,对于辅助医生决定治疗方案有很大作用,但是ODX检测费用昂贵难以推广。于是希望学习医生通过常规体检指标判断患者情况的经验过程,利用标准常规病理参数建立模型来预测患者的复发风险。我的工作包括:对多种体检指标的原始数据进行分析,选取高相关度的指标;验证了多种机器学习模型,并选出了表现较好的KNN;提出了根据距离投票的KNN以及加入投票阈值,提高了KNN的性能

  • 开源软件开发生态系统的数据挖掘

    以Github为主的开源社区有海量的如Push、PullRequest之类的开发行为事件,研究发现这些事件如果看作离散时间序列,往往会有一些规律性。于是我们通过Github提供的API获得了大量开发行为事件,以仓库或者是开发者为单位,分析其中的规律并建模拟合,从而在一定的时间粒度上可以较准确地预测未来的开发行为。我的工作包括:根据不同类型仓库的稳定性、周期性和季节性进行了分类;采用传统的季节性时序模型ARIMA以及深度神经网络模型分别拟合,在一些仓库上取得了较好的误差。

  • 卷积神经网络的类适应剪枝

    深度卷积神经网络结构中往往有大量冗余,希望根据具体使用场景中实际需要的目标类别对网络剪枝。首先使用Activation Maximization算法生成了CNN不同层次的卷积核的AM图,通过K-means对他们进行聚类;接着计算不同类别标签对各个卷积核的梯度,获得前期聚类好的卷积核的相应类别标签,从而获得对各个类别标签贡献最大的卷积核排名。最后可以根据应用场景去除不需要的类别标签对应的卷积核,减小CNN的规模,提高推理速度同时极小地损失准确率。

奖项与证书


  • 上海交大学业优秀奖学金

  • 上海交大“体总杯”排球比赛冠军

  • 普通话水平测试二级甲等

  • 曾于B站动态转发抽奖中获得一年大会员

自我评价


一个人的命运啊,当然要靠自我奋斗,但是也要考虑到历史的行程。