報(bào) 告 人:張丹,清華大學(xué)
報(bào)告時(shí)間:2024年12月7日(周六)9:30-11:30
報(bào)告地點(diǎn):中國(guó)農(nóng)業(yè)大學(xué)東區(qū) 信息與電氣工程學(xué)院237會(huì)議室
聯(lián) 系 人:馬老師 13391809180
郵 箱:sockline@163.com
報(bào)告人簡(jiǎn)介:
張丹,清華大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系四年級(jí)博士生,由國(guó)家杰出青年基金項(xiàng)目獲得者唐杰教授指導(dǎo)。2023年,在California Institute of Technology(簡(jiǎn)稱Caltech,美國(guó)加州理工學(xué)院)進(jìn)行學(xué)生訪問,合作導(dǎo)師為Prof. Yisong Yue。于2021年獲得清華大學(xué)軟件學(xué)院碩士學(xué)位。主要進(jìn)行大模型推理的相關(guān)研究,致力于開發(fā)能夠有效處理復(fù)雜科學(xué)推理場(chǎng)景的可靠生成式人工智能模型。
報(bào)告摘要:
大型語言模型 (LLM) 用于構(gòu)建各種復(fù)雜的任務(wù),但目前尚難以解決需要規(guī)劃和自我改進(jìn)的復(fù)雜科學(xué)任務(wù)。在本次報(bào)告中,主要討論通過采用指令調(diào)整和自我訓(xùn)練技術(shù)來實(shí)現(xiàn)有效推理,從而賦能 LLM 的研究。首先介紹最新研究工作-科學(xué)大語言模型SciGLM,重點(diǎn)介紹其在解決復(fù)雜的科學(xué)和數(shù)學(xué)推理問題方面的能力。然后,將介紹ReST-MCTS*工作,一種自我強(qiáng)化的訓(xùn)練方法,該方法基于將過程獎(jiǎng)勵(lì)指導(dǎo)與樹搜索MCTS*相結(jié)合,用于收集更高質(zhì)量的推理軌跡以及每步值來訓(xùn)練策略和獎(jiǎng)勵(lì)模型。最后,將總結(jié)研究中遇到的挑戰(zhàn),并規(guī)劃出未來的潛在方向。