工程師
互聯(lián)網(wǎng)
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

多模態(tài)技術(shù)深度培訓(xùn):理論與實(shí)踐的融合

HiroTan

某公司 多模態(tài)大模型負(fù)責(zé)人

老師是國(guó)內(nèi)一線的人工智能和大模型算法專(zhuān)家。某公司,多模態(tài)大模型負(fù)責(zé)人,多年行業(yè)算法工作經(jīng)驗(yàn),專(zhuān)注于機(jī)器學(xué)習(xí)與大模型落地實(shí)踐;對(duì)于國(guó)產(chǎn)芯片的大模型落地有豐富的實(shí)踐經(jīng)驗(yàn),實(shí)戰(zhàn)經(jīng)驗(yàn)覆蓋C端產(chǎn)品、B端產(chǎn)品、與硬件大模型落地方案。在技術(shù)層面,老師尤為擅長(zhǎng)圍繞人工智能領(lǐng)域的全線技術(shù),研究方向包括多模態(tài)大模型,端側(cè)邊緣計(jì)算等。
曾任百度集團(tuán)(大數(shù)據(jù)部)算法專(zhuān)家;

老師是國(guó)內(nèi)一線的人工智能和大模型算法專(zhuān)家。某公司,多模態(tài)大模型負(fù)責(zé)人,多年行業(yè)算法工作經(jīng)驗(yàn),專(zhuān)注于機(jī)器學(xué)習(xí)與大模型落地實(shí)踐;對(duì)于國(guó)產(chǎn)芯片的大模型落地有豐富的實(shí)踐經(jīng)驗(yàn),實(shí)戰(zhàn)經(jīng)驗(yàn)覆蓋C端產(chǎn)品、B端產(chǎn)品、與硬件大模型落地方案。在技術(shù)層面,老師尤為擅長(zhǎng)圍繞人工智能領(lǐng)域的全線技術(shù),研究方向包括多模態(tài)大模型,端側(cè)邊緣計(jì)算等。 曾任百度集團(tuán)(大數(shù)據(jù)部)算法專(zhuān)家;

課程費(fèi)用

6800.00 /人

課程時(shí)長(zhǎng)

2

成為教練

課程簡(jiǎn)介

第一天重點(diǎn)介紹多模態(tài)技術(shù)的背景、應(yīng)用場(chǎng)景、技術(shù)原理以及在內(nèi)容型公司的應(yīng)用實(shí)踐。內(nèi)容包括生成式AI、基礎(chǔ)大模型技術(shù)、圖片和視頻生產(chǎn)技術(shù)、ASR技術(shù)、虛擬人技術(shù)等。第二天則深入探討多技術(shù)原理,多模態(tài)在影視漫游類(lèi)的應(yīng)用,以及高質(zhì)量視頻生產(chǎn)的多模態(tài)工具使用。課程旨在通過(guò)理論與實(shí)踐相結(jié)合的方式,幫助學(xué)員全面理解并掌握多模態(tài)技術(shù)。

目標(biāo)收益

1,掌握多模態(tài)大模型的基本原理和技術(shù)框架,理解多模態(tài)數(shù)據(jù)處理的核心技術(shù)和方法。
2,深入了解多模態(tài)大模型在文字、音頻、影視等多個(gè)內(nèi)容賽道的應(yīng)用場(chǎng)景和市場(chǎng)需求,為實(shí)際應(yīng)用提供有力支持。
3,學(xué)會(huì)運(yùn)用多模態(tài)大模型進(jìn)行內(nèi)容理解、內(nèi)容生成等關(guān)鍵技術(shù)操作,提升在相關(guān)領(lǐng)域的工作效率和創(chuàng)新能力。

培訓(xùn)對(duì)象

課程大綱

模塊一:多模態(tài)基礎(chǔ)(第一天)
理論向(上午):多模態(tài)技術(shù)背景與應(yīng)用介紹
1.熱身暖場(chǎng):自我介紹&引子(Sora/LumaAI/多模態(tài)效果展示)
2.生成式AI與多模態(tài)技術(shù)背景:探討生成模型類(lèi)型、工作原理及應(yīng)用場(chǎng)景,包括文本、圖像、視頻生成等。
a.基礎(chǔ)大模型技術(shù)(性能、價(jià)格、速度)
b.圖片可控生產(chǎn)技術(shù)(填充、涂抹、增強(qiáng))
c.Sora類(lèi)視頻化技術(shù)(運(yùn)動(dòng)、實(shí)體一致性、3D化)
d.ASR、有聲、音樂(lè)技術(shù)(情感、旋律、音質(zhì))
e.虛擬人、具身智能與基礎(chǔ)算力服務(wù)
3.多模態(tài)業(yè)界前沿產(chǎn)品介紹。
a.多模態(tài)應(yīng)用行業(yè)地圖(工具向 & 娛樂(lè)向)
b.基礎(chǔ)類(lèi)視覺(jué)圖片應(yīng)用(美圖、稿定、MJ等)
c.基礎(chǔ)類(lèi)視頻應(yīng)用(Runway、Pika、Pixelverse & 快手可靈、LumaAI)
d.辦公泛工具類(lèi)(AI-PPT、效率、創(chuàng)意)
e.垂直場(chǎng)景類(lèi)2B應(yīng)用(客服、營(yíng)銷(xiāo)、培訓(xùn)等)
f.情感陪伴類(lèi)C端應(yīng)用(星野、talkie、筑夢(mèng)島等)
4.互動(dòng):自由問(wèn)答
實(shí)踐向(下午):多模態(tài)在內(nèi)容型公司的應(yīng)用路徑 1.多模態(tài)應(yīng)用開(kāi)發(fā)實(shí)踐范式(整體開(kāi)發(fā)流程介紹)
2.落地技術(shù)選型(提示詞工程、開(kāi)源模型微調(diào)與私有化部署)
3.開(kāi)發(fā)資源與團(tuán)隊(duì)構(gòu)成(人員配置、開(kāi)發(fā)工具、創(chuàng)作者生態(tài))
4.當(dāng)前內(nèi)部應(yīng)用示例(垂類(lèi)模型、可控生圖、規(guī)模化成本)
5.圖像實(shí)踐展開(kāi):
a.文生圖:Lora概念與常用推薦、提示詞書(shū)寫(xiě)規(guī)則 等;
b.圖生圖:關(guān)鍵詞反推、局部重繪、畫(huà)風(fēng)轉(zhuǎn)化 等;
c.ControlNet:插件原理、字體設(shè)計(jì)、AI模特服裝 等;
6.SD-WebUI與ComfyUI實(shí)踐展示
模塊二:多模態(tài)生產(chǎn)環(huán)境落地(第二天)
理論(上午):多技術(shù)原理概覽
1.世界模型的起源?
a.AI視頻模型技術(shù)演進(jìn)(VDM/MAV/AnimateDiff/SVD/DIT/Sora)
b.大模型發(fā)展:多模態(tài)輸入、多模態(tài)輸出
2.生產(chǎn)環(huán)境下多模態(tài)落地
a.圖片:IP衍生品/社區(qū)配圖/多格漫
b.有聲:多播、音樂(lè)、情感、模仿
c.虛擬人:數(shù)字分身、互動(dòng)唱歌、直播
3.成本與收益(GPU選型、推理加速框架、極限成本、市場(chǎng)價(jià)格)
4.互動(dòng):自由問(wèn)答
實(shí)踐(下午):多模態(tài)在影視漫游類(lèi)的應(yīng)用 1.拆解高質(zhì)量“AI我中華”視頻生產(chǎn)用到了哪些多模態(tài)工具
a.創(chuàng)意文案部分:劇本與創(chuàng)意模板提示詞;
b.圖片部分:可控重繪、高質(zhì)超分、插幀渲染 等;
c.視頻部分:SVD、Dreamina、Runway等;
d.音樂(lè)部分:Suno、韻律模型、聲音克隆 等;
e.整體合成:市場(chǎng)成本、實(shí)際成本;
2.實(shí)踐Dify/Coze 類(lèi)Agent平臺(tái):
a.簡(jiǎn)介:Workflow工作流與調(diào)試 介紹;
b.驗(yàn)證:打造帶Function Call能力的Agent(創(chuàng)建Bot與使用插件);
c.多模態(tài):Coze 圖像流 操作手冊(cè);
d.場(chǎng)景實(shí)踐(知識(shí)庫(kù)問(wèn)答、毛胚房裝修、電商廣告圖像流 等);
3.互動(dòng):
a.自由問(wèn)答
分組練習(xí):結(jié)合自己工作的業(yè)務(wù)特點(diǎn)進(jìn)行智能體建模。
模塊一:多模態(tài)基礎(chǔ)(第一天)
理論向(上午):多模態(tài)技術(shù)背景與應(yīng)用介紹
1.熱身暖場(chǎng):自我介紹&引子(Sora/LumaAI/多模態(tài)效果展示)
2.生成式AI與多模態(tài)技術(shù)背景:探討生成模型類(lèi)型、工作原理及應(yīng)用場(chǎng)景,包括文本、圖像、視頻生成等。
a.基礎(chǔ)大模型技術(shù)(性能、價(jià)格、速度)
b.圖片可控生產(chǎn)技術(shù)(填充、涂抹、增強(qiáng))
c.Sora類(lèi)視頻化技術(shù)(運(yùn)動(dòng)、實(shí)體一致性、3D化)
d.ASR、有聲、音樂(lè)技術(shù)(情感、旋律、音質(zhì))
e.虛擬人、具身智能與基礎(chǔ)算力服務(wù)
3.多模態(tài)業(yè)界前沿產(chǎn)品介紹。
a.多模態(tài)應(yīng)用行業(yè)地圖(工具向 & 娛樂(lè)向)
b.基礎(chǔ)類(lèi)視覺(jué)圖片應(yīng)用(美圖、稿定、MJ等)
c.基礎(chǔ)類(lèi)視頻應(yīng)用(Runway、Pika、Pixelverse & 快手可靈、LumaAI)
d.辦公泛工具類(lèi)(AI-PPT、效率、創(chuàng)意)
e.垂直場(chǎng)景類(lèi)2B應(yīng)用(客服、營(yíng)銷(xiāo)、培訓(xùn)等)
f.情感陪伴類(lèi)C端應(yīng)用(星野、talkie、筑夢(mèng)島等)
4.互動(dòng):自由問(wèn)答
實(shí)踐向(下午):多模態(tài)在內(nèi)容型公司的應(yīng)用路徑
1.多模態(tài)應(yīng)用開(kāi)發(fā)實(shí)踐范式(整體開(kāi)發(fā)流程介紹)
2.落地技術(shù)選型(提示詞工程、開(kāi)源模型微調(diào)與私有化部署)
3.開(kāi)發(fā)資源與團(tuán)隊(duì)構(gòu)成(人員配置、開(kāi)發(fā)工具、創(chuàng)作者生態(tài))
4.當(dāng)前內(nèi)部應(yīng)用示例(垂類(lèi)模型、可控生圖、規(guī)?;杀荆?br/>5.圖像實(shí)踐展開(kāi):
a.文生圖:Lora概念與常用推薦、提示詞書(shū)寫(xiě)規(guī)則 等;
b.圖生圖:關(guān)鍵詞反推、局部重繪、畫(huà)風(fēng)轉(zhuǎn)化 等;
c.ControlNet:插件原理、字體設(shè)計(jì)、AI模特服裝 等;
6.SD-WebUI與ComfyUI實(shí)踐展示
模塊二:多模態(tài)生產(chǎn)環(huán)境落地(第二天)
理論(上午):多技術(shù)原理概覽
1.世界模型的起源?
a.AI視頻模型技術(shù)演進(jìn)(VDM/MAV/AnimateDiff/SVD/DIT/Sora)
b.大模型發(fā)展:多模態(tài)輸入、多模態(tài)輸出
2.生產(chǎn)環(huán)境下多模態(tài)落地
a.圖片:IP衍生品/社區(qū)配圖/多格漫
b.有聲:多播、音樂(lè)、情感、模仿
c.虛擬人:數(shù)字分身、互動(dòng)唱歌、直播
3.成本與收益(GPU選型、推理加速框架、極限成本、市場(chǎng)價(jià)格)
4.互動(dòng):自由問(wèn)答
實(shí)踐(下午):多模態(tài)在影視漫游類(lèi)的應(yīng)用
1.拆解高質(zhì)量“AI我中華”視頻生產(chǎn)用到了哪些多模態(tài)工具
a.創(chuàng)意文案部分:劇本與創(chuàng)意模板提示詞;
b.圖片部分:可控重繪、高質(zhì)超分、插幀渲染 等;
c.視頻部分:SVD、Dreamina、Runway等;
d.音樂(lè)部分:Suno、韻律模型、聲音克隆 等;
e.整體合成:市場(chǎng)成本、實(shí)際成本;
2.實(shí)踐Dify/Coze 類(lèi)Agent平臺(tái):
a.簡(jiǎn)介:Workflow工作流與調(diào)試 介紹;
b.驗(yàn)證:打造帶Function Call能力的Agent(創(chuàng)建Bot與使用插件);
c.多模態(tài):Coze 圖像流 操作手冊(cè);
d.場(chǎng)景實(shí)踐(知識(shí)庫(kù)問(wèn)答、毛胚房裝修、電商廣告圖像流 等);
3.互動(dòng):
a.自由問(wèn)答
分組練習(xí):結(jié)合自己工作的業(yè)務(wù)特點(diǎn)進(jìn)行智能體建模。

課程費(fèi)用

6800.00 /人

課程時(shí)長(zhǎng)

2

預(yù)約體驗(yàn)票 我要分享

近期公開(kāi)課推薦

近期公開(kāi)課推薦

活動(dòng)詳情

提交需求