https://github.com/Deep-Learning-101/Computer-Vision-Paper
https://huggingface.co/DeepLearning101
https://deep-learning-101.github.io/
手把手帶你一起踩 AI 坑
手把手帶你一起踩 AI 坑:https://www.twman.org/AI
- 避開 AI Agent 開發陷阱:常見問題、挑戰與解決方案:探討多種 AI 代理人工具的應用經驗與挑戰,分享實用經驗與工具推薦。
- 白話文手把手帶你科普 GenAI:淺顯介紹生成式人工智慧核心概念,強調硬體資源和數據的重要性。
- 大型語言模型直接就打完收工?:回顧 LLM 領域探索歷程,討論硬體升級對 AI 開發的重要性。
- 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧:探討 RAG 技術應用與挑戰,提供實用經驗分享和工具建議。
- 大型語言模型 (LLM) 入門完整指南:原理、應用與未來:探討多種 LLM 工具的應用與挑戰,強調硬體資源的重要性。
- 什麼是大語言模型,它是什麼?想要嗎?(Large Language Model,LLM):探討 LLM 的發展與應用,強調硬體資源在開發中的關鍵作用。
- Diffusion Model 完全解析:從原理、應用到實作 (AI 圖像生成);深入探討影像生成與分割技術的應用,強調硬體資源的重要性。
- ASR/TTS 開發避坑指南:語音辨識與合成的常見挑戰與對策:探討 ASR 和 TTS 技術應用中的問題,強調數據質量的重要性。
- 那些 NLP 踩的坑:分享 NLP 領域的實踐經驗,強調數據質量對模型效果的影響。
- 那些語音處理踩的坑:分享語音處理領域的實務經驗,強調資料品質對模型效果的影響。
- 手把手學深度學習安裝環境:詳細介紹在 Ubuntu 上安裝深度學習環境的步驟,分享實際操作經驗。
CV
電腦視覺 (Computer Vision)
Segmentation (圖像分割)
- MatAnyone:視訊摳圖MatAnyone來了,一次指定全程追踪,髮絲級還原
- Meta Segment Anything Model 2 (SAM 2)
- SAMURAI
- Grounded SAM 2: Ground and Track Anything in Videos
- SAM2Long:大幅提升SAM 2性能!港中文提出SAM2Long,複雜長視頻的分割模型
- SAM2-Adapter:SAM 2無法分割一切? SAM2-Adapter:首次讓SAM 2在下游任務適應調校!
- SAM2Point:可提示3D 分割研究里程碑! SAM2Point:SAM2加持可泛化任3D場景、任意提示!
Diffusion model (擴散模型)
- 2025-04-24:字節Phantom:1280x720影片生成革命!位元組Phantom模型實測:10G顯存效果不輸某靈付費版
- 2025-04-22:MAGI-1:Sand AI 創業團隊推出了全球首個自回歸影片生成大模型MAGI-1,該模型有哪些效能亮點?
- 2025-04-22:SkyReels V2:全球首個無限時長影片生成!新擴散模式引爆兆市場,電影級理解,全面開源
- 2025-04-14:FramePack:不是可靈用不起,而是FramePack更有性價比!開源專案:6G顯存跑13B模型,支援1分鐘影片產生
- 2025-04-14:fantasy-talking:解讀最新基於Wan2.1的音訊驅動數位人FantasyTalking
- 2025-03-10:HunyuanVideo-I2V:騰訊開源HunyuanVideo-I2V圖生視訊模型+LoRA訓練腳本,社群部署、推理實戰教學來吧
- 2025-02-25:Wan-Video:超越Sora!阿里萬相大模型正式開源!全模態、全尺寸大模型開源
- 2025-02-14:FlashVideo:來自位元組的視訊增強全新開源演算法,102秒產生1080P視頻
- 2025-01-28:Sana:[ICLR 2025 Oral] Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer;比FLUX快100倍!英偉達聯手MIT、清華開源超快AI影像產生模型
- Flux
- Flux.1-canny-dev:https://huggingface.co/black-forest-labs/FLUX.1-Canny-dev/
- Flux.1-depth-dev:https://huggingface.co/black-forest-labs/FLUX.1-Depth-dev/
- Flux.1-fill-dev:https://huggingface.co/black-forest-labs/FLUX.1-Fill-dev/
- Flux.1-redux-dev:https://huggingface.co/black-forest-labs/FLUX.1-Redux-dev/
- 2024-11-26:Flux官方重繪+擴圖+風格參考+ControlNet
- 2024-11-25:最新flux_fill_inpaint模型體驗。
- 2024-12-17:Leffa:Leffa:Meta AI 開源精確控制人物外觀和姿勢的圖像生成框架,在生成穿著的同時保持人物特徵
- 2024-11-29:PuLID, Pure and Lightning ID Customization via Contrastive Alignment:https://github.com/balazik/ComfyUI-PuLID-Flux
- 2024-11-07:搞定ComfyUI-PuLID-Flux節點只要這幾步!附一鍵壓縮包
- 2024-10-08:一文搞懂PuLID FLUX人物換臉&風格遷移
- 2024-11-26:MagicQuill:https://huggingface.co/spaces/AI4Editing/MagicQuill
- 2024-11-26:OOTDiffusion:https://huggingface.co/spaces/levihsu/OOTDiffusion
- 2024-11-24:Comfyui Impact Pack
- 2024-11-05:ComfyUI OmniGen @ 北京人工智慧研究院:https://huggingface.co/spaces/Shitao/OmniGen
Digital Human (虛擬數字人)
- HeyGem:開源數位人克隆神器
- Duix:全球首個真人數位人,開源了
- Linly-Talker:an intelligent AI system that combines large language models (LLMs) with visual models to create a novel human-AI interaction method.
- EchoMimicV2:[CVPR 2025] EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation
- Hallo3:[CVPR 2025] Highly Dynamic and Realistic Portrait Image Animation with Diffusion Transformer Networks
- MimicTalk:[NeurIPS 2024] MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes
- JoyGen:Audio-Driven 3D Depth-Aware Talking-Face Video Editing
- Latentsync
- MuseTalk
Optical Character Recognition (光學文字識別)
- 2025-03-05:PP-DocBee:百度推出文件影像理解PP-DocBee
- 2025-03-03:olmocr:🚀本地部署最强OCR大模型olmOCR!支持结构化精准提取复杂PDF文件内容!
- 2025-02-05:MinerU:將PDF轉換為機器可讀格式的神器
- 2024-12-15:markitdown
- 2024-09-22:OCR2.0时代-GOT来啦!
- 2024-09-11:GOT-OCR-2.0模型开源
- 2024-08-20:萬物皆可AI化!剛開源就有12000人圍觀的OCR 掃描PDF 開源工具!還可轉換為MarkDown!
- advancedliteratemachinery/OCR/OmniParser
- 2024-10-29:Alibaba出品:OmniParser通用文檔複雜場景下OCR抽取
- RapidOCR
- 12個流行的開源免費OCR項目
- 用PaddleOCR的PPOCRLabel來微調醫療診斷書和收據
- TableStructureRec: 表格結構辨識推理庫來了:https://github.com/RapidAI/TableStructureRec