ห้องสมุดส่วนตัว - gordon123/learn2ComfyUI GitHub Wiki

ห้องสมุดส่วนตัวเล็ก ๆ เกี่ยวกับ งานวิจัยด้าน AI ที่น่าสนใจ

https://paperswithcode.com/ https://aiforthai.in.th/service_bn.php https://course.fast.ai/

🔗References for Text to image generative AI

Image generative Areana! https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard

หัวข้อ คำอธิบายย่อๆ Link
High-Resolution Image Synthesis with Latent Diffusion Models ต้นกำเนิด Stable diffusion https://arxiv.org/abs/2112.10752
Reproducible scaling laws for contrastive language-image learning งานวิจัยเกี่ยวกับ CLIP ของ OpenAI https://arxiv.org/abs/2212.07143 ลิ้งเพิ่มเติม https://github.com/mlfoundations/open_clip
Adding Conditional Control to Text-to-Image Diffusion Models การทำงาน Control net Controlnet Paper

🔗References for Sound/Voice/Musics generative AI

แหล่ง data set สำหรับเสียง Sound/Voice clone areana ! https://huggingface.co/spaces/TTS-AGI/TTS-Arena https://airesearch.in.th/releases/speech-emotion-dataset/ https://sites.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf https://inference.readthedocs.io/en/latest/models/model_abilities/audio.html#audio https://keithito.com/LJ-Speech-Dataset/ https://huggingface.co/datasets/CMKL/Porjai-Thai-voice-dataset-central

หัวข้อ คำอธิบายย่อๆ Link
PyThaiNLP: Thai Natural Language Processing in Python TBA https://arxiv.org/pdf/2312.04649
PyThaiNLP open source TBA https://pythainlp.org/thai-tutorials/index.html
StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion TBA https://arxiv.org/abs/2306.07691
MegaTTS 3: Zero-Shot Speech Synthesis ***** Quality great and light weight https://arxiv.org/abs/2306.07691, https://github.com/bytedance/MegaTTS3
AudioX: Diffusion Transformer for Anything-to-Audio Generations เพิ่ม sound effect ให้ video Audio-X Project page

🔗Reference for Video generative AI

The areana!! https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard

หัวข้อ คำอธิบายย่อๆ Link
TBA TBA TBA

🔗 Summary: Research Papers on Image-to-Text Models

Topic Paper Title Authors Year Link Summary (Thai)
Vision Transformer (ViT) An Image is Worth 16x16 Words Dosovitskiy et al. 2020 arXiv เสนอแนวทางการใช้ Transformer สำหรับการจำแนกรูปภาพโดยไม่ใช้ Convolutional Layers
Convolutional Neural Networks (CNNs) Gradient-Based Learning Applied to Document Recognition LeCun et al. 1998 Paper อธิบายพื้นฐานของ CNN และการใช้ในงานจดจำเอกสาร
Recurrent Neural Networks (RNNs) Long Short-Term Memory Hochreiter & Schmidhuber 1997 Paper นำเสนอ LSTM ซึ่งช่วยให้ RNN สามารถจัดการกับข้อมูลลำดับยาวได้ดีขึ้น
CLIP Learning Transferable Visual Models From Natural Language Supervision Radford et al. 2021 arXiv พัฒนาโมเดลที่สามารถจับคู่ภาพและข้อความได้อย่างมีประสิทธิภาพโดยใช้ Contrastive Learning
BLIP Bootstrapped Language-Image Pretraining Li et al. 2022 arXiv โมเดลที่ใช้การเรียนรู้ร่วมกันระหว่างภาพและข้อความเพื่อการแปลภาษาและสร้างคำอธิบายภาพ
GPT-4 Vision (GPT-4V) GPT-4 Technical Report OpenAI 2023 Paper รายงานทางเทคนิคของ GPT-4 และความสามารถด้านการเข้าใจภาพ
SimVLM Simple Visual Language Model Pretraining Wang et al. 2021 arXiv โมเดลที่รวมการเรียนรู้ภาษากับการมองเห็น โดยใช้การฝึกแบบอ่อน (weakly supervised)
LLaVA Large Language and Vision Assistant Liu et al. 2023 arXiv โมเดลที่รวม LLM กับความสามารถในการประมวลผลภาพเพื่อช่วยตอบคำถามเกี่ยวกับภาพ
Flamingo A Visual Language Model for Few-Shot Learning Alayrac et al. 2022 arXiv โมเดลที่สามารถเรียนรู้จากข้อมูลตัวอย่างน้อยและสามารถทำงานร่วมกับทั้งข้อความและภาพ
Kosmos-2 Grounding Multimodal Large Language Models Huang et al. 2023 arXiv โมเดลที่สามารถสร้างข้อความโดยมีพื้นฐานจากภาพและวิดีโอ
GIT Generative Image-to-Text Transformer Wang et al. 2022 arXiv โมเดลที่สามารถสร้างคำบรรยายภาพได้อย่างแม่นยำโดยใช้ Transformer
Show and Tell A Neural Image Caption Generator Vinyals et al. 2015 arXiv โมเดลแรก ๆ ที่ใช้ CNN + LSTM ในการสร้างคำอธิบายภาพอัตโนมัติ
OCR (Optical Character Recognition) What is Wrong with Scene Text Recognition Model Comparisons? Baek et al. 2019 arXiv วิเคราะห์ปัญหาและแนวทางการเปรียบเทียบโมเดล OCR สำหรับข้อความในภาพ
Word2Vec Efficient Estimation of Word Representations in Vector Space Mikolov et al. 2013 arXiv นำเสนอ Word2Vec สำหรับการแปลงคำเป็นเวกเตอร์ที่มีความสัมพันธ์เชิงความหมาย
GloVe Global Vectors for Word Representation Pennington et al. 2014 Stanford NLP เทคนิคที่ใช้คำนวณเวกเตอร์ของคำโดยอ้างอิงจากสถิติการปรากฏร่วมกันของคำ
BERT Pre-training of Deep Bidirectional Transformers Devlin et al. 2019 arXiv โมเดล Transformer ที่เรียนรู้บริบทของคำจากทั้งสองทิศทางเพื่อใช้ใน NLP
Universal Sentence Encoder (USE) Universal Sentence Encoder Cer et al. 2018 arXiv โมเดลที่ช่วยให้การแปลงประโยคเป็นเวกเตอร์สามารถนำไปใช้กับงานต่าง ๆ ได้อย่างมีประสิทธิภาพ
OpenAI Embeddings OpenAI Embeddings: Text Representations for Semantic Search OpenAI 2022 Docs โมเดลที่ให้ embedding สำหรับการค้นหาและวิเคราะห์ความหมายของข้อความ
Florence Florence: A New Foundation Model for Computer Vision arXiv:2111.11432 2021 เน้นเรื่อง compute vision
CLIP Multimodal Foundation Models Now Publishers 2024 จับคู่ภาพกับข้อความและใช้สำหรับค้นหาข้อมูลจากภาพ
BLIP Benchmark Evaluations of Large Vision-Language Models arXiv 2501.02189 2025 สร้างคำอธิบายภาพ (Image Captioning) และตอบคำถามเกี่ยวกับภาพ
GPT-4 Vision Unified Approaches for Vision-Language ProQuest 2024 วิเคราะห์ภาพและให้คำตอบเชิงตรรกะเกี่ยวกับเนื้อหาภาพ
SimVLM Simple Visual Language Model arXiv 2111.09883 2021 ใช้การฝึกฝนแบบอ่อน (weakly supervised) เพื่อให้คำอธิบายภาพที่มีประสิทธิภาพ
LLaVA Multimodal Large Language Models ACL Anthology 2024 โมเดลที่รวมภาษาและภาพ ช่วยตอบคำถามเกี่ยวกับภาพโดยใช้ LLM
Flamingo Few-Shot Learning for Vision-Language DeepMind 2022 ใช้การเรียนรู้แบบ few-shot สำหรับงานที่ต้องการให้เข้าใจภาพและข้อความร่วมกัน
Kosmos-2 Grounded Multimodal Generation Microsoft 2023 สร้างข้อความจากภาพหรือวิดีโอ ใช้สำหรับการสร้างเนื้อหาที่มีพื้นฐานจากข้อมูลภาพ
GIT Generative Image-to-Text Transformer arXiv 2205.14100 2022 โมเดลสร้างข้อความจากภาพที่มีความแม่นยำสูง
Show and Tell A Neural Image Caption Generator arXiv 1411.4555 2015 หนึ่งในโมเดลแรกที่ใช้ CNN+LSTM เพื่อสร้างคำอธิบายภาพอัตโนมัติ
OCR (Tesseract, TrOCR) OCR for Vision-Language Tasks arXiv 2401.02276 2024 ตรวจจับและดึงข้อความจากภาพ (OCR) เช่น เอกสาร สัญลักษณ์ และป้ายถนน