All articles
THAI ARTICLE

Most articles on this site are written in Thai. English editions may follow later.

Karpathy ปล่อย Autoresearch: ตอนนี้ AI เขียนงานวิจัยของตัวเองได้แล้ว

Summarize with AI

ตี 2 ของคืนวันธรรมดา — ในขณะที่นักวิจัย ML ส่วนใหญ่นอนหลับหลังวันทำงานที่เหนื่อยล้า มี agent กำลังอ่านไฟล์ Python, แก้บรรทัดที่ 247, บันทึกผล, วัด validation loss, แล้วตัดสินใจว่าจะลองอะไรต่อไป

มันไม่ได้รอคำสั่ง ไม่ได้รอ approval มันแค่ทำงาน

เมื่อ Andrej Karpathy — นักวิจัย AI ที่เคยเป็น Director of AI ที่ Tesla และอดีตทีม OpenAI — เปิดตัวโปรเจ็กต์ชื่อ Autoresearch มันกลายเป็น viral ภายในไม่กี่วัน: GitHub repo ที่มี star กว่า 21,000 ดาว, views ที่ทะลุ 8.6 ล้านครั้ง, และการถกเถียงในวงการ AI ที่ยังไม่สิ้นสุด

ไม่ใช่เพราะ Autoresearch ทำอะไรที่ซับซ้อนเกินจินตนาการ แต่เพราะมันทำสิ่งที่นักวิจัย ML กลัวที่สุด — มันเริ่มทำงานที่พวกเขาทำอยู่

Autoresearch คืออะไร

โดยแก่นแท้แล้ว Autoresearch คือ Python script ยาว 630 บรรทัด ที่ทำงานเป็น closed-loop: agent อ่าน training code, เสนอการแก้ไข, รัน experiment, วัดผล, แล้วตัดสินใจว่าจะทำอะไรต่อไป — ซ้ำวนจนกว่าจะหยุด

ข้อจำกัดที่ Karpathy กำหนดไว้ดูเรียบง่ายแต่ทรงพลัง: แต่ละ experiment มีเวลา 5 นาทีของ wall-clock time บน single GPU ที่ใครก็สามารถหามาได้ ไม่ใช่ cluster ขนาด 1,000 GPU ของ big lab — แค่ GPU ธรรมดา 1 ตัว ซึ่ง Karpathy ตั้งใจให้เป็นเช่นนั้น เพื่อให้ทุกคน reproduce ได้

ตัวชี้วัดที่ใช้คือ val_bpb (validation bits per byte) — metric มาตรฐานที่บอกว่า model ของคุณ "เก่ง" แค่ไหนในการ compress ข้อมูล ยิ่งต่ำยิ่งดี มันเป็นตัวเลขที่ objective และเปรียบได้โดยตรงระหว่าง experiment ทุกครั้ง

สิ่งที่ทำให้ Autoresearch แตกต่างจาก hyperparameter tuner ทั่วไปคือมันไม่ได้แค่ adjust ตัวเลข — มันอ่านและแก้ไข code จริงๆ มันสามารถเปลี่ยน architecture, ปรับ training methodology, หรือลอง approach ที่นักวิจัยมนุษย์อาจไม่เคยคิดจะลอง เพราะมันไม่มี bias ว่า "สิ่งนี้ไม่น่าจะทำงาน"

Signal

ถ้าคุณสนใจแบบนี้ สมัครรับ Signal ได้ที่นี่

จดหมายสั้น ๆ เรื่อง AI, ธุรกิจ, และสิ่งที่ควรสนใจจริง แบบไม่เอาเสียงรบกวน

Join the Newsletter

Most issues are written in Thai.

700 Experiments ใน 2 วัน

ในการรัน 1 ครั้งที่ถูก document ไว้ Autoresearch ทำ experiments ได้กว่า 700 ครั้งภายใน 2 วัน

ให้เปรียบเทียบ: นักวิจัย ML มนุษย์ที่ทุ่มเทจะรัน experiment ได้ประมาณ 3-5 ครั้งต่อวัน หากนับรวมเวลาเขียน code, debug, วิเคราะห์ผล, และพักกินข้าว นั่นหมายความว่า Autoresearch ทำงานเทียบเท่านักวิจัยประมาณ 70-100 คนทำงานพร้อมกัน — บน GPU เดียว

ความเร็วนี้มาจากการที่ agent ไม่ต้อง "ตั้งใจ" หรือ "โฟกัส" มันไม่ฟุ้งซ่าน ไม่เหนื่อย ไม่ต้องประชุม และไม่มีวันจันทร์ Loop ของมันคือ: ลอง → วัด → เรียนรู้ → ลองอีกครั้ง และมันทำซ้ำแบบนี้ตลอด 48 ชั่วโมงโดยไม่หยุด

ผลลัพธ์ที่ได้ไม่ใช่แค่ตัวเลข: agent สามารถค้นพบ improvement ที่วัดได้จริงในเวลาที่สั้นกว่านักวิจัยมนุษย์มาก ตัวเลขที่ถูกอ้างถึงในชุมชนคือการปรับปรุง performance ได้ถึง 19% จาก baseline ใน task เฉพาะเจาะจง ซึ่งเป็นตัวเลขที่ไม่เล็กน้อยสำหรับระบบที่รันอยู่บน consumer GPU

ทำไม Karpathy เรียกมันว่า "Final Boss"

Karpathy ไม่ได้ใช้คำนี้เบาๆ เขาอธิบาย Autoresearch ว่าเป็น humanity's "final boss battle" กับ AI — จุดที่ AI เริ่มทำ AI research เอง

Logic ของเขาตรงไปตรงมา: ถ้า AI สามารถทำ ML research ได้ดีกว่ามนุษย์ ก็หมายความว่า AI จะพัฒนาตัวเองได้เร็วกว่าที่มนุษย์จะพัฒนามัน นั่นคือจุดที่ feedback loop เริ่มปิด และความเร็วของการพัฒนาอาจเปลี่ยนไปในระดับที่เราไม่เคยเห็น

วิสัยทัศน์ที่เขาพูดถึงไปไกลกว่า 1 agent: เขา imagine ระบบแบบ SETI@home — distributed research agents ที่ทำงานแบบ asynchronous บนอุปกรณ์หลายพันชิ้น แต่ละตัวเสนอ experiment, รัน, share ผลลัพธ์, และ collectively advance scientific knowledge โดยไม่ต้องมี central coordinator

นี่ไม่ใช่แค่ automation ของขั้นตอนที่น่าเบื่อ มันคือ outsourcing ของกระบวนการคิดวิทยาศาสตร์เองทั้งกระบวน ตั้งแต่การตั้งสมมติฐานไปจนถึงการสรุปผล

ชุมชน ML ตอบสนองอย่างไร

ความ viral ของ Autoresearch ไม่ได้มาแค่จากความน่าประทับใจ แต่มาจากความ accessible ด้วย GitHub stars 21,000+ ในเวลาไม่กี่วันสะท้อนว่านักพัฒนาและนักวิจัยรู้สึกว่ามัน "ทำได้จริง" — ไม่ใช่ research paper ที่ต้องการ supercomputer 10,000 GPU แต่เป็น Python script ที่ใครก็ clone และรันได้ด้วย GPU ธรรมดา

ในชุมชน AI มีสองกระแสหลักในการตอบสนอง: ฝั่งหนึ่งตื่นเต้นกับ potential — อิสระในการ experiment ที่ไม่มีข้อจำกัดของ human attention span, ความสามารถในการ democratize ML research ให้ทีมเล็กๆ สามารถแข่งกับ big lab ได้ อีกฝั่งหนึ่งมีความกังวลที่เฉียบคมกว่านั้น

สิ่งที่ตัวเลขไม่ได้บอก

700 experiments ใน 2 วันฟังดูน่าประทับใจ แต่นักวิจัยส่วนหนึ่งตั้งคำถามว่า มันกำลัง optimize อะไรกันแน่

val_bpb เป็น metric ที่ดี แต่เป็น metric เดียว model ที่ได้ 19% improvement บน val_bpb อาจไม่ได้ดีขึ้น 19% ในงาน downstream จริงๆ และถ้า agent optimizes metric เดียวกันซ้ำๆ เป็นพันรอบ โอกาส overfitting ต่อ metric นั้นก็สูงขึ้นตาม ซึ่งเป็นปัญหาคลาสสิกใน ML ที่เรียกว่า Goodhart's Law — เมื่อ metric กลายเป็นเป้าหมาย มันหยุดเป็น metric ที่ดี

มีอีกปัญหาที่ subtler กว่า: ความโปร่งใส เมื่อนักวิจัยมนุษย์ค้นพบ improvement พวกเขาต้องเขียน reasoning ว่าทำไมมันถึงได้ผล ซึ่งสร้าง knowledge ที่สามารถ generalize ได้ Autoresearch สร้าง results แต่ไม่ได้สร้าง explanation ทำให้ยากที่จะรู้ว่า improvement ที่ได้มานั้น luck, overfitting, หรือ genuine insight ที่นำไปต่อยอดได้

นักวิจัยบางคนยังชี้ให้เห็นว่า breakthrough ที่ยิ่งใหญ่ที่สุดในประวัติศาสตร์ ML มักมาจาก cross-domain intuition ที่ยากจะ program: การนำ attention mechanism มาจากแนวคิดใน neuroscience, การ borrow idea ของ residual connections จาก signal processing agent ที่ optimize metrics อาจพลาด leap ที่ต้องใช้จินตนาการนอกกรอบ

นัยสำหรับทีม AI ใน Enterprise

สำหรับ founder และ tech lead ที่ deploy AI จริงๆ Autoresearch มีนัยที่ concrete กว่าการถกเถียงเชิงปรัชญา

ข้อแรก: การ fine-tuning model จะถูกกว่าเดิมมากในอนาคตอันใกล้ ถ้า autonomous agent สามารถรัน experiment หลายร้อยครั้งบน single GPU ได้โดยไม่ต้องมี ML engineer ดูแลตลอด ต้นทุนในการ customize model สำหรับ use case เฉพาะจะลดลงอย่างมีนัยสำคัญ ทีมที่วันนี้ยังคิดว่า fine-tuning "แพงเกินไป" อาจต้องทบทวนใหม่ภายในปีหน้า

ข้อสอง: competitive advantage จะย้ายไปที่ data และ domain knowledge ถ้า methodology ของ model development กลายเป็น commodity ที่ทุกคน automate ได้ สิ่งที่ differentiate จะเป็น data คุณภาพสูงและความเข้าใจลึกในปัญหาเฉพาะ — ไม่ใช่ความสามารถในการรัน experiment เก่ง

ข้อสาม: role ของ ML researcher กำลังเปลี่ยน งานที่ใช้เวลา 70% ของนักวิจัยอย่างการ tune hyperparameter และรัน ablation study กำลังถูก automate งานที่เหลือ — formulate คำถามที่ถูกต้อง, interpret ผลลัพธ์ในบริบทของ business, และตัดสินใจว่าจะ invest compute ไปกับอะไร — คือสิ่งที่ยังต้องการมนุษย์

จุดที่น่าจับตามอง

สิ่งที่ Karpathy ปล่อยออกมาไม่ใช่แค่ tool มันคือ proof of concept ที่บอกว่า AI research loop สามารถปิดได้ 630 บรรทัด Python, single GPU, 5 นาทีต่อ experiment — แล้วมันรันตลอดคืนในขณะที่คุณนอนหลับ

ที่น่าสนใจกว่า star count หรือ view count คือ ecosystem ที่จะตามมา: ถ้า framework นี้ถูก adopt อย่างกว้างขวาง จะเกิดอะไรขึ้นเมื่อ lab ทุกแห่งในโลกรัน autonomous research agents พร้อมกัน 24 ชั่วโมง ความเร็วของ ML progress ที่เราเคยคาดเดาได้อาจไม่ใช่ baseline อีกต่อไป

คำถามที่น่าสนใจสำหรับ tech leader ไม่ใช่ว่า "Autoresearch จะแทนที่นักวิจัยมนุษย์ได้ไหม" แต่คือ "ถ้า competition คุณเริ่มใช้ autonomous research agent ก่อน พวกเขาจะ iterate model เร็วกว่าคุณแค่ไหน?"

Less noise. More signal.

Less noise. More signal.

Get the next high-signal note.

Short breakdowns on what matters, what does not, and what actually works in the real world.

See the newsletter

Article signup

สมัครรับ

ไม่มี hype ไม่มี fluff มีแต่สิ่งที่ใช้ได้จริง

สิ่งที่เวิร์คสิ่งที่ไม่เวิร์คสิ่งที่สำคัญตอนนี้

จดหมายข่าว Wora

บันทึกสั้นคม ๆ สำหรับคนที่อยากได้ signal ไม่ใช่แค่เสียงรบกวน

ฟรี ยกเลิกเมื่อไรก็ได้