รายงาน SIGGRAPH Asia 2009
เนื้อหา
เกี่ยวกับงาน
งาน SIGGRAPH Asia 2009 (http://www.siggraph.org/asia2009) เป็นงานสัมมนาทางวิชาการและแสดงนวัตกรรมทางคอมพิวเตอร์กราฟิกส์ ซึ่งจัดขึ้นในระหว่างวันที่ 16-19 ธันวาคม พ.ศ. 2552 ณ เมืองโยโกฮามา ประเทศญี่ปุ่น ภายในงานมีกิจกรรมที่หลากหลายดังต่อไปนี้
- การนำเสนอผลงานวิจัย ส่วนใหญ่มีเนื้อหาเกี่ยวกับการประยุกต์ใช้คอมพิวเตอร์เพื่อสร้างสื่อวิทัศน์ โดยเน้นการสร้างภาพนิ่งและภาพยนตร์สามมิติ นอกจากนี้ยังมีการนำเสนองานวิจัยทางด้านความสามารถในการมองเห็นของมนุษย์ (perception) และการประยุกต์ใช้คอมพิวเตอร์กับการถ่ายภาพ (computational photography) อีกด้วย งานวิจัยที่ได้รับคัดเลือกให้นำเสนอในงาน SIGGRAPH Asia 2009 จะถูกตีพิมพ์ลงใน special issue ของ ACM Transaction on Graphics ซึ่งเป็นวารสารวิชาการที่ได้รับการยอมรับและอ้างอิงถึงมากที่สุดในด้านคอมพิวเตอร์กราฟิกส์ และมี impact factor มาที่สุดเป็นอันดับที่ 5 ของวารสารทางวิทยาการคอมพิวเตอร์ทั้งหมดในปี พ.ศ. 2551 [1] อนึ่ง ในงานนอกจากจะมีการนำเสนอผลงานวิจัยเต็มแล้ว ยังมีการแสดงโปสเตอร์และการแสดงผลงานความยาวสั้น (sketches) อีกด้วย
- คอร์สเกี่ยวกับคอมพิวเตอร์กราฟิกส์ โดยมีนักวิจัยทางคอมพิวเตอร์กราฟิกส์ชั้นนำ ตัวแทนจากบริษัทเกี่ยวกับเทคโนโลยีคอมพิวเตอร์ มาให้ความรู้ที่หลากหลาย ตั้งแต่ความรู้ทางเทคนิคเกี่ยวกับหัวข้อวิจัย ความรู้เกี่ยวกับการเขียนโปรแกรมขั้นพื้นฐาน ไปจนถึงทักษะในการสร้างภาพยนตร์สั้น ถ่ายภาพ และการพากย์เสียงในภาพยนตร์การ์ตูน
- เทคโนโลยีใหม่ (Emerging Technologies) จะเป็นการนำเสนอผลงานสั้นๆที่นำเอาเทคนิดด้านคอมพิวเตอร์กราฟิกส์และด้านปฏิสัมพันธ์มาผสมผสานระหว่างเทคโนโลยี มนุษย์ สังคม และสิ่งแวดล้อม เช่น เทคโนโลยีการสัมผัส (haptic technology) เพื่อให้ผู้ใช้ได้รับรู้ถึงข้อมูลผ่านการสัมผัส หนึ่งในตัวอย่างผลงานของการใช้เทคโนโลยีการสัมผัสในงานประชุมครั้งนี้ได้ช่วยให้ผู้พิการทางสายตาสามารถรับรู้ถึงสิ่งกีดขวางล่วงหน้าได้ Emerging Technologies นี้คล้ายกับงานแสดงศิลปะแต่เน้นไปทางงานวิจัยทางเทคโนโลยีมากกว่า
- โปรแกรมสำหรับนักการศึกษา ประกอบด้วย (1) การนำเสนอผลงานวิจัยทางด้านการศึกษาทางด้านคอมพิวเตอร์กราฟิกส์ หรือการใช้คอมพิวเตอร์กราฟิกส์ช่วยจัดการศึกษา (2) การนำเสนอแนวทางการศึกษาด้านคอมพิวเตอร์กราฟิกส์ของบริษัทหรือสถาบันศึกษาต่างๆ และ (3) การแสดงปาฐกถาของผู้ทรงคุณวุฒิ
- งานออกร้าน ของบริษัทที่เกี่ยวข้องกับคอมพิวเตอร์กราฟิกส์ เช่น Nvidia, Intel, และ Square-Enix และสถาบันการศึกษาที่มีหลักสูตรทางคอมพิวเตอร์กราฟิกส์ เช่น มหาวิทยาลัยเทคโนโลยีโตเกียว, มหาวิทยาลัยเคโอ, และมหาวิทยาลับ Academy of Art เป็นต้น
- งานแสดงศิลปะ ซึ่งโดยมากเป็นสื่อประสมที่ผู้ใช้สามารถจับต้องและมีปฏิสัมพันธ์ด้วยได้ เช่น การจำลองสิ่งมีชีวิตเสมือนซึ่งเคลื่อนที่มาเต็มบริเวณหน้าจอเมื่อผู้ใช้ส่งเสียง (http://artificialnature.mat.ucsb.edu/) เป็นต้น
- การฉายอนิเมชันที่สร้างจากคอมพิวเตอร์ งาน SIGGRAPH เปิดให้บริษัททำอนิเมชันและนักศึกษาทางศิลปะส่งภาพยนตร์อนิเมชันมาประกวด ภาพยนตร์ที่ได้รับคัดเลือกจำนวนหนึ่งจะถูกนำไปฉายในหอประชุมใหญ่ในตอนเย็นของทุกวันที่มีงานประชุม อีกส่วนหนึ่งจะนำไปฉายเป็นรอบๆ ในห้องขนาด 60 ที่นั่งตลอดทั้งวัน
การนำเสนอผลงานวิจัย
กระผม (นายประมุข ขันเงิน) ได้เข้าฟังการนำเสนอผลงานวิจัยดังต่อไปนี้
- Micro-Rendering for Scalable, Parallel Final Gathering โดย Tobias Ritschel, T. Engelhardt, T. Grosch, Hans-Peter Seidel, Jan Kautz, และ Carsten Dachsbacher
- All-Frequency Rendering of Dynamic, Spatially-Varying Reflectance โดย Jiaping Wang, Peiran Ren, Minmin Gong, John Snyder, และ Baining Guo
- Depth-of-Field Rendering with Multiview Synthesis โดย Sungkil Lee, Elmar Eisemann, และ Hans-Peter Seidel
- Amortized Supersampling โดย Lei Yang, Diego Nehab, Pedro V. Sander, พิชญะ สิทธิอมร, Jason Lawrence, และ Hugues Hoppe
- Adaptive Wavelet Rendering โดย Ryan S. Overbeck, Craig Donner, และ Ravi Ramamoorthi
- Stochastic Progressive Photon Mapping โดย Toshiya Hachisuka, Henrik Wann Jensen
- Automatic Bounding of Programmable Shaders for Efficient Global Illumination โดย Edgar Velazquez-Armendariz, Shuang Zhao, Milos Hasan, Bruce Walter, และ Kavita Bala
- Virtual Spherical Lights for Many-Light Rendering of Glossy Scenes โดย Milos Hasan, Jaroslav Krivanek, Bruce Walter, และ Kavita Bala
- Structured Annotations for 2D-to-3D Modeling โดย Yotam Gingold, Takeo Igarashi, และ Denis Zorin
- Analytic Drawing of 3D Scaffolds โดย Ryan Schmidt, Azam Khan, Karan Singh, และ Gord Kurtenbach
- DiagSplit: Parallel, Crack-Free, Adaptive Tessellation for Micropolygon Rendering โดย Matthew Fisher, Kayvon Fatahalian, Solomon Boulos, Kurt Akeley, William R. Mark, และ Pat Hanrahan
- Approximating Subdivision Surfaces with Gregory Patches for Hardware Tessellation โดย Charles Loop, Scott Schaefer, Tianyun Ni, และ Ignacio Castano
- Debugging GPU Stream Programs Through Automatic Dataflow Recording and Visualization โดย Qiming Hou, Kun Zhou, และ Baining Guo
- Real-Time Parallel Hashing on the GPU โดย Dan A. Alcantara, Andrei Sharf, Fatemeh Abbasinejad, Shubhabrata Sengupta, Michael Mitzenmacher, John D. Owens, และ Nina Amenta
- RenderAnts: Interactive REYES Rendering on GPUs โดย Kun Zhou, Qiming Hou, Zhong Ren, Minmin Gong, Xin Sun, และ Baining Guo
- Optimizing walking controllers โดย Jack M. Wang, David J. Fleet, และ Aaron Hertzmann
- Robust Task-based Control Policies for Physics-based Characters โดย Stelian Coros, Philippe Beaudoin, และ Michiel van de Panne
- Modeling Spatial and Temporal Variation in Motion Data โดย Manfred Lau, Ziv Bar-Joseph, และ James Kuffner
- Real-Time Prosody-Driven Synthesis of Body Language โดย Sergey Levine, Christian Theobalt, และ Vladlen Koltun
คอร์สเกี่ยวกับคอมพิวเตอร์กราฟิกส์
กระผม (นายประมุข ขันเงิน) ได้เข้าฟังคอร์สต่อไปนี้
- Build Your Own 3D Scanner: Optical Triangulation for Beginners
- Casting Shadows in Real Time
- Theory and Methods of Lightfield Photography
ตัวอย่างงานจาก Emerging Technologies : Robot Musician
ในการประชุมวิชาการ SIGGRAPH Asia 2009 นั้น หนึ่งในเทคโนโลยีน่าสนใจที่ครอบคลุมทั้งวิทยาการด้านคอมพิวเตอร์และศิลปศาสตร์ก็คือหุ่นยนต์นักดนตรี ซึ่งพัฒนาโดยทีม Robotic Musicianship Group ศูนย์เทคโนโลยีทางดนตรี (Center for Music Technology) ของสถาบันเทคโนโลยีจอร์เจีย (Georgia Institute of Technology) ซึ่งนำทีมโดยศาสตราจารย์ Gil Weinberg
หุ่นยนต์เล่นดนตรีของทีมนี้ไม่ใช่การโปรแกรมหุ่นยนต์ให้เล่นเครื่องดนตรีอย่างโดดๆ แต่เป็นการสร้างหุ่นยนต์ซึ่งสามารถเล่นดนตรีไปพร้อมๆกับมนุษย์ได้ หุ่นยนต์สามารถฟังดนตรีที่มนุษย์เล่น จับจังหวะและทำนองของดนตรี จากนั้นก็สามารถเล่นตามมนุษย์ได้อย่างกลมกลืนกัน นอกจากนี้หุ่นยนต์ยังสามารถสร้างสรรค์เสียงดนตรีด้วยตนเองในขณะที่กำลังเล่นอยู่ โดยใช้พื้นฐานจากสไตล์เพลงที่มนุษย์เล่นได้ด้วย ทักษะการเล่นดนตรีโดยปรับเปลี่ยนโน้ตขณะที่เล่นเลยนั้นในทางดนตรีเรียกว่า improvisation ซึ่งเป็นทักษะชั้นสูงที่มักใช้กันในดนตรีประเภทแจ๊ส
เทคโนโลยีที่สามารถทำให้หุ่นยนต์เล่นดนตรีไปพร้อมมนุษย์ได้นั้นมีดังนี้
การจับจังหวะ (Beat Detection)
จังหวะเป็นพื้นฐานของดนตรี ดังนั้นการที่หุ่นยนต์จะเล่นดนตรีไปพร้อมกับมนุษย์ได้อย่างพร้อมเพรียงนั้น ต้องสามารถจับจังหวะของดนตรีที่มนุษย์เล่นได้ก่อน ทีมวิจัย Robotic Musicianship ได้สร้างหุ่นยนต์เล่นกลองที่ชื่อ Haile ขึ้นมาเพื่อทดสอบโปรแกรมการจับจังหวะที่ทีมได้พัฒนาขึ้น โดยให้มนุษย์เล่นกลองแล้วให้ Haile ตีกลองของตนเองให้เข้าจังหวะ จากวิดิโอซึ่งบันทึกภาพการทดสอบ Haile ช่วงแรกๆนั้น ถ้ากลองที่มนุษย์ตีนั้นมีจังหวะที่ช้าและไม่ซับซ้อน Haile จะสามารถตีกลองให้เข้าจังหวะได้ แต่ถ้ามนุษย์เล่นจังหวะที่เร็วและซับซ้อนมากขึ้น อาจทำให้ Haile งงและตีกลองไม่ถูกจังหวะได้ ต่อมาทางทีมได้พัฒนา Haile ให้จับจังหวะได้ดีขึ้น และสามารถ improvise ได้ จนสามารถเล่นคู่กับมนุษย์ได้ (หุ่นยนต์และมนุษย์เล่นกลองตัวเดียวกัน โดยสับกันเล่นในลักษณะส่งต่อเพลงกัน) ล่าสุดนั้นได้มีการแสดงคอนเสิร์ตกลองโดยมี Haile เป็นหนึ่งในผู้เล่นร่วมกับมนุษย์อีก 4 คน ในตัวอย่างวิดิโอ Haile สามารถเล่นกลองควบคู่ไปกับมนุษย์ได้และสามารถจบเพลงพร้อมๆกับมนุษย์ได้อีกด้วย
การจับท่วงทำนองเพลงและความกลมกลืนของเพลง (Melodic and Harmonic Detection)
หุ่นยนต์ตัวที่สองที่ทางทีมได้่พัฒนาขึ้นนั้นชื่อ Shimon ซึ่งสามารถเล่นมาริมบาได้ (Marimba: เครื่องดนตรีเคาะเข้าจังหวะ ซึ่งมีแผงไม้หรือเหล็กที่ใช้ในการสร้างเสียง คล้ายๆระนาดไทย) เนื่องจากมาริมบานั้นสามารถเล่นโน้ตได้ ดังนั้นการเล่นจะมีความซับซ้อนกว่ากลองซึ่งเป็นเครื่องเคาะจังหวะเท่านั้น Shimon สามารถฟังเสียงดนตรีที่มนุษย์เล่นและวิเคราะห์ได้ว่ามนุษย์กำลังเล่นเพลงสไตล์ไหน จากนั้น Shimon จะสร้างโน้ตดนตรีใหม่ของท่วงทำนองเดิมในสไตล์ที่มนุษย์กำลังเล่นอยู่ และเล่นออกมาเป็นเพลงได้ รูปที่ 2: Shimon จาก http://gtcmt.coa.gatech.edu/?p=628
การวิเคราะห์สไตล์การเล่นเพลงของมนุษย์นั้น ใช้เทคนิค Hidden Markov Model เพื่อสร้างแบบจำลองของดนตรีสไตล์ต่างๆ (ทางทีมวิจัยเน้นการเล่นดนตรีประเภทแจ๊สเป็นหลัก โดยสร้างโมเดลการเล่นดนตรีของนักดนตรีแจ๊สแต่ละคน) โดยใช้เพลงที่นักดนตรีเล่นเป็นข้อมูลเข้าในการสร้างโมเดล เมื่อ Shimon ได้ยินดนตรี จะนำท่วงทำนองและจังหวะมาวิเคราะห์ตามโมเดลว่าคล้ายกับของนักดนตรีคนใด ส่วนการสร้างท่วงทำนองใหม่นั้น ใช้หลักการของ Genetic Algorithm ในการหาผลลัพธ์(ท่วงทำนอง)ใหม่ที่เข้ากันกับโมเดลที่วิเคราะห์มาในขั้นต้น
นอกจากนี้ Shimon ยังถูกสร้างขึ้นมาเพื่อเล่นดนตรีไปคู่กับมนุษย์ โดยหุ่นยนต์สามารถส่งเพลงต่อให้มนุษย์ได้ด้วยโดยการใช้ visual cue ทีมวิจัยได้สร้าง Shimon โดยสร้างส่วนหัวให้ขยับและโยกขึ้นลงซ้ายขวาได้ Shimon จะโยกหัวตามจังหวะเพลง และสามารถโยกหัวไปทางมนุษย์เพื่อให้มนุษย์เล่นเพลงต่อได้ด้วย
Shimon ได้ร่วมเล่นดนตรีกับมนุษย์รวมไปถึงเล่นดนตรีควบคู่ไปกับ Haile อีกด้วย (โดยมีมนุษย์เล่นด้วย)
จุดน่าสนใจเรื่องการเขียนโปรแกรม improvisation คือปัจจุบัน Shimon และ Haile สามารถ improvise ได้จากจังหวะและท่วงทำนอง (Rythm and Melody) แต่ยังไม่สามารถจับ Chord Progression ได้ และยังไม่สามารถ improvise จากข้อมูลส่วนนี้ได้ ผู้วิจัยได้อธิบายว่าการจับคอร์ดนั้นยากกว่าการจับเมโลดีมาก เพราะเป็นการเล่นโน้ตหลายตัวพร้อมๆกัน
การควบคุม Shimon ผ่านอุปกรณ์พกพา
ทางทีมวิจัยได้คิดค้นวิธีเล่นดนตรีคู่ไปกับ Shimon แม้ว่ามนุษย์ผู้นั้นจะเล่นดนตรีไม่ได้ โดยได้สร้างโปรแกรมบนเครื่อง iPhone ที่ชื่อ ZOOZbeat ซึ่งโดยตัวมันเองนั้นเป็นโปรแกรมดัดแปลงเสียงดนตรี ผู้ใช้สามารถกำหนดท่วงทำนองเพลงลงไปในโปรแกรม และสามารถดัดเสียงหรือจังหวะของเพลงนั้นได้ด้วยการขยับ iPhone (ทำให้เกิดการเปลี่ยนแปลงใน accelerometer ใน iPhone) โปรแกรมจะสร้างท่วงทำนองใหม่ขึ้นมาจากของเดิม โปรแกรมเดียวกันนี้สามารถส่งข้อมูลเพลงนั้นไปให้ Shimon ผ่าน network ได้ และ Shimon จะ improvise เพลงจากท่วงทำนองที่มนุษย์แต่งขึ้น นอกจากนี้มนุษย์ยังสามารถควบคุมการ improvise ของ Shimon ได้ว่าจะให้มีจังหวะเร็วช้า หรือให้ใช้สไตล์การเล่นของใครอีกด้วย
References
- GTCMT > Robotic Musicianship Groups [ออนไลน์] เข้าถึงจาก http://gtcmt.coa.gatech.edu/?p=137 เมื่อ 21 ม.ค. 2553
ตัวอย่างงานจาก Sketches : SixthSense
เป็นงานวิจัยที่พัฒนาโดย Mr. Pranav Mitra ภายใต้การดูแลของ Professor Pattie Maes จาก MIT Media Lab
SixthSense เป็น interface ที่ควบคุมโดยท่าทาง (gesture) ที่สามารถสวมใส่ได้ ลักษณะอุปกรณ์เป็นสายคล้องคอที่มีกล้องถ่ายรูป ไมโครโฟน ลำโพงและเครื่องฉายวีดิทัศน์ รวมอยู่ด้วยกัน มีขนาดเล็กสามารถพกพาได้ อุปกรณ์สามารถจับภาพที่คุณเห็น และ พิจารณาจากท่าทางที่สื่อสารตามธรรมชาติของคุณเสมือนคุณมีปฎิสัมพันธ์กับวัตถุจริง แล้วทำงานต่างๆ เช่น คุณกางนิ้วออกต่อกันเป็นลักษณะกรอบรูป อุปกรณ์จะแปลผลท่าทางแล้วสามารถถ่ายภาพโดยอัตโนมัติโดยคุณไม่ต้องกดปุ่ม หรือเมื่อคุณวาดวงกลมที่ข้อมือเพื่อดูเวลาอุปกรณ์ก็จะฉายภาพนาฬิกาบนข้อมือของคุณ คุณสามารถหาข้อมูลที่คุณต้องการโดยแสดงท่าทางธรรมชาติ ในการสั่งงานให้อุปกรณ์เชื่อมต่อไปยังอินเตอร์เน็ตเพื่อค้นหาข้อมูลที่คุณต้องการมาแสดง ในการแสดงผลคุณสามารถแสดงบนวัตถุที่อยู่รอบตัวเช่น ผนัง กระดาษ กระดาษหนังสือพิมพ์ ซึ่ง ผลที่แสดงเหล่านี้จะรวมเข้าด้วยกันกับสิ่งแวดล้อมในโลกทางกายภาพ เช่นคุณสามารถเล่นเตะบอลเสมือนที่เป็นภาพแสดงจากเครื่องฉายภาพกับเพื่อนคุณขณะโดยสารบนรถไฟใต้ดิน โดยภาพลูกบอลถูกแสดงที่พื้นรถไฟฟ้า หรือคุณสามารถแสดงรูปถ่ายต่างๆให้เพื่อนดูที่ผนังห้อง รวมถึงการค้นหา ย่อ ขยายภาพ เลือกภาพ เป็นต้น  ที่มาของรูป http://www.media.mit.edu/research/groups/1461/sixthsense วิดีทัศน์ http://www.wired.com/epicenter/2009/02/ted-digital-six