Loading...

Category: R

Getting Data – Scrape ดูดดึงข้อมูลจากเว็บด้วย rvest (ตอนที่ 1)

ก่อนจะทำอาหารต้องสรรหาวัตถุดิบฉันใด ก่อนจะทำ Data ก็ต้องหาข้อมูลฉันนั้น หากไม่มีวัตถุดิบซึ่งเป็น Data ต่าง ๆ ก็คงจะเริ่มได้ไม่ดีนัก เรื่องการ Getting Data หรือการได้มาซึ่งข้อมูล จึงเป็นส่วนสำคัญใน Data Science และวิธีการหนึ่งในการ รับข้อมูล มานั้นคือการ Scrape จากเว็บ ในวัยเรียนหลาย ๆ คน คงเคยทำรายงานส่งโดยการค้นหาจากใน Google และกด Copy Paste มาแปะบนรายงานต่าง ๆ [ … ]

Data ไสย์ Tutorial เดอะซีรี่ส์ #2 – เก็บตก 10hr ultramarathon – ส่องไฟรายบุคคล (2/2)

ความเดิมตอนที่แล้ว โดนแดดเผาในงานไม่พอ ชีวิตรันทดเหมือนเป็นปีชง ต้องหา data มาดู Histogram ผลงานนักวิ่ง ต่อด้วย Boxplot จะได้เห็นว่าแต่ละปีคนจบเยอะ จบน้อยยังไง หากำแพงระยะ 42km และ 50km ที่เปลี่ยนไปเปลี่ยนมาตามสภาพอากาศและจำนวนคนเจอในประเภทเดี่ยว ลามไปจนเจอค่าเฉลี่ย 12.5 รอบ ต่อผลัด ที่ใช้ตัดตัวทวยเทพประเภททีม ตอนสุดท้ายนี้ของซีรี่ส์นี้เลยจะขอมองต่ำลึกลงไปอีกหน่อย โจทย์วันนี้ อยากรู้จักขาประจำสวนพฤกษ์ มาวิ่งซ้ำแล้วซ้ำอีก แล้วคนที่มาซ้ำเนี่ยส่วนใหญ่มี performance ดีขึ้นหรือแย่ลง นี่คือปรับโจทย์ให้สั้นๆ [ … ]

Data ไสย์ Tutorial เดอะซีรี่ส์ #2 – เก็บตก 10hr ultramarathon – เรื่อง “DD” ที่เจอกลางแดด (1/2)

[คำเตือน: โพสท์นี้ยาวมากกกกกกกกกก] เดือนเมษาที่ผ่านมา รู้สึกร้อนกันบ้างรึเปล่าครับ? ใช่ครับ ร้อนระดับที่อาบน้ำเสร็จออกมายืนโง่ๆ แป๊บนึงก็เหงื่อออกอีกแล้ว ร้อนจนไม่อยากสนใจโลกร้อนแล้วเปิดแอร์ 17c ทิ้งไว้ทั้งวันทั้งคืน แต่ก็ทำไม่ได้เพราะค่าไฟแม่งแพง แต่เชื่อมั้ยครับ ร้อนขนาดนี้ก็ยังมีคนกล้าจัดงานให้นักวิ่งออกไปวิ่งกันอยู่ งานที่พูดถึงนี่ไม่ใช่วิ่งกะโหลกกะลาห้านาทีสิบนาทีในทุ่งเทเลทับบี้ แต่วิ่งกันสิบชั่วโมง!! วิ่งตั้งแต่พระอาทิตย์ขึ้นถึงพระอาทิตย์ตก วิ่งให้แดดเลียจนเข่าสึก แถมไม่ได้เพิ่งจัด เพราะจัดมาเป็นปีที่สิบแล้ว!!! (ณ ปี 2019) “บ้าบอสิ้นดี นอนตากแอร์เย็นๆ สบายกว่าเยอะ ไปวิ่งให้ตับแล่บทำไมวะ” คิดในใจ แต่ก็สมัครไปทรมานมาสองปีแล้วเหมือนกัน.. งานที่ว่านี้มีชื่อเป็นทางการว่า Suanpruek 99 10-hr [ … ]

Data ไสย์ Tutorial เดอะซีรี่ส์ #1 – มังกรสองตัว อยู่ถ้ำเดียวกันได้มั้ยฮึ (1/2)

“เสือสองตัวอยู่ถ้ำเดียวกันไม่ได้” เป็นสุภาษิตไทย แต่วันนี้ขอพาขึ้นเหนือไปไกลหน่อย อย่างน้อยให้เลยชายแดนเวียดนามไปทางเหนือ เพราะเราจะไม่ได้พูดเรื่องเสือ แต่เป็นเรื่องของมังกรล้วนๆ ช่วงปลายปีที่แล้วลามมาถึงต้นปีนี้ บังเอิญ (น่าจะใช้คำนี้ได้) ไปเป็น expat ไทยในในแดนมังกรอยู่หลายอาทิตย์ ระหว่างนั้นก็ไปเจองาน data visualization พื้นๆ ที่น่าจะเก็บไว้เป็นตัวอย่าง หรือเป็น snippet ในงานอื่นได้บ้าง เลยเป็นที่มาของ article แรกในซีรี่ส์นี้ ขอรับประกันว่าง่ายและทำตามได้แน่นอน เพราะเรื่องยากๆ เราก็ทำไม่เป็น โจทย์ที่ตั้งขึ้นมาตอนแรก: “ถ้ามี dataset เป็น [ … ]