Reproducibility Là Gì

     

Bình luận Reproducibility Là Gì – Nghĩa Của trường đoản cú Reproducibility là phát minh trong nội dung hiện tại của blog Tiên Kiếm. Tham khảo nội dung để biết cụ thể nhé.

Bạn đang xem: Reproducibility là gì


Chú thích: Nguyên bản nội dung bài viết này bàn về “reproducible research”, nghỉ ngơi đây chúng tôi tạm dịch là “nghiên cứu vớt khả lặp”, quan niệm tóm lược về “nghiên cứu khả lặp” là loại nghiên cứu khoa học không những có báo cáo kết quả nghiên cứu và phân tích mà còn bao gồm đầy đủ công việc thực hiện, đồng thời công bố các thông tin quan trọng (dữ liệu, thuật toán sử dụng,…) để fan khác rất có thể tiến hành lại nghiên cứu nhằm chứng thực tính đúng chuẩn và mở rộng phân tích dựa bên trên nền tảng phân tích cũ. Ở phía trên “reproducible” giỏi “reproducibility” sở hữu nghĩa có tác dụng lặp lại, có công dụng thực hiện nay lại nghiên cứu và phân tích đã được công bố.

Bạn sẽ xem: Reproducibility là gì

Khoa học hiện thời được cho là đang rơi vào hoàn cảnh cuộc rủi ro khủng hoảng về tài năng tái lặp. Tài năng tái lặp có vẻ được hoan nghênh với thường là yếu tố bắt buộc đối với các phân tích mang tính cộng đồng (chẳng hạn trên những tạp chí như nature tốt science). Vấn đề chung cho xu thế này là việc các nghiên cứu có công dụng được thực hiện lại một cách độc lập thì sẽ có được tính tin tưởng cao hơn những nghiên cứu và phân tích không thể thực hiện lại một bí quyết độc lập. Cũng cần lưu ý rằng phân tích khả lặp không những mang chân thành và ý nghĩa xác minh, không dừng lại ở đó nữa nó sẽ với lại ích lợi thiết thực cho việc mở rộng phân tích hay xây đắp các nghiên cứu tương tự. Khó có thể tìm thấy những chủ kiến phản chưng các luận điểm trên, nhưng đề nghị xét tới thực tiễn rằng với từng nhóm phân tích cũng cần đầu tư một nguồn lực nhất mực trong việc tạo cho các nghiên cứu của họ trở nên khả lặp đối với các nhà phân tích độc lập. Chẳng hạn việc lặp lại toàn bộ những xem sét trong chống thí nghiệm. Tuy nhiên cũng có khá nhiều biến thể đơn giản dễ dàng hơn, chẳng hạn như tài năng lặp lại so sánh dựa trên những bộ dữ liệu đã biết.

Các loại nghiên cứu khoa học không giống nhau sẽ khác biệt về tài năng tái lặp. Một lấy ví dụ là nghiên cứu toán học, trong nhiều trường đúng theo các nghiên cứu này có thể chấp nhận được việc khả lặp dựa vào những phương trình trong bạn dạng thảo. Một ví dụ không giống là các phân tích hiện trường, thường xuyên thì hiệu quả phụ thuộc vào các yếu tố không điều hành và kiểm soát được. Chẳng hạn việc tái lập cục bộ một nghiên cứu về ảnh hưởng của một cơn bão ngay trước và sau khi nó xảy ra ngoài ra là điều không thể, ít nhất xét về tính tác dụng của nó.

Phạm vi bây giờ về kỹ năng tái lập đang chỗ nào đó thân hai lấy ví dụ mà công ty chúng tôi chỉ ra sinh hoạt trên, cùng phạm vi này thu nhỏ hay mở rộng nhờ vào vào những bộ luật pháp sẵn có cho những nhà nghiên cứu. Phần mềm nguồn mở, năng lượng điện toán đám mây, tàng trữ dữ liệu cùng vô vàn các công cố kỉnh điện toán sẵn tất cả đã không ngừng mở rộng phạm vi này vào việc có thể chấp nhận được các phân tích khả lặp có thể được triển khai trên nhiều loại nghiên cứu hơn hai ví dụ sống trên. Tuy nhiên, lối nghịch chữ về một cuộc rủi ro của phân tích khả lặp cho thấy rằng những bộ hiện tượng hiện tại, tuy vậy rất quan lại trọng, tuy thế chưa xử lý được sự việc một phương pháp triệt để.

Hiện tại chúng tôi đang thao tác trong một dự án về một phân tích bao gồm mức độ tinh vi vừa đề nghị với một lượng dữ liệu cũng vừa đề xuất (49061 dòng) và shop chúng tôi đang thể nghiệm xem để đổi mới nó thành một phân tích khả lặp hoàn toàn thì cần được làm các gì. (Nghiên cứu giúp này vấn đáp cho một thắc mắc rất đơn giản: các loại thân gỗ chỉ chiếm tỉ lệ bao nhiêu trong giới thực vật?). Kinh nghiệm của shop chúng tôi trong việc nỗ lực biến nghiên cứu này trở nên khả lặp có thể hữu ích đến những bàn thảo tiếp sau về phong thái làm nắm nào để những nhà khoa học yêu cầu ít thời hạn và ít yếu tố kinh nghiệm hơn cửa hàng chúng tôi để thực hiện các nghiên cứu khả lặp của riêng biệt họ. Nói bí quyết khác, việc làm này cho biết thêm chúng tôi hữu ích đến cả nào trong việc mở rộng phạm vi khả lặp cho nhiều loại nghiên cứu và phân tích hơn và bằng phương pháp đó, làm cho khoa học ngày càng an toàn hơn.

Cuối cùng, phân tích và report của shop chúng tôi đã được tái lặp một cách hòa bình và tương đối thuận tiện cho hầu như ai ao ước tái lặp phân tích này, nhưng lại để triển khai được bài toán tái lặp ở tầm mức độ này chưa phải là không yêu cầu bỏ công sức. Cho đa số ai quan tiền tâm, tổng thể mã lệnh cùng tài liệu của cửa hàng chúng tôi có sẵn tại địa chỉ này.

Có 2 phần trong bài toán biến một dự án công trình trở cần khả lặp: dữ liệu và các phân tích sẽ tiến hành. Chúng tôi cũng chú ý rằng thực tiễn dự án này là khả thi vì những phân phát triển gần đây trong việc tàng trữ dữ liệu. Công việc viết một mã lệnh để tải tài liệu chính từ Dryad và sẵn sàng cho việc phân tích nó tương đối là đối kháng giản. Mặc dù nhiên, vấn đề đó chỉ chứng minh một bắt đầu cho thách thức: bước phân tích dữ liệu giờ đây trở thành bước khó khăn nhất. Phần đa điều ngay tiếp theo là list ngắn những bài học rút ra từ thực tiễn thao tác làm việc của chúng tôi. Mỗi bài bác học cho thấy một demo thách shop chúng tôi phải quá qua trong quy trình thực hiện nghiên cứu và phân tích khả lặp và công cụ shop chúng tôi chọn để tuyên chiến và cạnh tranh với thử thách đó.

Những thử thách và qui định cho việc tái lặp

Sử dụng nguồn dữ liệu tiêu chuẩn

Chúng tôi tải tài liệu về từ các nguồn chuẩn (Dryad cùng The Plant List) và chỉ sửa đổi chúng sử dụng các câu lệnh nhằm đảm bảo những biến hóa bảo toàn được nguyên vẹn đặc thù của dữ liệu ban đầu. Tiện ích của các dữ liệu mở đang chỉ được nhận biết nếu họ tôn trọng tính định danh của dữ liệu và không tạo ra hàng trăm bạn dạng sửa thay đổi chỉ khác biệt chút ít. Điều này cũng giúp cho việc ghi công của không ít người góp phần dữ liệu. Tuy nhiên các vấn đề như những tiêu chuẩn chỉnh phân các loại chưa thống duy nhất vẫn đang là 1 trong những vật cản lớn so với các dữ liệu về sinh thái xanh học.

Kết hợp suy xét và mã lệnh

Chúng tôi áp dụng gói knitr đến R nhằm thực thi các phân tích theo phong cách lập trình gồm giải thích. Cục bộ các phân tích, bao gồm những biện giải cho các hàm cốt lõi rất có thể tìm thấy trên đây. Mặc dù nhiên, thao tác với những nhóm mã lệnh nhiều năm hay cần thời gian đáng kể để chạy vẫn đang là 1 trong những vấn đề nhức đầu.

Xem thêm: Mức Bù Rủi Ro Là Gì ? Cách Tính Phần Bù Rủi Ro Dễ Hiểu Phần Bù Rủi Ro Là Gì

Kết xuất các thông số kỹ thuật động

Toàn bộ việc xử lí tài liệu của cửa hàng chúng tôi được tiến hành bởi những mã lệnh, và chúng tôi có thể xóa không còn các thông số đầu ra và tạo thành lại bọn chúng một bí quyết dễ dàng.

Tự cồn lưu trữ những thành tố phụ thuộc

Chúng tôi áp dụng GNU make để thống trị các thành tố nhờ vào trong dự án, chỉ thay đổi những phần cần sửa lại. Qui định này cũng giúp cho quá trình phát triển dự án trở nên một tiến trình tự đóng gói.

Quản lý phiên bản

Toàn cỗ mã lệnh của shop chúng tôi được cai quản phiên phiên bản sử dụng git từ lúc bắt đầu, điều này được cho phép chúng tôi điều hành và kiểm soát các phiên bạn dạng cũ một giải pháp thuận lợi. Đây cũng là trung tâm tài liệu của gần như thứ chúng tôi làm. Xem nội dung bài viết này giúp thấy vai trò to bự của cai quản phiên phiên bản tới quá trình nghiên cứu.

Tự động đánh giá các biến đổi để đảm bảo an toàn không tạo nên vấn đề

Chúng tôi thực hiện môi trường khối hệ thống tích hợp tiếp tục (continuous integration) Travis CI để giám sát biến hóa trong phân tích để ngăn ngừa lỗi. Mỗi khi chúng tôi tạo ra một gắng đổi, hệ thống này cài mã mối cung cấp của shop chúng tôi xuống mặt khác với những dữ liệu liên quan và chạy phân tích, với sẽ nhờ cất hộ cho shop chúng tôi một thư năng lượng điện tử nếu bởi vì lý do nào đấy phân tích bị lỗi. Hệ thống này thậm chí còn còn cài lên những phiên bản đã biên dịch của phân tích với ghi chú mọi khi chạy.

Đóng gói các thành tố phụ thuộc

Chúng tôi sử dụng gói packrat đến R để cai quản và giữ trữ những gói R phụ thuộc để chắc chắn khả năng khả lặp trong tương lai. Về khía cạnh lý thuyết, vấn đề này nghĩa là giả dụ phiên phiên bản của gói phần mềm đó đổi khác nhiều mang lại mức gây ra lỗi trong mã lệnh của chúng tôi thì công ty chúng tôi đã gồm sẵn một bạn dạng lưu trữ hoàn toàn có thể sử dụng được. Đây là một trong những công gắng mới, chúng tôi chưa xác nhận được nó có vận động hay không.

Những thử thách còn quăng quật ngỏ

Chúng tôi phân biệt rằng việc đổi khác những phân tích đang hoạt động từ máy tính của tín đồ này (với rất nhiều tùy chỉnh cá nhân cho laptop của họ) sang fan khác là một trong những việc khó khăn khăn. Lấy ví dụ như như vụ việc này. Thiệt khó để tham gia đoán được mọi vì sao dẫn tới không nên sót: trong quy trình tái lặp nghiên cứu và phân tích này vày Carl Boettiger một vấn đề đã tạo nên do việc chưa hoàn thiện tài liệu về các phiên bản gói cung ứng R nên thiết.Gói mã lệnh xúc tiến các các bước trên là tương tự về size khi tiến hành phân tích trong thực tế; đó là một thách thức thật sự cho các nhà nghiên cứu. Việc thực hiện nhiều ngôn ngữ và framework khác biệt làm ngày càng tăng yêu mong về các mảng loài kiến thức mang tính kĩ thuật hơn, cũng giống như khả năng xảy ra các vấn đề vẫn tăng lên. Càng auto hóa quá trình này thì các nghiên cứu khả lặp đang càng trở yêu cầu phổ biến.

Phương pháp tiếp cận sử dụng hệ thống tích hợp tiếp tục có tiềm năng lớn hỗ trợ cho việc làm chủ các dự án nghiên cứu dựa trên công nghệ điện toán trở nên thuận lợi hơn. Mặc dù nhiên, tuy nhiên phân tích của công ty chúng tôi mang tính nguyên tắc nhiều hơn thế nữa là ứng dụng thực tế, nó sẽ bị giới hạn ở những mặt: đòi hỏi dự án bắt buộc là mối cung cấp mở, phân tích cần chạy tương đối nhanh (dưới 1 giờ). Những giới hạn này là thích hợp lý so với các dịch vụ miễn mức giá nhưng nó sẽ không còn thể thỏa mãn nhu cầu được các dự án phân tích sử dụng những thông tin “nhạy cảm” và những tính toán có thể kéo dài nhiều giờ hay các ngày.

Chúng tôi nhấn thấy mục tiêu khả lặp mang lại dự án đã trở thành một lấy một ví dụ hữu ích, cùng nó đã trở thành nền tảng cho những dự án tiếp sau. Mặc dù nhiên, quá trình này đã trở yêu cầu thức tạp rộng nhiều, để cho việc hướng dẫn cho tất cả những người khác cách để làm cho dự án của bọn họ trở phải tái lặp không đơn giản chỉ qua lời nói.Chúng ta đề nghị phải trở nên tân tiến những công cụ, ít nhất phải dễ dùng như cai quản phiên bạn dạng trước khi họ mong đợi câu hỏi tái lặp dự án trở thành một xu hướng chung.Chúng tôi không phản bác chủ ý của Titus Brown về việc tái lặp một trong những phần thì giỏi hơn là ko tái lặp gì cả (50% số người làm cho quá trình của họ có tác dụng tái lặp 1/2 có vẻ tốt hơn 5% số người làm cho côgn câu hỏi của họ có công dụng tái lặp 100%!). Mặc dù nhiên, chúng tôi không đồng tình với ý kiến của Titus nhận định rằng những công cụ bắt đầu là không đề xuất thiết. Những công cụ bây giờ là rất thô sơ và nhiều tới mức khó mong muốn chờ các nhà khoa học áp dụng trên diện rộng xu thế tái lặp vì phương châm chính của họ chưa hẳn để tái lặp. Nếu cho rằng việc tái lặp là ko hấp dẫn, bọn họ không thể trông chờ tín đồ khác bỏ thời gian và công sức của con người của bọn họ ra để đóng góp cho xã hội những thứ tốt đẹp.

Những nỗ lực cố gắng khác mang đến mục tiêu dễ dàng và đơn giản là thực hiện lại nghiên cứu ở một máy tính khác cũng không khả thi hơn cố gắng nỗ lực của shop chúng tôi là bao. Một nghiên cứu của nhóm UBC Reproducibility cho biết họ tất yêu tái lặp kết quả của 30% số đông phân tích được công bố sử dụng gói hỗ trợ phổ biến đổi STRUCTURE, cùng với cùng dữ liệu được cung cấp bởi tác giả. Một trường vừa lòng đáng bi lụy hơn, một nhóm phân tích tại đại học Arizona cho biết họ chỉ có thể build được khoảng một nửa số ứng dụng nguồn mở nhưng họ hoàn toàn có thể tải xuống mà không xét tới bài toán kiểm tra bản lĩnh của ứng dụng (lưu ý rằng nghiên cứu và phân tích này lúc này đã được tái lặp!).

Xem thêm: Có Được Lấy Sổ Bảo Hiểm Xã Hội Khi Nghỉ Ngang Cty Có Lấy Được Sổ Bhxh ?

Quá trình làm cho cho nghiên cứu và phân tích của chúng tôi trở đề nghị khả lặp đến thấy họ chỉ đã tiến được rất nhiều bước nhỏ trong việc làm cho nghiên cứu khả lặp trở yêu cầu phổ biến so với các nhà khoa học trong thực tế.