Recently Published
Danh sách (R list) và ứng dụng
Minh họa về ứng dụng của R list thay thế cho if, else trong lập trình hàm
Binary outcome in IVF studies
Phân tích hồi quy logistic và trường hợp tổng quát của nó - một mô hình hồi quy GLM với phân phối Binomial, cho phép suy diễn thống kê cho kết quả nhị phân hoặc xác suất thành công của thử nghiệm.
Phân tích mạng lưới tương quan: nghiên cứu Sản khoa
Giới thiệu về quy trình phân tích mạng lưới tương quan (correlation network) áp dụng cho một nghiên cứu Sản khoa.
Ứng dụng DAG nghiên cứu IVF
Bài này giới thiệu về phương pháp xác định những yếu tố cần hiệu chỉnh, bằng cách dùng Directed acyclic graph (DAG): đồ thị có hướng, không tuần hoàn
Hồi quy Binomial
Chúng tôi giới thiệu một phương pháp phân tích hợp lý và chính xác hơn cho kết cục là tỷ lệ, áp dụng lý thuyết xác suất cho biến rời rạc và mô hình hồi quy tuyến tính tổng quát với phân phối nhị thức (Binomial).
Mô hình hồi quy Gamma
Chúng tôi giới thiệu một giải pháp linh hoạt và phổ quát hơn cho bài toán so sánh giá trị trung bình của biến định lượng giữa nhiều phân nhóm độc lập, đó là mô hình tuyến tính tỗng quát phân phối Gamma.
Suy diễn thống kê từ mô hình logistic
Giới thiệu về tất cả những thông tin mà ta có thể suy diễn từ mô hình hồi quy logistic.
Mô hình GLMM Gamma cho nghiên cứu IVF
Áp dụng mô hình tuyến tính tổng quát với hiệu ứng hỗn hợp (Generalized Linear mixed model, GLMM) để phân tích một dữ liệu từ nghiên cứu của Qianwen Xi và cs (2020)
Mô hình hồi quy Bernoulli (Logistic) nghiên cứu IVF
Khảo sát mối liên hệ giữa một số đặc điểm cơ bản, bao gồm Tuổi, loại hiếm muộn do nguyên nhân buồng trứng, tiền sử sản khoa, AFC, AMH, nội mạc tử cung ngày trigger của phụ nữ hiếm muộn và kết cục thai lâm sàng (Clinical pregnancy) của chu kì IVF.
Mô hình hồi quy Binomial cho nghiên cứu IVF
Dùng mô hình hồi quy Binomial Bayes để so sánh khả năng đạt được phôi có phẩm chất tốt giữa 2 kỹ thuật thụ tinh nhân tạo: ICSI (bơm tinh trùng vào bào tương noãn) và IVF cổ điển.
Hồi quy ZINBI
Mô hình hồi quy phân phối ZINBI áp dụng cho nghiên cứu ART trên đối tượng phụ nữ giảm dự trữ buồng trứng
Mô hình hồi quy Negative Binomial Bayes
Kết quả dùng trong workshop về Mô hình hồi quy Negative Binomial Bayes ứng dụng cho nghiên cứu IVF
Tạo thông số lâm sàng từ dữ liệu chuỗi
Trong bài hôm nay, Nhi sẽ trình bày một ý tưởng cho phép các bạn hoán chuyển từ dữ liệu chuỗi thành những thông số lâm sàng có ý nghĩa, từ đó cho phép thực hiện những mô hình và kiểm định thống kê.
Vẽ chord diagram trong 1 nốt nhạc
Ứng dụng package chorddiag cho cả ma trận biến định tính nhị phân và định lượng
Mô hình Markov ẩn
Giới thiệu với các bạn mô hình Markov ẩn (Hidden Markov model, HMM), thông qua package seqHMM của Satu Helske và Jouni Helske, mới được công bố vào đầu năm 2019.
Trích xuất features cho dữ liệu chuỗi
Giới thiệu về R package tsfeatures. Công cụ này cho phép thực hiện rất nhiều quy trình trích xuất features - vốn trước kia chỉ có thể làm bằng Matlab.
Hồi quy Gamma
Giải pháp phổ quát cho dữ liệu lệch dương trong nghiên cứu y học
Giải phẫu đường cong ROC
Thực hiện một phân tích ROC hoàn hảo và vượt xa bất cứ phần mềm thống kê thương mại nào khác.
Đánh giá mô hình Multiclass
10 tiêu chí phân loại cho mô hình Multiclass
dabestr
dabestr, viết tắt từ tên gọi "Data Analysis using Bootstrap-Coupled Estimation", là một công cụ tiện lợi do Joses W. Ho, một nghiên cứu sinh người Singapore tạo ra, với ý tưởng kết hợp suy diễn thống kê bằng phương pháp bootstrap và đồ họa để tạo ra một dạng biểu đồ với tên gọi "estimation plot" cung cấp nhiều thông tin hơn so với các dạng biểu đồ khoa học truyền thống
Phân tích mạng tương quan
Trong bài này, Nhi sẽ giới thiệu với các bạn sử dụng phương pháp Network analysis để đi xa hơn và khai thác thêm nhiều thông tin từ correlation matrix.
Đánh giá mô hình hồi quy
Trong bài này, Nhi sẽ giới thiệu với các bạn tất cả những chỉ số cho phép đánh giá phẩm chất của một mô hình hồi quy.
Giới thiệu package broom.mixed
Ngày 21/10 vừa qua, package broom.mixed được công bố trên CRAN, và Nhi sẽ giới thiệu với các bạn về nó trong bài này. Đây là một công cụ tiện lợi, cho phép chúng ta diễn giải và khai thác nội dung của những mô hình Mixed model dựng bằng bất cứ packages nào theo cùng một cách thức.
Hàm map của package purrr
Việc sử dụng hàm map không chỉ rút gọn cú pháp của vòng lặp mà còn nâng cao tốc độ tính toán khi làm việc với dữ liệu lớn. Một ưu điểm khác mà ít người nhận ra : hàm map cho phép đồng bộ với các « pipelines » của những packages thuộc hệ sinh thái tidyverse (dplyr, broom, ggplot2…) cũng như tương thích với những packages của bộ đôi H. Wickham-Max Kuhn như recipes, rsamples… , cho phép thực hiện quy trình liên tục, trôi chảy.
Logistic và Tensorflow
Hai biến tấu của mô hình Logistic sử dụng TensorFlow
Hồi quy Bayes sử dụng TensorFlow
Bài thứ nhất làm quen với greta, một giao thức trên R cho phép dựng mô hình thống kê Bayes bằng TensorFlow.
Mạng mô hình Bayes
Phương pháp mạng mô hình Bayes mở ra nhiều ứng dụng tiềm năng cho nghiên cứu Y học lâm sàng, vì cho phép các bạn kể một câu chuyện hấp dẫn và hợp lý với dữ liệu hiện có, suy diễn nhân quả, bằng kết quả phân tích đa biến,dựa vào lý thuyết y học và tất cả những ưu thế mà trường phái Bayes có thể mang lại.
Outlier detection by Kmean clustering
Qua bài thực hành này, các bạn đã làm quen với phương pháp K-means clustering analysis dựa vào khoảng cách Euclide, cho phép phân chia dữ liệu thành các nhóm đặc thù, với ứng dụng để phát hiện những trường hợp bất thường trong dữ liệu.
CNN cơ bản: Phân biệt 4 loại tế bào bạch cầu
Mục tiêu của bài thực hành này nhằm trình bày các bước cơ bản trong một quy trình xây dựng mô hình mạng neuron tích chập (Convolutional Neural network), để giải quyết vấn đề nhận dạng/phân loại vật thể trong ảnh chụp. Thí dụ minh họa trong bài có nội dung là phân biệt 4 loại tế bào bạch cầu bao gồm Lympho bào, bạch cầu đa nhân trung tính (neutrophils), bạch cầu ái toan (eosinophil) và Monocyte từ ảnh chụp của chúng.
Nhận diện vật thể trong ảnh chụp
Tiến sĩ Shirin Glander, một đàn chị trong giới data science tại Đức vừa công bố một thí dụ cho thấy tính khả thi và đơn giản đáng ngạc nhiên khi thực hành Computervision model với keras và lime. Tuy bài viết của chị ấy rất đáng quý,vì có hiệu quả tích cực, khích lệ tinh thần của những người nghiệp dư - tự học trong đó có Nhi; nhưng nội dung của bài mang tích chất biểu diễn, nhưng có thể gây khó hiểu cho nhiều bạn , do đó Nhi quyết định biên tập lại thí dụ minh họa và code của Shirin kèm theo diễn giải bằng tiếng Việt cho các bạn bác sĩ tại VN.
Phân tích chuỗi trạng thái
Bài thực hành ngắn hôm nay đã giới thiệu với các bạn một ý tưởng mới có thể áp dụng cho nghiên cứu lâm sàng/dịch tễ với thiết kế trường diễn/theo dõi kéo dài và kết quả là một biến rời rạc nhiều giá trị. Nhi cũng giới thiệu sơ lược về một công cụ trong R cho phép khảo sát chuỗi sự kiện/trạng thái.
DALEX: Giải pháp toàn diện giải thích mô hình
Sự góp mặt của package DALEX vào danh sách những công cụ diễn giải nội dung mô hình là một tín hiệu lạc quan cho thấy chúng ta đang tiến rất gần đến một thời kì mới, trong đó mô hình hồi quy tuyến tính không còn là sự lựa chọn duy nhất cho nghiên cứu Y học. Nhiều mô hình khác vốn thuộc về trường phái Statistical learning hay Machine learning cũng có thể được dùng như công cụ để suy diễn thống kê và khai thác thông tin từ dữ liệu thực nghiệm.
Bayes: Mảnh ghép cuối cùng
Trong phiên bản mới nhất của package sjstats, tác giả Daniel Lüdecke đã bổ sung một loạt hàm cho phép suy diễn Bayes trực tiếp từ object mô hình brms và rstanarm. Bài thực hành hôm nay sẽ giới thiệu với các bạn về các hàm này.
Mô hình phân cấp phi tuyến tính BAYES
Package brms hỗ trợ thực hiện mô hình phi tuyến tính, phân cấp với cấu trúc mô hình có thể mở rộng thoải mái.
SamplesizeANOVA
Quy trình mô phỏng cỡ mẫu cho posthoc test ANOVA đơn biến
Mô hình Bayes tự bổ túc dữ liệu
Một tính năng rất "bá đạo" của package brms, đó là mô hình đa biến, tự động bổ túc dữ liệu bị thiếu sót. Tuy còn nhiều nhược điểm nhưng đây là một ý tưởng rất đang thử nghiệm
Meta-analysis bằng Bayes
Phân tích tổng hợp chỉ là 1 trường hợp cá biệt của mô hình với random effect, và ta có thể thực hiện nó bằng Bayes.
Piironen prior
Ứng dụng prior hình móng ngựa của Piironen và Vehtari (2017) bằng 3 cách khác nhau
ANCOVA theo Bayes
Phân tích hiệp phương sai theo Bayes
Diễn giải logistic cá thể
Nếu chúng ta có thể diễn giải một mô hình logistic cho từng cá thể, đặc biệt là trên cá thể hoàn toàn mới (chưa từng có trong dữ liệu gốc dùng để dựng mô hình), nhiều câu hỏi thú vị hơn về thực hành lâm sàng có thể được trả lời.
Tensorflow deep learning : Bài toán Nhị phân
Một quy trình hoàn chỉnh và chuẩn để dựng quy luật chẩn đoán nhị phân dựa vào mô hình Deep neural network với keras.
rsample: May mắn trong tầm tay
Giới thiệu package rsample của Max Kuhn và Wickham, một công cụ tuyệt vời để tái chọn mẫu
Hàm map package purrr
So sánh hiệu quả hàm map của package purrr với vòng lặp for loop và hàm apply.
Biểu đồ cho bảng chéo
5 dạng biểu đồ khác nhau cho bảng chéo đa chiều
Tensorflow deep learning : Hồi quy
Một mô hình tuyến tính thủ công bằng Step-wise phải mất từ 2-5 năm, trong khi đó với mạng thần kinh nhân tạo, một cái máy có thể dựng mô hình hằng ngày, với độ chính xác cao hơn nhiều.
Package recipes
Làm thống kê như nấu ăn, thật đơn giản, thật thú vị
Keras vs RandomForest
Ứng dụng TensorFlow Deep neural net cho một bài toán phân lớp với 10 nhãn giá trị. Tuy mô hình cuối cùng kém hơn RF nhưng Nhi học được rất nhiều kinh nghiệm thú vị
Keras vs Gamlss
Deep learning đấu với mô hình LMS
Naive Bayes ứng dụng Y khoa
Trong bài này, Nhi muốn giới thiệu đến các bạn đồng nghiệp về một giải thuật (algorithm) cổ điển bên phái Machine learning, có tên là Naive Bayes, những ưu thế và hạn chế của nó khi áp dụng giải quyết vấn đề trong chuyên khoa Y.
Association rule
Quy luật kết hợp thay thế cho bảng chéo và Chi2 test
Đánh giá mô hình phân loại
25 chỉ số để đánh giá hiệu năng của một mô hình phân loại, giao thoa Machine learning và Y học lâm sàng.
Exploring Datasaurus
Thí nghiệm datasaurus với 13 biến thể dữ liệu và bài học rút ra
Overplotting ggplot2
Giải pháp khắc phục hiện tượng chồng lắp khi vẽ biểu đồ với rất nhiều cases.
Package broom
Công dụng của broom là trích xuất nội dung của một output object - kết quả của một mô hình thống kê và tóm tắt thông tin này vào một dataframe. Tên gọi broom chính là để diễn tả việc dọn dẹp từ một mô hình rối rắm thành một dataframe gọn gàng, sạch đẹp, sẵn sàng để đưa vào báo cáo, hoặc làm nguyên liệu để vẽ những biểu đồ.
Diễn giải Random Forest
Một package vừa được công bố vào cuối tháng 7 năm 2017 bởi tác giả Aleksandra Paluszyńska. Công dụng của package này cho phép khảo sát nội dung bên trong một mô hình Random Forest.
Gamlss 7: Mô hình Lambda-Mu-Sigma
Mô hình LMS không còn là phương pháp độc quyền của những tổ chức quốc tế nữa. Các bạn bác sĩ Việt Nam hoàn toàn có thể tự tạo mô hình LMS cho riêng mình.
BRMS1: Bayesian Logistic GAM
Trong bài đầu tiên này, chúng ta sẽ làm quen với một trong những tính năng mới của brms, đó là tích hợp những hàm Smoothing (splines, tensor product…) vào mô hình GLM và tạo ra mô hình GAM.
Dplyr tutorial
Hướng dẫn sử dụng dplyr
DRMnet
Vào tháng 9 vừa qua, một vũ khí mới được bổ sung vào danh sách này, đó là package DMRnet của Agnieszka Prochenka-Sołtys và Piotr Pokarowski
Correlation network 2
Vẽ 1 chùm bong bóng tương quan
Giới thiệu ggridges
Một package mới cho phép đảo chiều và tách biệt density curve và histogram
BAYES: Hồi quy Nhị thức âm
Đây cũng là một bài giảng với tham vọng cao nhất,vì chúng tôi sẽ đề cập đồng thời nhiều vấn đề tương đối phức tạp, bao gồm: Phân tích biến số đếm (count data) bằng phân phối Nhị thức âm, mixed model có chứa random effect, và Hồi quy tuyến tính đa biến
BAYES: ANOVA lặp lại
Trong bài này chúng ta sẽ thay thế phân tích phương sai cho thí nghiệm lặp lại (Repeated measure ANOVA) bằng mô hình hỗn hợp và hồi quy Bayes.
BAYES: ANOVA đơn biến
Trong bài hôm nay chúng ta sẽ thay thế phân tích phương sai 1 yếu tố (One-way ANOVA) bằng phương pháp hồi quy Bayes. Đây cũng là lần đầu tiên một bài giảng có sự góp sức của tất cả 4 thành viên trong Core team của project.
Diễn giải mô hình bất khả tri bằng LIME
Giới thiệu phương pháp LIME cho phép giải thích bất cứ mô hình nào, kể cả mô hình blackbox
BAYES Phân tích tương quan (Pearson's r)
Thay thế phân tích tương quan cổ điển bằng phương pháp Bayes.
BAYES Chisquared test
Bài thứ 3 trong project Bayes for Vietnam, có mục tiêu thay thế test Chi2 cổ điển bằng 2 quy trình BAYES.
Bayes T test
Mục tiêu của bài thực hành này là giới thiệu một cách tiếp cận hoàn toàn mới theo trường phái Bayes để so sánh 2 phân nhóm, thay thế cho test t.
STAN1 Logistic regression
Hồi quy logistic theo BAYES sử dụng STAN và giao thức rstanarm
Mô hình liên hợp BAYES
Trong bài trước, chúng ta đã làm quen với package JM cho phép dựng mô hình Joint model bằng phương pháp REML. Như đã hứa, Nhi sẽ giới thiệu tiếp một package khác (của cùng tác giả Rizoupoulos) cho phép dựng Joint model bằng phương pháp Bayes.
Mô hình liên hợp (Joint model)
Mô hình liên hợp (Joint model) cho phép chúng ta hợp nhất hai bộ phận tưởng chừng như độc lập trong một thử nghiệm lâm sàng, đó là bài toán Longitudinal analysis và bài toán Survival analysis.
Toán tử Pipes trong R
Ba năm về trước, sự ra đời của package « magrittr » và những toán tử « Pipes » đã tạo ra một thay đổi mang tính cách mạng cho ngôn ngữ R. Toán tử pipe không chỉ thay đổi về cách thức viết R code, làm cho R code trong sáng và được cấu trúc tốt hơn mà còn thay đổi cách tư duy của người dùng R.
Gamlss 6: Thành phần đa thức
Chúng ta không thể chỉ dùng duy nhất mô hình hồi quy tuyến tính để mô tả về thế giới phi tuyến tính.
Gamlss 5: Thành phần tham số tuyến tính
Mô hình gamlss có 2 đặc tính quan trọng : thứ nhất là chuyên biệt cho tham số của họ phân phối xác định, thứ hai là có cấu trúc nhiều thành phần, bao gồm 3 phần chính là : tham số, bù trừ và ngẫu nhiên. Phần tham số lại chia ra thành 2 loại bao gồm tuyến tính và phi tuyến tính.
Bài hôm nay Nhi sẽ giới thiệu sơ lược về thành phần tham số tuyến tính (các yếu tố tuyến tính này có thể gia giảm nên còn được gọi là phần cộng thêm : linear parametric additive term).
Gamlss 4: Thành phần bất định (Random Effect)
Bài này giới thiệu 1 số thuật ngữ về mixed model, random effect và 4 hàm gamlss cho phép đưa random effect vào mô hình.
Gamlss 3: Suy diễn thống kê
Suy diễn thống kê cho mô hình hồi quy giúp đưa ra câu trả lời cho 3 câu hỏi : thăm dò dữ liệu để phát hiện quy luật, dùng mô hình để chứng minh quy luật và giả thuyết, và dùng mô hình như 1 quy luật để tiên lượng hoặc phân loại. Với mô hình hồi quy, việc diễn giải dựa vào hệ số hồi quy của mô hình. Bootstrap là một giải pháp rất hữu ích để khẳng định về độ tin cậy của kết quả suy diễn hệ số hồi quy. Kiểm định độc lập mô hình là bắt buộc và rất quan trọng để có thể sử dụng mô hình như một quy tắc thực hành.
Gamlss 2: Gamlss là 1 thư viện khổng lồ về lý thuyết xác suất
Trong bài thực hành thứ 2 của series về Gamlss này, Nhi muốn chuyển đến các bạn 3 thông điệp như sau:
1) Khái niệm về thành phần phân phối trong cấu trúc mô hình GAM
2) Cách thăm dò và chọn lọc quy luật phân phối phù hợp cho mô hình
3) Quy trình Stepwise và Kfold cross validation
Suy diễn nhân quả và giải pháp từ chuyên ngành khác
Ngoài công việc chuyên môn, chúng ta nên quan sát và học hỏi thêm từ các chuyên ngành, lĩnh vực khác như Kinh tế học, Xã hội học, Tâm lý học. Bên đó người ta có những phương pháp thống kê độc đáo mà nếu mình lĩnh hội được thì có thể mang áp dụng cho chuyên môn của mình.
Gamlss 1: Tại sao phải dùng Gamlss ?
Có thể nói Gamlss là võ lâm chí tôn cho phái hồi quy. Nó là 1 framework phức tạp và tổng quát nhất cho mô hình hồi quy.