شماره ركورد كنفرانس :
3798
عنوان مقاله :
بكارگيري روش يادگيري تقويتي سارسا در يادگيري بافر مقدار سفارش در سيستمهاي كنترل موجودي غيرايستا
عنوان به زبان ديگر :
Using Sarsa Reinforcement Learning Method for Replenishment Buffer Quantity in Non-Stationary Inventory Systems
پديدآورندگان :
احمدي حميده ahmadiiii.h@gmail.com كارشناسي ارشد مهندسي صنايع، دانشگاه صنعتي سجاد , نوري امين amin.noori@sadjad.ac.ir عضو هيئت علمي دانشكده مهندسي برق، دانشگاه صنعتي سجاد , باقري محسن m_bagheri@sadjad.ac.ir استاديار، دانشكده مهندسي صنايع، دانشگاه صنعتي سجاد
كليدواژه :
مديريت موجودي توسط فروشنده , يادگيري تقويتي , مقدار بازپرسازي احتياطي , الگوريتم سارسا.
عنوان كنفرانس :
دومين دوره كنفرانس بين المللي مهندسي صنايع و سيستمها
چكيده فارسي :
شيوه ي كنترل موجودي مورد مطالعه در اين مقاله از نوع مديريت موجودي توسط فروشنده (VMI) ميباشد كه در سالهاي اخير با پيشرفت فناوري اطلاعات از يك سو و افزايش رقابت از سوي ديگر، مورد توجه بسياري از زنجيره هاي تامين كالا قرار گرفته است. در اين پژوهش از تلفيق مديريت موجودي توسط فروشنده و يادگيري تقويتي به مديريت سفارشات در يك زنجيره تامين سه سطحي پرداخته شده است. در اين مدل عامل توزيع كننده مسئول پايش و كنترل موجودي خرده فروش است. تقاضاي مشتري غيرايستا بوده و توسط دو روش پيشبيني هموارسازي نمايي و هموارسازي خطي هولت، پيشبيني ميشود. براي مواجهه با نوسانات تقاضاي غيرايستا، مقدار بازپرسازي احتياطي به عنوان بافر مقدار سفارش با كمك يادگيري تقويتي به نحوي اتخاذ ميشود كه كمترين هزينه موجودي را به سيستم اعمال كند. روش يادگيري تقويتي استفاده شده روش سارسا ميباشد كه يكي از روشهاي متداول تفاوت گذرا ميباشد. نتايچ حاصل از شبيهسازي در طي 1111 دوره بازپرسازي حاكي از عملكرد مناسب يادگيري تقويتي در مساله مديريت موجودي در محيط غيرايستا است.
چكيده لاتين :
In this paper, we study the Vendor Managed Inventory (VMI) policy that due to Developments in IT and increase in competitions has recently been the center of attention in many supply chains. In this study, the combination of VMI and reinforcement learning is used to manage orders in a three-level supply chain. In our supply chain problem, one supplier is responsible for managing a retailer’s inventory under non-stationary customer demand. Retailer does not have control on inventory replenishment amount. Instead, the supplier is responsible for maintaining appropriate inventory levels of the retailer and use prediction methods like exponential smoothing and Holt linear smoothing for predicting non-stationary customer demand. To cope with the nonstationary demand situation, the safety replenishment quantity is used as a buffer of order quantity, which is determined with the application of reinforcement learning with consideration of minimizing the inventory cost. Sarsa algorithm is applied in this paper, which is a kind of Temporal Difference Reinforcement Learning techniques. The simulation results over 1000 period of replenishment proves the efficiency of proposed method.